中文互联网基础语料3.0正式发布 赋能人工智能高质量发展
据中国网络空间安全协会最新消息,9月17日上午,在昆明举办的2025年国家网络安全宣传周人工智能安全治理分论坛上,备受关注的中文互联网基础语料3.0版本正式面向社会发布。这一重要数据资源的更新,标志着我国人工智能基础设施建设迈出关键一步。
作为新一代核心语料库,3.0版本在数据规模与质量上实现双重突破。据技术团队介绍,该版本通过扩大优质中文网站信源覆盖范围,构建起更完备的中文互联网信息生态,同时采用多层级过滤机制,显著强化对违法不良信息的识别与清除能力。最终形成的120GB高质量数据集,可为各类大模型训练提供可靠、安全的基础数据支撑。
此次语料库升级恰逢我国人工智能产业快速发展期。业内专家指出,可信语料资源的持续供给,对提升大模型训练效果、防范算法偏见具有重要意义。随着3.0版本的正式应用,预计将推动自然语言处理、智能内容生成等领域的技术创新,为构建安全可信的人工智能生态奠定坚实基础。