主流价值语料库
推荐单位:人民日报社
申报单位:人民网股份有限公司
一、背景
语料库如同人工智能的“教材”,深刻影响着人工智能的政治立场、价值导向和伦理边界。作为中央重点新闻网站排头兵,人民网在人民日报编委会指导下,依托传播内容认知全国重点实验室科研能力,早在2023年初就启动了主流价值语料库的建设工作,以全领域全任务全形态覆盖的高质量语料,服务模型训练价值对齐要求,为生成式人工智能的应用落地提供安全保障。语料库主要围绕习近平新时代中国特色社会主义思想和中国式现代化涉及的经济、政治、文化等十几个领域,依托党报党网长期建设形成的新闻资讯、理论评论、政策法规和科普知识等优质资源,人民网全员下足“笨功夫”,经科学采样、归集、清洗标注、定制、风控等环节,精心打磨基础语料、图文语料、重点领域语料、问答语料、事实语料、风控语料等六类语料,相关成果在多家主流国产大模型厂家得到应用验证。
二、方案和成效
一是构建科学流程技术体系,提升语料建设效能与质量。经过长期探索与积累,人民网在语料建设、流程规范,运营模式等多个方面取得了扎实进展,构建了科学完备、运行高效的知识体系、管理体系和技术系统。目前主流价值语料库总体规模超过300TB,其中基础语料超过300亿字、问答语料超过30万对,是国内规模最大、内容最权威的主流价值语料库。
二是建立主流厂商对接应用机制,强化语料库落地成效。主流价值语料库已与国内多家代表性厂商开展通用大模型集成对接。集成对接的方式有两种:一是大模型采用主流价值语料库进行训练;二是根据用户需求,直接从语料库调取“标准答案”。从集成对接的情况来看,当前建设所形成的问答语料和基础语料,已经对国内通用大模型的内容导向产生明显的正向纠偏作用。
三是积极参与国家中文语料库建设,推进高质量语料资源共建共享。2025年1月,主流价值语料库在中国网络空间安全协会建设的中文互联网语料资源平台发布。与多地省级媒体合作开展主流价值语料库的共建共享,并积极参与北京、上海等地的语料联盟相关工作。
三、创新点
一是高质量语料建设范式创新。针对大模型面临的瓶颈问题,人民网全员下足“笨功夫”,人工设问、人工作答、三审三校。结合大模型、自然语言处理等多种前沿技术归集、清洗、标注、风控,以“笨功夫”“巧功夫”的有机结合推动高质量语料的高效建设。
二是高质量语料技术体系创新。依托传播内容认知全国重点实验室的技术、算力与数据资源,研究基于大模型与专有模型的语料数据自动分类、精细标注与体系化技术,搭建面向主流价值语料处理的全栈式语料处理工具链和可控共享服务平台。
三是高质量语料智能生产创新。凝练新闻、政策、著作、流行语等素材规律,构建适配多领域的专业语料库和语料生成大模型,结合人工经验对输出内容进行多维度纠偏提质。
来 源|国家数据局
编 辑|郝悦
审 核|于寅虎
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...