随着人工智能技术迈向大模型时代,行业发展正经历从“以模型为中心”向“以数据为中心”的范式转移。近年来以GPT、DeepSeek为代表的大模型技术突破实践表明,数据质量与规模已成为决定模型性能的核心要素。尤其是DeepSeek模型在复杂逻辑推理任务中取得突破性进展,源于其R1模型采用的数学推理数据集,不仅要求答案正确性,更对解题步骤的规范性、逻辑链的完整性提出严格标准,这种精细化的数据设计使得模型在抽象思维能力上实现质的提升。
大模型参数规模指数级增长与多模态能力的拓展,促使数据需求从量级积累转向质量提升。一方面,模型训练需要覆盖更广的知识范畴、更多元的数据场景,这对数据的多样性与代表性提出更高要求。另一方面,大模型从通用能力向垂直领域深度融合时,面临着数据瓶颈的严峻挑战。尤其是医疗、法律、工业等专业领域存在明显的“数据孤岛”现象,领域知识密度高但结构化程度低,且涉及隐私保护与数据安全等问题,高质量的数据集构建成本往往成为技术落地的主要障碍。
数据资源已成为全球人工智能产业竞争的核心战略要素。欧盟于2022年通过的《高价值数据集实施法案》已率先在环境、地理空间等关键领域明确了数据开放的标准与规范,推动公共数据的高效流通与再利用。以OpenAI为代表的国际领先企业正通过强化微调等技术手段,依托小规模但高度精准、结构化的高质量数据集,实现大模型在垂直领域的专业化和实用化演进。这种“以质取胜”的数据策略显著提升了模型性能与落地能力。面对全球AI竞争的新格局,我国亟需加快构建标准化、合规化、可持续发展的高质量数据供给体系,为大模型技术研发和产业化提供坚实支撑。这不仅是提升国家人工智能核心竞争力的关键环节,也是实现数字经济高质量发展的重要路径。
在人工智能产业发展浪潮中,高质量数据集建设已成为核心战略方向,从国家顶层设计到地方创新实践,各行各业都在积极探索。
国家层面,多举措陆续完善顶层规划。2023年12月,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》,强化场景需求牵引,带动数据要素高质量供给、合规高效流通。2024年,政府工作报告提出开展“人工智能+”行动,从顶层设计层面规划人工智能技术与大模型数据集建设。同年,《关于促进数据产业高质量发展的指导意见》首次明确提出“高质量数据集”,将其作为人工智能与实体经济融合的核心载体,并提出开发行业数据集的具体要求。随后一系列政策相继发布,《关于促进数据标注产业高质量发展的实施意见》《关于促进企业数据资源开发利用的意见》以及《国家数据基础设施建设指引》均提出建设行业“高质量数据集”,由此数据集高质量发展成为行业发展重要目标。2025年2月,国家数据局组织27个部委召开高质量数据集建设工作启动会,全力推动高质量数据集建设高效赋能行业发展。
地方层面,各地立足区域特色,积极探索高质量数据集建设创新路径,形成了各具特色、协同发展的良好局面。有的出台政策积极鼓励,包括江苏、苏州、贵州、成都、上海、宁波、广东、福建、杭州、河南、山东等地分别从数据集建设、数据质量评价、数据产品开发等多方面建立相互补充、各具特色的政策体系。有的发布打造具有领域特色的行业案例,比如苏州发布30个高质量数据集,覆盖工业制造、交通运输、金融服务等领域。北京国际大数据交易截止目前为大模型提供覆盖32个行业475个数据集,形成覆盖自然语言处理、多模态交互的行业专有高质量数据集体系。
研究层面,大模型企业和科研机构也积极贡献力量,丰富行业数据资源,为人工智能技术的持续创新提供动力。百度发布的百度百科数据集、百度搜索数据集等,凭借其庞大的数据规模和丰富的信息内容,成为研究人员和开发者进行模型训练和算法优化的宝贵资源。阿里巴巴发布的中文问答数据集,为智能问答系统的研发提供了高质量的训练数据。哈工大自然语言处理实验室发布的大规模中文分词、词性标注和命名实体识别数据集,为中文自然语言处理领域的研究提供了重要数据支撑。智源研究院发布的中英双语数据集IndustryCorpus1.0包含3.4TB开源行业预训练数据,覆盖18类行业,为人工智能领域的跨语言研究和应用提供参考。
《高质量数据集 建设指南》(征求意见稿)中定义高质量数据集(high-quality dataset)是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的集合。基于高质量数据集是面向人工智能应用的前提条件,那么它与人工智能数据集是什么关系、有哪几类的数据集、怎么才算是高质量,这些都是在建设数据集之前需要探讨清楚的问题,下面将从数据集的概念、数据集的分类、高质量的内涵三方面理清高质量数据集的概念。
人工智能数据集是指用于训练和开发人工智能模型的数据集合。包含图像、文本、语音等大量标注的数据样本,用于训练人工智能系统识别和学习特征模式。通常一个数据集由四个主要部分构成:特征、标签、元数据和样本。
特征是数据集的输入变量,它们描述了每个样本的具体属性。标签是数据集的输出变量,是需要预测的目标。元数据提供数据本身的信息,如数据收集的时间、地点、来源等。样本则是单独的一条数据记录,由一组特征向量和对应的标签组成。例如机器学习的经典数据集鹃尾花数据集(Iris Dataset)包含150条样本,均匀分为3类鸢尾花,每类50个样本,以花萼长度、花萼宽度、花瓣长度、花瓣宽度作为分类的核心特征。图像领域的ImageNet视觉识别数据集,包含超过1400万张高分辨率图像,涵盖2万多类别,每张图像标注了类别标签,以及超100万张图像甚至还包含物体边界框的标注信息。
从数据模态来看,可以分为单模态数据和多模态数据。单模态包括文本、图像、音频、IoT数据等,多模态数据包括图文数据、视频数据、思维链数据等等类型。单模态数据中,文本数据是非结构化的语言信息,用于自然语言处理的机器翻译、情感分析等场景以及语言模型的训练;图像数据是像素矩阵构成的视觉信息,用于计算机视觉的图像分类、目标检测,医疗影像分析以及自动驾驶等场景;音频数据是声波信号,用于语音识别、音乐生成、工业设备异常检测等场景;IoT(物联网)数据主要是传感器的实时流数据,例如温度、湿度、加速度等,用于设备状态的监控、智慧城市中交通流量的预测等场景。而多模态数据是指两种及以上模态数据的融合,通过模态互补提升模型的鲁棒性,用于图文生成、视频理解等场景。思维链数据则是一种特殊的文本形式,可以是单模态也可以是多模态,主要是通过分步推理解释模型决策,演绎从问题到答案的具体推理步骤,用于数学证明、逻辑谜题等模型的复杂推理,同时也提高人类对模型的信任度。
从流程阶段来看,可以分为预训练数据集、指令微调数据集和评测数据集。预训练数据集是用于大规模无监督或自监督学习的基础数据集,通过让模型从中学习通用特征和知识,为后续任务提供强大的初始参数。它是大模型训练的基石,其核心逻辑是“先通识教育,再专业精修”。其特点是海量、无需标注且来源广泛,包括网页内容、书籍、学术文献、编程代码、平行语料库、社交媒体和百科全书等。指令微调数据集是用于进一步微调预训练的大语言模型,使模型能够更好地理解和遵循人类指令,从而增强大模型的能力。通常由一系列的问答对组成,问题一般是向大模型发出的请求或指令,答案一般是根据请求生成的响应。评测数据集是为了评估大模型在各种任务的表现,为大模型提供性能测量的标准。通过评测数据集,研发人员可以定量衡量大模型的性能,识别模型优化方向。
从数据应用来看,可以分为通识数据集、行业通识数据集和行业专识数据集。数据集作为开发和训练人工智能模型的重要支撑,不同类型模型所需数据集蕴含的通用知识、行业领域通用知识、行业领域专业知识的内容、范围和数量也不一样。通识、行业通识、行业专识三类高质量数据集,主要是通过数据集的知识内容、来源类型、时效性、标注人员类型、敏感程度、模型类型、主题范围等维度来进行划分。通识数据集包含面向社会公众、无需专业背景即可理解的通用知识,主要用于支撑通用模型落地应用;行业通识数据集包含面向行业从业人员、需要一定专业背景才能理解的行业领域通用知识,主要用于支撑行业模型落地应用;行业专识数据集包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业知识,主要用于支撑业务场景模型落地应用。
为满足人工智能模型训练和应用的需求,数据集质量评估包含静态评估和动态评估两种方式。在静态评估方面,一是要扩展规范性、完整性、准确性等传统数据质量“六性”指标的范围,比如数据集建设过程的完整性、标注的规范性、标注的准确性、多模态数据内容的一致性等;二是需新增多样性、真实性、合规性等面向人工智能应用的指标,包括数据领域分布的多样性、数据来源的真实性、数据内容的合规性(例如是否存在数据后门、符合隐私安全)等等。在动态评估方面,高质量数据集应能有效的提升模型性能,因此一是需引入合适的模型进行辅助评估,通过建立基准模型、基准评测数据集以及评估指标,通过基准测试,客观并量化模型性能提升的程度,明确高质量的要求;二是要搭建测试平台,统一评估标准和工具,确保不同数据集之间的公平比较,提高数据集质量的可比性和通用性。在实践方面,中国信通院组织编制技术标准明确数据质量评估方法和评估指标,助力数据集高质量判定有据可依。
图 1 高质量数据集质量评估指标框架
本文节选自大数据技术标准推进委员会在“2025数据智能大会”上发布的《高质量数据集实践指南(1.0)》。
报告介绍及全文下载链接如下:
中国信通院云计算与大数据研究所深入开展高质量数据集的质量评估、数据集建设、人工智能数据工程、数据标注平台、合成数据等相关的理论研究、标准规范、评估测试等工作,提供全面的建设咨询规划服务。愿会同行业各方凝聚共识、形成合力,共同推进高质量数据集建设,推动数据要素更好赋能经济社会高质量发展。
联系方式:
中国信通院云大所
白玉真
18810275013(微信同号)
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...