高质量数据集是指经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型表现的数据的集合。高质量数据集主要服务于人工智能的实际应用场景,通常包括以下四个核心组成要素:特征、标签、元数据和样本。特征是模型训练的输入变量,用于描述每个样本的具体属性;标签是需要模型预测的目标输出;元数据记录了数据生成与处理过程的相关信息,如采集时间、地点、来源等;样本则是构成数据集的基本单元,由特征向量及其对应的标签共同组成。例如,机器学习中的经典数据集鸢尾花(Iris)数据集,包含150条样本,均匀分属三类鸢尾花,每类50条样本,使用花萼长度、花萼宽度、花瓣长度和花瓣宽度作为分类特征。再如图像识别领域广泛使用的ImageNet数据集,涵盖超过1400万张高分辨率图像,覆盖2万多个类别,每张图像均配有准确的类别标签,其中超过100万张图像还包含了物体边界框等精细标注信息。
高质量体现在规模“大”、安全“牢”、观点“正”、效果“好”、应用“广”等方面,可以采用静态和动态的质量评价方法来度量。静态质量主要关注数据本身的关键属性,在准确性、完整性、一致性、时效性等基础指标上增加多样性、真实性、合规性等维度,重点评估数据的领域覆盖、来源可靠性以及在隐私保护和安全合规方面的表现。动态质量则强调数据集在模型训练和应用中的实际效果,可通过引入代表性模型开展基准测试,结合基准评测数据集与量化指标,客观衡量模型性能的提升程度,从而明确数据集的“高质量”标准。同时,还应建设统一的质量评估平台,规范评估流程与工具,增强不同数据集之间的可比性与通用性。由于不同行业数据集的模态分布、标注需求差异较大,需根据行业特点应用不同的数据处理技术和方法,其质量评价也需要在通用的指标上进行定制加强。例如,医疗卫生领域,以文本(电子病历)和医疗影像居多,侧重于文本解析、图文结合处理和专业标注等处理方式,更关注数据内容的合规性、安全性和标注准确性;工业制造领域,以时序数据、图像、图纸文档、仿真数据居多,侧重于时序数据处理、高精度合成和专业标注等处理方式,更关注数据内容的真实性、多样性和标注准确性。
高质量数据集的类型和特性因应用场景、数据来源与模型目标的不同而呈现多样化,可以从数据模态、模型阶段与行业应用三个维度对当前主要的高质量数据集进行分类。
在数据模态方面,可以分为单模态数据集和多模态数据集。单模态数据中,文本数据是非结构化的语言信息,用于自然语言处理的机器翻译、情感分析等场景以及语言模型的训练;图像数据是像素矩阵构成的视觉信息,用于计算机视觉的图像分类、目标检测、医疗影像分析以及自动驾驶等场景;音频数据是声波信号,用于语音识别、音乐生成、工业设备异常检测等场景;IoT数据主要是传感器的实时流数据,例如温度、湿度、加速度等,用于设备状态的监控、智慧城市中交通流量的预测等场景。而多模态数据是指两种及以上模态数据的融合,通过模态互补提升模型的鲁棒性,用于图文生成、视频理解等场景。而近期新涌现的思维链数据则是一种数据标注方法或推理过程的表示方法,而非一种独立的数据模态,主要是通过分步推理解释模型决策,演绎从问题到答案的具体推理步骤,用于数学证明、逻辑谜题等模型的复杂推理,同时也提高人类对模型的信任度。
在模型阶段方面,主要分为预训练数据集、微调数据集和评估数据集。预训练数据集是用于大规模无监督或自监督学习的基础数据集,通过让模型从中学习通用特征和知识,为后续任务提供强大的初始参数。它是大模型训练的基石,其核心逻辑是“先通识教育,再专业精修”,特点是海量、无需标注且来源广泛,包括网页内容、书籍、学术文献、编程代码、平行语料库、社交媒体和百科全书等。微调数据集是让模型“术业有专攻”的关键,其核心作用是让模型在特定任务、领域或场景中表现更优,引导模型聚焦特定任务的规律,强化与任务相关的知识,同时弱化无关信息的干扰,最终实现“通用能力+专项技能”的结合。它是连接通用预训练模型与具体应用需求的“桥梁”,相比预训练阶段使用的海量通用数据,微调数据集通常具有规模更小、针对性更强、标注更精细的特点。评估数据集是一类精心设计的数据样本,主要目的是为了相对客观地衡量模型的性能和泛化能力,具备独立性、代表性、时效性等特点。
在行业应用方面,参考技术文件《高质量数据集 分类指南(征求意见稿)》可以分为通识数据集、行业通识数据集和行业专识数据集。高质量数据集作为开发和训练人工智能模型的重要支撑,不同类型模型所需数据集蕴含的通用知识、行业领域通用知识、行业领域专业知识的内容、范围和数量也不一样。通识、行业通识、行业专识三类高质量数据集,主要是通过数据集的知识内容、来源类型、时效性、标注人员类型、敏感程度、模型类型、主题范围等维度来进行划分。通识数据集包含面向社会公众、无需专业背景即可理解的通用知识,主要用于支撑通用模型落地应用,例如百度百科;行业通识数据集包含面向行业从业人员、需要一定专业背景才能理解的行业领域通用知识,主要用于支撑行业模型落地应用,例如行业研究报告;行业专识数据集包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业知识,主要用于支撑业务场景模型落地应用,例如医疗领域的电子病历数据集等。
来 源|CAICT数据要素
编 辑|郝悦
审 核|于寅虎
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...