鄂维南、汤林鹏、张文涛：Data-centric AI | CCCF精选 - 新鲜讯息

当模型和训练工具趋于成熟时，数据正成为决定性因素。数据探索能力的增强已经成为人工智能发展的主题。人工智能也正面临着从model-centric 时代向data-centric 时代的转变。

人工智能正从Model-centric向Data-centric转型

Model-centric AI (MCAI)

2012年，Hinton团队设计的深度学习方法在ImageNet比赛中取得优异成绩，深度学习由此成为人工智能的主流方法。十几年来，模型是深度学习的主线。全连接网络、卷积神经网络、残差网络、循环神经网络、Transformer等一系列网络架构的出现，使我们解析各种不同数据的能力不断增强。"尤其是Transformer的出现，显著增强了模型处理长距离稀疏关联数据的能力。

成功的要素

这些成功并非一蹴而就。2015年前，设计、实现和训练神经网络模型是一个极其困难的事情，需要大量经验和试错。现在的成功得益于两个主要方面。在模型方面：残差网络、批归一化（batch normalization）、特殊的初始化方法和在超参数选取方面积累的经验，大大降低了模型设计和训练的门槛。在工具和平台方面：TensorFlow等工具的出现大大降低了我们尝试各种不同网络架构的成本。倘若没有这些工具，深度学习不可能像现在这样普及。

形势在转变

经过十几年的发展，我们在模型架构方面取得了很大进步，对模型的认识也渐趋成熟。大语言模型出现之后，Transformer架构已成燎原之势。尽管Transformer架构仍然有各种各样的问题，但总体来说，在模型架构上可以探索的空间已经开始受限，模型创新的边际效益开始递减。

图1 数据质量和数量决定模型性能上限

相比较而言，由于对数据基础设施的重要性认识不足，我们操作数据的能力进展缓慢。以大模型预训练为例，训练GPT-4之类的模型需要准备万亿规模token的数据，其清洗、去重、质量评估仍高度依赖人工和经验。这种情况和早期模型试错阶段有些类似，但成本更是惊人：如上述数据准备工作通常需要耗费上百名工程师几个月的时间。数据存储普遍还是采用数据湖的方式，缺乏低门槛和高效率的自动化工具。这给大模型训练效率也带来了困难。在大模型推理阶段，Deep Research等检索式AI系统依赖互联网数据，但面临时延高、质量不稳定、专业信息匮乏等挑战。随着AI智能体（Agent）的普及，高质量、高关联度的针对性数据（如行业知识库、实时业务数据）将愈发关键，这也需要相应的数据准备工具。另外，构建企业级人工智能系统时遇到的普遍挑战是如何在AI专业人才缺乏的情况下，结合企业自身的私有数据构建满足其业务需求的AI模型。解决这个困难需要相应的工具来支撑基于私有数据的模型后训练。这些问题已经成为人工智能推广和落地的主要瓶颈。

更为重要的是，目前AI模型训练中处理的数据模态仍然是比较单一的。即便是多模态模型，其不同模态之间的关系都是通过比较简单的对齐方式实现的。像科学文献中碰到的带有复杂关联关系的多模态数据，仅靠人工和规则就很难处理，需要新的工具。

Data-centric AI （DCAI）

如上所述，当模型和训练工具趋于成熟时，数据正成为决定性因素。数据探索能力的增强已经成为人工智能发展的主题。人工智能也正面临着从model-centric 时代向data-centric 时代的转变。

DCAI的概念虽已出现多年，但未受到足够重视，甚至其含义都不太清晰。究其根本原因，一是基础设施的缺失，二是发展阶段的使然。时至今日，无论是科学智能（AI for Science）的基座模型还是多模态原生的大模型都需要我们从DCAI的角度提出新的框架。近几年来，我们在DCAI基础设施方面做了系统性探索，并建立起了一整套解析、合成、处理、质量评估、存储、和模型的衔接以及在模型中的应用等多个阶段的基本工具。这些基础设施的到位是我们从MCAI向DCAI转变的必要条件。

数据基础设施

数据基础设施的主要需求

目前我们对数据基础设施的需求主要体现在如下几个方面：

训练基座大模型目前数据的采集、预处理、配比等操作主要靠人工、靠经验，自动化的数据准备工具能够大大降低大模型生产的成本和门槛，有助于动态增强大模型的能力。

构建私有知识库，训练个性化大模型对很多机构（尤其是企业）来说，私有数据是其最根本的资产。它们的诉求是用市场上能够获取的大模型，结合自己的私域数据，来构建知识库并生产出满足自己需求的个性化大模型。但普遍来说，他们并没有高度专业的大模型和数据团队。

自动生产小模型和智能体许多具体工作是由小模型或者智能体完成的。成本、效率和精准度是小模型和智能体最重要的指标。生产高质量的小模型和智能体最重要的因素是高质量的数据集：它应该包括且仅包括跟任务相关的数据。要做到这一点，我们就需要高质量的数据抽取和合成工具。

实例：科学导航（Science Navigator）平台

图2给出的场景是北京科学智能研究院牵头建设的Science Navigator科学文献平台。它目前已包含1.6亿篇高质量文献。每篇论文包含标题、作者、摘要、年份、期刊、引用等信息，平均有上百个段落，数十个图像。如果进一步分析，文中还会包含化学分子式、蛋白质序列、数学公式、图表、谱图、电镜图片、算法代码等更加细致的知识。这些信息汇总起来，是数百亿的结构化+非结构化数据。跟通常大语言模型（large language model, LLM）的语料相比，这些数据的模态更加多样，不同模态之间存在着复杂的关联关系，知识也更加深奥且富含长尾内容。如果用时下通常的做法，我们需要数十个数据库系统和各类临时的数据管线（pipeline）脚本。这不仅造成巨大的人力、算力资源浪费，大量有价值的信息，如不同模态之间的关联关系，也难以表达和挖掘出来。

图2 科学文献数据中的诸多模态及模态间复杂的关联关系

利用AI数据基础设施，我们可以在一个数据库内核中统一管理这些海量的结构化+非结构化信息，如主题、年份、引用等结构化信息，标题、摘要、作者、段落等文本信息，图像、蛋白质序列等非结构化数据。用户和智能体的知识查询，可以通过大模型转成结构查询语言（structured query language, SQL），再与向量联合查询执行。这样既能获得前沿和丰富的领域知识，又能降低幻觉。在后续的AI for Science大模型训练中，我们可以在此基础上进行数据合成与动态调度，让模型的训练标准化、自动化并大幅降低成本。

数据基础设施框架

我们先总结一下算力基础设施的主要内容。算力基础设施的底层是CPU、GPU和相应的工具，如CUDA。在此基础上，TensorFlow等工具建立起了模型和算力之间的桥梁。它们一方面让我们能够快速简便地搭建模型，另一方面也对模型的计算效率作了优化。

相较于数据湖，AI数据库提供低延迟查询与内置AI能力，并在同一个系统中处理各类不同模态的数据。除了提供基础的数据准备（如解析、合成、处理和评估）能力外，DataFlow(https://github.com/OpenDCAI/DataFlow)还提供设计数据准备算子和管线的智能体，以及基于模型训练状态来动态调度和配比数据等高级功能。

如图3所示，数据基础设施与算力基础设施的架构设计具有一定程度的对应关系：传统的数据湖和数据仓库则如同算力领域的CPU，承担通用数据存储和基础分析任务，虽灵活性高但实时性和专用计算能力有限；AI数据库作为底层核心计算引擎，其地位与作用类似于GPU在算力体系中的角色，它专注于高性能的并行数据处理和AI原生操作；扩展的SQL（Extended-SQL）生态则对应于CUDA生态，通过支持向量检索和跨模态查询等新型计算范式，大幅提升了数据准备（如基于AI数据库的数据过滤和去重）和动态训练（如基于AI数据库的动态数据调度和配比）的效果和效率；DataFlow数据准备与动态训练工具类似于TensorFlow等模型准备和训练工具，负责数据的获取、处理、评估和动态调度，为上层模型训练和应用提供高价值的数据。这一对应关系揭示了现代数据处理体系正在经历的专用化变革，即从通用存储向智能计算的演进路径。

图3 Data-centric AI数据基础设施概念

AI数据库

数据基础设施的第一要素是AI数据库。AI数据库的基本出发点是用深度学习模型把非结构化数据统一转换为一个或多个高维向量或其他（如图4）表征形式。

图4 AI 数据库能力对比和显示

这些几百到几千维的高维向量包含了丰富的语义信息，因此我们可以基于向量实现非结构化数据的语义检索、相似检索、小样本学习等分析操作。这些都需要完整的数据库功能来支撑。早期的向量处理工具如Milvus注重向量搜索，但不具备完整的数据库功能。专用向量数据库专门为向量检索打造，向量性能较优，但通用性不足，无法胜任AI for Science、工业、金融等复杂场景。以ElasticSearch为代表的关键字查询系统近年也增加了向量拓展，在文本场景应用较多，但因为架构和算法限制，向量查询性能更低。SQL数据库，如Oracle，PostgreSQL最近也都增加了对向量的支持，但同样因为架构和向量算法的不足，性能平庸。2018年，我们开始探索用数据库方法解决几十亿大库指纹的搜索比对问题，并由此开发出了国际上第一个完整的AI数据库MyScale(https://github.com/myscale/myscaledb，其前身是MQDB)。它拓展了SQL，并在同一个系统中支持海量结构化+非结构化数据融合的管理、检索和分析。如图4所示，MyScale AI数据库经过多年技术积累，在大规模数据管理能力和向量查询性能、数据密度方面都名列前茅，为结构化+非结构化大数据检索和分析提供了坚实的基座。

数据基础设施平台的主要工具

按使用流程，数据基础设施平台有如下两类主要工具：

DataFlow数据准备与动态训练工具基于AI数据库和对象存储来统一管理海量多模态数据，通过DataFlow的数据解析、数据合成、数据质量评估、数据处理和数据智能体模块来优化模型训练数据的质量，提供足够数量的带统计信息的高质量和标准化数据。各个模块的主要功能如下：

1）数据解析：通过模块化管线和端到端OCR大模型方法解析原始PDF和图片等得到标准化（如json和Markdown格式）真实数据。

2）数据合成：生成高质量问题、答案和推理过程数据；改写原始数据来合成高质量和多样性数据；通过结构化来合成新的难以获取的数据，以降低标注成本。

3）数据质量评估：通过多种维度评估数据质量，建立科学和成体系的数据处理优化指标，为数据提供评估后的统计信息。

4）数据处理：通过过滤、去重等操作优化数据质量。

5）数据智能体：通过分析数据和任务特性，自动化设计基础算子，并在此基础上优化不同算子的选取和组合方式。

6）数据动态训练（DataFlex模块）：利用AI数据库对海量数据的高频更新和查询能力，结合模型训练过程中的信息（如损失、梯度和数据分布等）以及具体任务（如金融、法律和医疗等）的特点来动态抽取、配比和推荐数据。

DataFLow演示视频：

AI数据库、入库工具、处理工具原始多模态数据保存在数据湖中，利用DataFlow来准备数据，并通过Extended-SQL接口/流处理平台等工具导入AI数据库后，由数据库负责后续的海量结构化+非结构化数据管理。相比于数据湖，AI数据库能够统一处理各种不同模态的数据，支持实时查询、分析海量的标签、数值、向量、文本等信息，从而高效支撑数据准备流程中的过滤、查询、去重操作，并结合分布式处理工具实现海量数据的并发处理和调度。

在整个系统中，AI数据库作为检索式人工智能的存储层，管理着大规模结构化+非结构化数据，是整个系统知识和记忆的核心承载者，以及大规模分布式数据处理的调度者；DataFlow作为数据准备和动态训练层，通过体系化的算子和管线，将原始数据转换为模型训练所需的AI-ready数据，并进一步实现训练和动态数据调用的高效融合。

图5是用DCAI基础设施训练大模型的实例，数据湖里的原始多模态领域数据结构复杂且质量低，通过DataFlow的数据准备模块得到包含统计信息的高质量的标准化数据，再通过动态训练模块来抽取、配比和推荐当前大模型最需要的数据，从而实现大模型的在线训练。这种新范式有许多优点。首先，基于AI数据库可以支持高频数据更新和查询的特点，我们可以做到训练数据的实时选择和知识在线更新。其次，整个训练过程几乎无需人工干预，训练门槛低。最后，AI数据库里的知识更容易溯源，模型生成效果更准确、安全性也更高。

图5 基于AI数据库的下一代LLM训练新范式

DCAI数据基础设施与以Hadoop、Spark为代表的现有大数据架构有很大区别。现有大数据框架主要服务于商业智能（business intelligence, BI）之类的大数据分析。而AI则对非结构化数据的使用和数据的高频率、精细化应用提出了更高的要求。相比Spark等通用计算框架，DCAI基础设施通过AI数据库统一管理多模态数据并提供低门槛的端到端数据准备管线，大幅提升AI数据准备效率。相比传统BI系统，它突破结构化分析模式，支持非结构化数据动态调度和自动处理，适配大模型训练需求。相比HDFS等文件存储系统，它在存储海量数据的同时提供统一查询和实时更新能力，避免传统存储方案的低效检索问题。总之，DCAI基础设施提供了从数据准备到模型训练的全流程优化，显著降低AI开发门槛和计算成本。

Data-centric AI 会带来什么改变？

DCAI模式下，开发者就像用TensorFlow开发模型一样用DataFlow开发数据。用户的主要精力只需集中在收集数据，梳理需求，配合一定的人工标注，并提供对于AI系统效果的反馈。平台建设者的任务则是持续完善各类工具的开发，例如数据算子和管线的开发。

MCAI平台开发的核心任务之一是计算算子的构建。在TensorFlow的平台上，不同模块的算子以搭积木的形式组合构成了不同的模型结构：比如通过组合Conv2D、BN、ReLU、Add等基础算子得到残差块（residual block），再堆叠多个残差块得到经典的ResNet模型。

类似地，DCAI平台开发的核心任务之一是数据算子的构建。如图6所示，在DCAI模式下，我们可以结合DataFlow中数据解析、数据合成、数据质量评估和数据处理四大模块的特点以及各种通用基础算子，针对通用任务构建不同的算子组合管线。此外，结合具体行业任务也可以定制化行业算子及其管线。算子和管线也都可以通过DataFlow数据智能体模块来辅助算子设计和管线推荐，动态训练模块基于模型训练信息来动态调度和配比数据，进一步降低用户使用门槛和提升模型训练效果。

图6 多层次架构的数据算子及其在通用和行业任务上的应用

以通用的强推理数据合成任务为例，如图7所示。该任务需要组合多个模块的算子：数据处理模块算子包括问题预处理、过滤、基于正确性的Question Verify算法；数据合成模块算子包括问题合成&扩充、长思维链（chain of thought, CoT）合成、伪答案生成器；数据质量评估模块算子包括合成问题正确性验证调用、问题难度和类型分类。通过以上算子组合形成的管线最终构成强推理数据合成的管线；通过优化各个算子的超参数来进一步提升强推理数据合成任务的效果。

图7 DataFlow内置的强推理数据合成管线

DCAI基础设施如何为行业赋能？

赋能通用大模型预训练

以大模型的预训练场景为例，相比于通常的人工数据准备方法，基于DataFlow中DataFlex模块的自动化数据准备和调用方法能用更少的数据、更低的门槛、更短的时间来获得更好的效果。图8所示的是一个大模型预训练场景。DataFlex通过模型的梯度和语义信息在训练过程中动态调度和配比数据，只用了4天时间和不到1/10的算力，实现了比十几位算法工程师花手工精心设计四个月更好的效果（具体实验结果见表1）。

(a)训练策略 (b)训练过程曲线

图8 训练策略和预训练过程

表1 自动化数据准备和数据调用方法实验效果对比

赋能企业私有模型

企业有其私有数据。这些数据可能模态复杂、格式杂乱、质量参差不齐。企业也普遍缺乏高水平的AI团队，对研发周期长和研发成本也比较敏感。这些困难阻碍了大模型在企业的有效落地。

基于上述数据基础设施，只需要喂入企业的私有数据，就可以通过统一的平台处理、合成数据，并微调生成企业私有化模型。全程无代码、门槛低、成本低且效率高。对垂直领域也一样。

以NL2SQL任务为例，微调Qwen2.5-Coder-7B-Instruct模型，DataFlow的推荐管线相较于使用了200万条数据的OmniSQL方法在不同任务（如spider1.0-dev、spider1.0-test和BIRD-dev）上都获得了显著的效果提升，并且只用到了8万条数据。

如表2所示，经过DataFlow自动化微调数据准备，8B 检索增强推理建模(Retrieval-Augmented Reasoning Modeling, RARE)方法即可在医疗、法律、金融等领域达到甚至超越DeepSeek R1 671B+RAG效果，实现近两个数量级的参数节省。模型只需要学习领域思维方式(domain thinking)，具体的知识保存在AI数据库中。这不仅仅可以看成是RAG的升级，更是为开启AI的智能化计算模式，即模型管推理（相当于处理器）、数据库管知识（相当于内存），提供了一个雏形。

表2 检索增强推理建模方法实验效果对比

赋能专用知识库

企业数据往往存在大量噪声，无法直接使用。以图9这条量子计算新闻为例，清理前包含广告链接、冗余URL和杂乱格式，而清理后仅保留核心事实，结构清晰、信息准确。

图9 自动知识库清理效果显示

DataFlow的自动化数据准备方案具有三大优势：低门槛——自动化处理，无需复杂操作；高效率——支持大规模数据快速清洗；效果提升——通过精准分块优化检索质量。从测试指标看，清洗后各项数据显著提升，例如完全匹配指标从19.1升至32，F1指标提升近20个百分点，召回率高达84.4%，证明清洗能大幅提升知识库的可用性和检索效率。这套方案将帮助我们从“脏数据”中提炼高价值信息，为智能体提供可靠的知识支撑。

赋能智能体

任务智能体利用系统将LLM自动调优后，可以改进大模型在领域数据上的问题分解、查询改写、工具调用、Text2SQL(Vector)、答案生成等任务上的性能，从而快速优化针对领域数据的探索，辅助决策等智能体应用。

数据智能体 AutoML技术基于模型设计框架（如TensorFlow）来自动设计针对具体任务的网络结构，使这一过程自动化，从而降低用户搭建模型的门槛。同样，DataFlow中的智能体也支持自动化设计管线，通过分析数据特性，自动选择DataFlow模块算子、确定调用顺序以及各个模块的算子组合，从而为当前任务设计最优的数据管线。

小结

人工智能对数据的需求主要在于如下几个方面。一是把原始数据加工成AI-ready的数据。二是精准、高效、低成本地采集与合成数据。三是根据模型需求精准地抽取数据。如果把原始数据比作原油，那么本文介绍的数据基础设施就可以看成是炼油厂或者化工厂。由此加工出的产品才能真正被用户所利用。从人工智能应用的角度来说，这些基础设施将会大大降低落地门槛；从人工智能产业和就业机会的角度来说，数据采集与合成将会成为整个产业体量最大的一部分，这些基础设施将会大大提升这个行业的标准化、自动化、智能化程度，提升生产效率和精准度，同时降低成本；从大数据的角度来说，人工智能在实际场景的快速落地将会推动数据交易市场的形成。同时，这些基础设施在数据要素加工，可信数据空间建设等方面也将发挥作用。

从判别式、生成式到检索式人工智能

人工智能的发展正经历着从判别式（discriminative AI）到生成式（generative AI），再到检索式（retrieval-augmented AI）的范式跃迁。判别式模型擅长分类与预测，生成式模型突破创造与合成，而检索式人工智能则通过深度融合信息检索技术与AI推理能力，实现动态知识获取与精准决策的协同进化。这一演进标志着AI系统的核心能力从静态参数化知识，转向实时检索、记忆管理与推理增强的新范式。

人工智能系统的功能核心体现在四大要素：知识、记忆、思维、工具。其中知识和记忆是系统运作的基石，思维和工具是实现智能决策和行为的关键。知识和记忆负责存储系统的世界认知、历史经验和活动状态等海量半结构化数据；思维和工具涵盖规划与反思、探索与利用、工具选择和调用等诸多灵活复杂能力。

在传统大模型框架下，知识或记忆内嵌于模型参数中。这种方式不仅带来众所周知的幻觉和溯源性问题，也难以应对大规模或快速知识更新。在检索式人工智能中，检索技术成为连接“知识/记忆”与“思维/工具”的重要桥梁，其构建依赖于以下诸多层次：存储层(AI 数据库)、接口层(SQL 拓展)、数据准备和动态训练层(DataFlow)和调用层(RARE/Memory³)。AI数据库为系统提供了高效的数据存储、检索和分析能力，DataFlow以低门槛和低成本来准备大量高质量数据并动态训练模型，而RARE/Memory³实现模型推理能力和记忆能力的分离。检索式AI是数据和模型融合的技术范式。利用Data-centric AI技术，我们可以快速在不同领域，结合复杂的多模态数据，低门槛打造专业、高效的检索式AI系统，从而将大模型与领域需求深度结合，并革新AI系统的开发模式。

致谢：本项目实施过程中得到了国家自然科学基金委“可解释、可通用的下一代人工智能方法”重大研究计划的支持。我们感谢邰骋的贡献，他是AI数据库MyScale的关键推动者之一。还需要特别感谢的是上海库帕思科技有限公司的山栋明先生，和他的讨论对本文的写作有很大帮助。我们同时感谢王雪、周烜、李鑫宇等，他们的工作对本文产生了重要影响。最后，我们感谢北京大数据研究院和墨奇科技对我们早期工作的支持。

鄂维南

CCF会士。中国科学院院士，上海算法创新研究院学术委员会主任，北京大学教授。主要研究方向为机器学习、计算数学、应用数学及其在化学、材料科学和流体力学中的应用。[email protected]

汤林鹏

上海算法创新研究院数智中心负责人。主要研究方向为机器学习、数据挖掘和AI数据库。[email protected]

张文涛

CCF专业会员。上海算法创新研究院研究员，北京大学助理教授。主要研究方向为以数据为中心的机器学习、大模型和数据管理。[email protected]

本文将发表于《计算》第三期。

点击“阅读原文”，加入CCF。