火山引擎多模态数据湖解决方案是面向 AI 时代的智能数据新基建,完整覆盖湖计算、湖存储、湖管理、湖分析等场景。
方案中的AI数据湖服务LAS能够实现对文本、图像、音视频等非结构化数据资产的统一精细化管理,同时也能为模型预训练、后训练、AI 应用构建与开发提供端到端的智能数据服务。
近期,火山引擎LAS在智能驾驶场景中实现了应用和落地。
本篇文章将聚焦在“智能驾驶”场景,拆解LAS的核心湖存储格式——Lance,如何实现快速构建新一代 AI 数据湖,并高效存储、管理和处理多模态数据(文本、图像、音视频等)。
方案背景
A客户是一家来自中国的知名汽车企业,专注智驾网联(Intelligent Connected Vehicle)场景。
本文针对该客户在智能驾驶场景中海量多模态数据(文本 / 图像 / 点云等)的管理与处理挑战,提出基于 Lance 格式的 AI 数据湖解决方案。
核心通过三大技术实现突破:
1. Zero-Cost Data Evolution:动态标注场景下新增数据列无需重写历史数据集,降低 30% 存储成本。
2. 透明压缩:ZSTD 编码压缩点云数据达 70% 压缩率,显著减少网络带宽压力。
3. 点查询优化:列投影与轻量级 shuffle 机制提升训练效率,GPU 利用率达 96%。
方案已落地某车企客户,实现 EB 级数据处理效率提升 3 倍,模型训练交付提速 40%。下文将具体展开客户痛点与技术实现路径。
难点与挑战
在构建智驾系统的过程中,A客户面临以下挑战:
数据爆炸:
实时采集车辆多模态数据(摄像头、激光雷达等),单辆测试车每日产生数 TB 数据,量产车规模扩大后可达 EB 级。海量非结构化数据(如驾驶视频)需转化为结构化信息(如目标检测、路径规划)。
核心问题:
1. 存储:如何在降低数据存储成本的同时,依然能在点查和范围扫描的场景上性能无损失
2. 计算:如何高效实现单机实验到生产工程化,按时交付大规模数据。
3. 检索:如何快速挖掘海量非结构化数据中的业务价值。
4. 管理:如何跟踪数据处理 pipeline,持续优化流程。
方案详情
/ 架构升级:Lance驱动的解决方案
优
势一:数据挖掘与管理
1. 客户痛点:客户原先使用 LMDB 存储格式,每次增加推理标注列时需读取和重写全量数据集,导致数据重复和存储膨胀,GPU 资源浪费严重。
2. Lance方案:通过统一元数据管理,支持增量更新,无需重写历史数据。实测减少存储成本 30%,管理效率提升 50%。
优势二:模型训练优化
1. 客户痛点:训练任务需高效利用 GPU 资源,确保稳定性和迭代速度。传统方法因 IO 放大和内存膨胀导致 GPU 利用率仅 60%。
2. Lance方案:点查询功能(Point Query)实现轻量级数据 shuffle 和列投影,仅读取必要字段,避免 IO 放大。客户实测:单机 8*A100 GPU 利用率从 60% 提升至 96%,训练任务交付时间缩短 40%。
/ Lance核心优势
1. Zero-Cost Data Evolution
在智能驾驶场景,数据标注精细度决定模型性能上限。
Lance提供zero-cost data evolution 机制,有力的支持了动态标注场景:
- 交通要素自动标注:红绿灯、交通标志等。
- 动态参与者标注:行人、车辆轨迹。
- 环境条件标注:光照、降水、能见度。
在使用对应场景的数据集进行微调模型时,需要基于一些标签筛选出特性场景的数据集,这个时候就需要一些标签数据,例如是否是阴天的图片,是否是有行人的图片,而这些标签的自动标注的过程其实一个增加列的行为。
传统方法(如 LMDB 或 Pickle)在新增列时需重写数据集,耗费大量资源。而Lance 支持通过操作清单(Manifest)元数据实现数据集的快速schema evolution。而不需要重写历史数据,只需要对变更的数据重新更新到元数据中即可。
- 列添加:通过向每个片段添加新列的数据文件(DataFile)来实现。
客户实测效果:
- 推理吞吐量提升50%:单机8*A100 GPU利用率从60%提升至90%
- E2E处理效率提升3倍: 10PB 数据的标签处理由4Days变成1Day
2. Transparent compression
Lance 支持ZSTD压缩编码,对点云和标签数据具有较高的压缩比,能够很好的实现压缩存储空间占用同时还能够降低网络带宽。
而且Lance本身的压缩是定义在schema中的,对于数据的写入或者读取是无感的,透明的,所以易用性有很大提升。
成本收益:
3. Point Query For AI Train
Lance 的点查询机制解决训练场景瓶颈:
/ 总结
Lance 在智能驾驶场景中实现了数据管理、训练效率和成本优化的突破。通过 Zero-Cost Data Evolution、透明压缩和点查询等特性,客户 PB 级数据处理效率提升 3 倍,GPU利用率稳定在90%以上。
欢迎 AI 从业者加入 Lance 社区,共同构建下一代 AI 数据基础设施。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...