随着多模态数据在各行业的重要性不断提升,如何高效管理这些数据成为企业面临的关键挑战。自动驾驶领域在处理图像、点云、视频等多样化数据方面积累了丰富经验,其解决方案对其他行业具有重要参考价值。
传统多系统架构在处理PB级数据时面临性能瓶颈,本文将展示如何通过Apache Doris实现多模态数据的统一管理与实时检索。
某自动驾驶技术公司为乘用车提供高级驾驶辅助系统和自动驾驶解决方案,其产品涵盖从感知到控制的完整技术链。通过与多家汽车制造商合作,该公司积累了海量真实道路数据。
每日新增数据达数百TB,总存储量以PB计算。这些数据被处理为包含丰富元数据的片段,数量超过数亿,对应的训练帧达到数千亿规模。

算法工程师日常工作中需要:
这些操作要求系统能够每秒处理百万帧数据,并在高并发下保持秒级响应速度。
自动驾驶领域的数据检索可分为四种主要类型:

同时支持这四类检索模式是架构设计的主要挑战。
初期解决方案采用三套独立系统:

这种架构导致工程师需要在不同系统间切换,工作流程复杂且效率低下。随着数据量增长,系统间的同步和维护成本也显著增加。
新架构的核心是将多种检索能力整合到统一的分析引擎中。基于Apache Doris构建的系统具备以下特点:

架构升级后取得了显著成效:

自动驾驶领域的这一实践为解决多模态数据管理难题提供了可行方案。这种统一架构不仅适用于智能驾驶,也可为智慧城市、工业质检等领域的数据管理提供参考。