近日,AI基础架构与数据智能平台服务商曼孚科技宣布,已于2023年9月完成数千万元B轮融资,本轮投资方为安朴资本。所融资金将主要用于AI基础设施搭建、大模型标注平台闭环更迭以及数据标注市场拓展等。
曼孚科技商业化始于2019年,是一家数据驱动的AI基础设施平台企业,致力于从数据中获取洞见与价值,并以更精简方式构建人工智能应用,实现AI的轻量化与普惠化。
旗下主要产品服务包括:面向数据生命周期管理的数据智能平台、AI数据中台、AutoLabeling平台、AutoML平台以及基础数据服务(数据标注、数据采集、数据清洗)等。
凭借从战略到技术落地的一站式数据解决方案,目前已与数百家企业达成深度合作,业务场景涵盖自动驾驶数据标注、AI数据生命周期管理等。用户包括主机厂、造车新势力、一线科技公司、主流算法公司以及世界顶级Tier1厂商等,2023年营收额预估将实现3倍以上持续性增长。
数据定义模型
AI产业历经多年发展,已逐渐步入技术与商业的交叉点。
算法模型从关注增量的建模改进,转变为强调性能的迭代与优化,以契合商业应用场景对模型质量更为苛刻的要求。
结构化数据已成为AI算法模型开发与迭代的基础。AI强大“理解力”的造就,离不开结构化数据源源不断的输入,和对数据更为精细化的运用。
AI行业正围绕以数据为中心进行整合,谁拥有数据,谁就拥有模型的定义权。
在细分场景,自动驾驶城市NOA热潮兴起。技术范式全面革新下,自动驾驶感知算法向BEV+Transformer架构升级,端到端算法解决方案成为主流,推动自动驾驶感知算法从轻量的CNN二维感知,到基于Transformer四维感知的升维,也催生了数据需求的指数型增加。
自动驾驶在AI大模型的助力下迎来临界点。但量变到质变的前置条件是大规模数据的支持——Transformer大模型质变需要数亿公里标注数据的投喂,并覆盖不断出现的Corner Case,这对数据量产规模以及自动化水平提出了更高的要求。
自动驾驶的终极目标是完成对驾驶员的取代,但在此之前,数据标注员需要率先被神经网络所取代。
AI驱动的数据智能平台
随着BEV+Transformer技术路线成为新一代自动驾驶感知能力的核心架构,数据闭环能力取代算法范式,成为决定商业量产从1到N的胜负关键。
而数据闭环的每一步推进都是成本与效率的博弈,低成本AI数据量产能力又成为助推数据飞轮的关键。
作为行业领先的AI基础架构与数据智能平台服务商,曼孚科技以产品技术为核心驱动力,通过构建AI+RPA驱动的数据平台沉淀数据Know-How能力,在业内率先实现AI数据低成本、无上限、规模化量产。
曼孚科技数据平台核心产品体系由MindFlow SEED数据服务平台与MindFlow AutoLabeling自动标注平台构成,历经多代版本更迭,现已在3D、4D点云数据处理领域,建立起6-12个月的技术壁垒。
具体应用场景上,平台支持自动驾驶等场景下2D、3D、4D全类别标注,如2/3D融合、点云分割、点云时序叠帧、BEV标注等。
针对4D点云标注场景下大规模点云适配渲染问题,曼孚科技自研地图分片与LOD大规模点云渲染技术,4D点云车道线与4D点云分割场景均可实现低配置单帧数亿级点云平稳运行。
作为自动化AI数据平台,RPA与AI能力的建设是曼孚科技构建技术壁垒的核心。
RPA能力主要体现在流程自动化以及调度分发自动化等多个方面。而AI能力则已深入数据流转各环节,具体体现在:
1)覆盖数据预处理、算法推断至结果精修完整算法链路,已商用静态道路自适应分割、动态障碍物AI预处理、AI交互式标注等数十种AI算法标注模型;
2)采用Backbone+多Head算法架构,快速适配不同场景,大幅降低多任务模型研发成本;
3)基于AutoML以及自有数据集构建AI标注模型,自我驱动完成算法迭代;
4)运用迁移学习、知识蒸馏等方式,基于小批量数据+底层通用大模型快速产出算法模型。
RPA与AI能力的强耦合,赋予曼孚科技以更低人力支出与边际成本,提供更具标准化数据解决方案的能力。综合人效平均提升80%,数据生产成本平均降低50%,并实现AI数据低成本、无上限、规模化量产。
基于大模型的AI自动标注体系
作为引领人工智能新一轮跃迁式发展的全新底座,大模型正走深向实,赋能千行百业。
海量参数带来的容量优势,赋予大模型更强的性能与泛化能力,为数据预处理、数据标注等传统依赖人力的环节,提供了全新的技术解决范式。
目前,曼孚科技已完成自动驾驶数据标注视觉大模型研发。通过引入驾驶数据建立RLHF,并基于深度学习与计算机视觉构建大模型,可实现复杂驾驶场景下,数据的高效处理与全自动化标注。
曼孚科技数据标注大模型的主要技术特点如下:
1)基于弱监督与半监督学习,通过少量人工标注数据与大量无标注数据,实现对场景物体的高效检测、分割与识别;
2)基于BEV多视角融合与三维重建,借助多摄像头、激光雷达等来源数据,自动生成场景物体三维信息;
3)运用迁移学习方式,对不同场景与不同模态下的数据,进行统一表示与学习,提升模型泛化能力与适应性;
4)运用主动学习与交互式学习方式,通过与人工标注过程进行反馈,不断优化迭代模型性能。
上述大模型技术加持下,典型自动驾驶数据标注场景平均效率可提升4-5倍以上,引领曼孚科技率先步入自动化数据标注时代。
数据驱动的AI基础设施
算法更新迭代的全生命周期内,从设计、训练、评测到仿真等环节均需要海量数据不断输入作为支撑,其中数据标签是整个流程的基础与起点。
如果说互联网时代是对信息流量的搬运,那么人工智能尤其是大模型时代,则是对海量数据的搬运与精细化运用。
在信息流量的基础上,诞生了诸多影响深远的商业模式。AI时代,任何人也均可使用数据作为“铲子”去探索商业“金矿”。是否拥有质量更高、数量更多的“铲子”,是决定“淘金人”能否真正掌握主动权,淘到金子的关键。
AI大淘金时代,曼孚科技希望扮演起为“淘金人”服务的角色,以数据为驱动力向AI上下游延伸,打造起通用AI基础设施。用户可以以更精简方式构建AI应用并管理全生命周期,同时也可以更加灵活调整模型构建流程中的每个组件,以得到更契合的需求与分析结果。
在上述愿景指引下,曼孚科技目前已在自动驾驶场景构建起AI数据闭环平台,涵盖DaaS数据标注平台、数据管理平台、AutoLabeling平台以及AutoML平台等,提供从数据准备到模型应用的端到端解决方案,并延伸至其他AI应用场景。
其中,数据管理平台集数据存储、处理、导入导出于一体,通过SDK打通数据采集平台、数据标注平台、模型训练平台与生产运营系统等外部平台,借助AI与大数据技术加强智能标签、分析报表、场景挖掘与自然语言搜索等功能体验,提高数据使用与管理效率。
而AutoML平台则是面向自动驾驶等通用视觉场景的自动训练平台,提供算法模型自动训练与快速迭代功能。可自动优化模型结构、参数与超参数,提升性能与泛化能力,实现零代码一键训练,无人值守。
曼孚科技AI基础设施架构
曼孚科技AI基础设施解决方案全面覆盖数据层至算法层,既可提供DaaS服务,也可提供MaaS服务。无论用户规模大小、是否具备AI研发能力,只要存在AI需求,即可使用曼孚科技提供的基础设施,轻松创建专属AI产品,实现从数据到商业价值的转变。
AI For Everyone
独立自研的数据闭环平台、AI数据量产能力以及对客户业务需求的敏锐洞察,让曼孚科技在不断变化的市场中实现业务超预期增长,数据驱动的AI基础设施在自动驾驶等行业验证了应用价值与商业潜力。
下阶段,曼孚科技将继续深耕数据行业,不断完善AI基础设施建设。正如AWS之于云计算,Snowflake之于数据分析一样,曼孚科技希望在AI行业能以数据构建起通用基础设施,帮助用户以更精简方式训练与部署人工智能应用。无论是初创企业、成熟公司亦或是个人,均可通过简单点击或几行代码享受AI带来的便利,实现真正的AI民主化与普惠化。
互联网时代,谷歌凭借搜索引擎掌控了互联网流量入口,微软凭借操作系统掌控了PC生态链的上游,目前尚未出现挑战谷歌、微软等万亿体量的科技新贵,但AI正让一切变得可能。