经济观察报 11-06
蚂蚁数科李哲:高质量数据将成为AI产业化的重要基础
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

10 月 30 日,在 "AI 紫竹 数智赋能 "2024 发展论坛上,蚂蚁数科 AI 科技技术负责人、蚂蚁天玑实验室主任李哲发表了主题演讲,分享了蚂蚁数科在人工智能(AI)数据服务方面的实践经验,并阐述了高质量数据在推动 AI 产业化中的关键作用。

李哲指出,当前 AI 行业快速发展,数据的重要性愈发突出。与算力和算法相比,AI 在应用落地中愈加依赖高质量、特定行业的垂类数据,特别是在解决细分场景的实际问题时,更需依靠具有行业针对性和高精度的数据支撑。因此,李哲强调,高质量的数据服务将成为未来 AI 产业化的基础。

李哲将 AI 数据服务的发展分为三个阶段。在 2014 至 2022 年间的弱人工智能时代,数据服务的关键词是 " 数据闭环 ",即通过数据反馈和模型迭代来提升算法性能,如图像识别中的人脸识别技术。李哲指出,蚂蚁数科在这个阶段致力于提升人脸识别的安全性,通过自动化数据闭环系统不断优化算法,以应对包括深度伪造视频在内的多种风险,形成了一套高效的安全性测试流程。目前,这一系统已广泛应用于安卓手机的人脸识别安全测评,为行业安全标准树立了标杆。

进入 2022 至 2023 年,以大语言模型为代表的生成式 AI 带来了第二阶段的变革。此时的数据服务重点在于高效的数据标注,以确保 AI 能够通过大规模数据训练具备人类知识和理解能力。李哲介绍,蚂蚁数科 AI 基础数据服务标注业务,涵盖医疗、出行、社交、金融等多个场景,结合自动化标注能力形成覆盖多领域的高效专业标注体系。

随着 AI 技术迈向 AGI(通用人工智能)时代,数据服务迎来了第三个阶段,即多模态数据合成。李哲指出,未来的 AI 应用需要大量稀缺且难以获取的长尾数据,如自动驾驶中的极端天气数据和具身智能的数据。在此背景下,数据合成成为关键,蚂蚁数科通过仿真技术和强化学习等方法,将生成的高质量数据应用于多模态模型的训练,进一步提升 AI 的泛化能力和适应性。

在具体的实践中,蚂蚁数科通过多个创新项目推动 AI 数据服务的发展。在数据管理和流通方面,蚂蚁数科推出了 "DataFab" 数据处理解决方案,实现了数据的可信、可控流通。李哲介绍,这一系统将蚂蚁数科内部各类数据资源整合,通过安全的流转机制,使数据高效服务于不同业务场景。目前,DataFab 已在蚂蚁内多个业务主体中应用,支持千 PB 级数据处理,有效提升了大模型训练效率。 

此外,李哲还展示了蚂蚁数科在 AI 安全方面的探索。针对人脸识别安全,蚂蚁天玑实验室联合多个机构推出国内首个金融场景 "AI 换脸 " 检测标准;针对大模型安全性测评与伦理道德问题,蚂蚁数科推出了 " 蚁鉴 "" 天鉴 " 服务,为大模型在行业应用提供了全方位的安全保障。

李哲表示,蚂蚁数科将继续在 AI 数据服务和技术创新上深耕,与更多产业伙伴合作,共同推进 AI 技术在多行业的应用落地。

李仕静 / 文

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

ai 李哲 人工智能 人脸识别 自动化
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论