编译 | 汪越
编辑 | Panken
智东西 11 月 29 日报道,据 The Information 报道,据知情人士透露,亚马逊正在开发一款新的多模态 AI 模型,代号为 Olympus。Olympus 不仅能够理解文字,还具备强大的图像和视频分析能力,特别在视频场景理解和精确的运动分析方面表现突出。
据知情人士透露,Olympus 在生成文本和解决复杂问题的能力上可能不如 OpenAI 和美国 AI 大模型独角兽 Anthropic 的最新语言模型,但亚马逊看中了它在视频处理方面的潜力,计划以更具竞争力的价格提供这一服务,并希望减少对 Anthropic 技术的依赖。
Anthropic 的 Claude 聊天机器人是亚马逊云科技(AWS)上的热门产品,亚马逊最近向 Anthropic 注资 40 亿美元,使其总投资额达到 80 亿美元。
▲亚马逊首席执行官 Adam Selipsky(左)与 Anthropic 首席执行官 Dario Amodei(右)(图源:Getty Images)
据知情人士透露,Olympus 的视频理解能力非常强大,能够精准判断篮球何时离开球员的手并预测其运动轨迹,这些是传统视频识别技术难以实现的。对于拥有大量视频数据的 AWS 客户(如体育分析、媒体和娱乐公司),Olympus 将是一个重要的工具,帮助他们更高效地分析和处理视频内容。
虽然目前亚马逊、OpenAI 和 Anthropic 等公司已经推出了支持图像和文本分析的语言模型,但视频分析技术还处于起步阶段。Olympus 的推出标志着亚马逊进军视频 AI 市场的战略布局,目前这个市场主要由谷歌的 Gemini 模型和专注于视频理解技术的 AI 公司 Twelve Labs 主导。
据 The Information 报道,亚马逊有可能在即将召开的 AWS re:Invent 大会上公布 Olympus 的更多细节。亚马逊目前尚未对此作出回应。
2023 年 4 月,亚马逊发布了一款仅支持文本的 Titan 系列语言模型,但该模型未能在市场上引起太大的反响。面对自研大语言模型(LLM)的困境,亚马逊转而依赖 Anthropic 等初创公司为其云服务提供技术支持,尤其是在数字助手和 AI 编程产品方面。
去年,负责 Olympus 项目的亚马逊高级副总裁 Rohit Prasad 制定了一项计划,期望赶超竞争对手的大语言模型。据知情人士透露,这项计划包括训练四个大型模型,其中一个为 4000 亿参数的文本模型,另一个为 2 万亿参数的文本模型。
这些模型的参数规模将与 Meta 的开源 Llama 模型(4050 亿参数)和 OpenAI 的 GPT-4(超过 1.5 万亿参数)相当。未来,亚马逊还计划将这些大型文本模型与视觉模型结合,以赋予它们更多的多模态能力。
▲亚马逊高级副总裁 Rohit Prasad(图源:Getty Images)
结语:AI 视频分析能力强化亚马逊竞争力
随着 Olympus 在参数规模和多模态能力上的不断提升,亚马逊将在运动分析和视频场景理解领域吸引更多需要高精度视频分析的云服务客户。
与此同时,视频 AI 市场的竞争将愈发激烈,谷歌的 Gemini、Twelve Labs 等视频理解领域的领先者将面临亚马逊的强力竞争。通过 Olympus,亚马逊不仅将减少对 Anthropic 的依赖,还将在大模型领域进一步增强自主技术能力。
来源:The Information
登录后才可以发布评论哦
打开小程序可以发布评论哦