谷歌发布首个原生多模态嵌入模型Gemini Embedding 2

钛媒体快报 03-11

钛媒体 App 3 月 11 日消息，谷歌周二发布其首个原生多模态嵌入模型 Gemini Embedding 2，将文本、图像、视频、音频及文档统一映射至单一嵌入空间，彻底实现跨模态检索与分类，支持超过 100 种语言。相比仅处理文本的前代，新模型支持最多 8192 个文本输入 token，图像单次最多 6 张，视频最长 120 秒，音频无需转录，PDF 限 6 页。模型已通过 Gemini API 和 Vertex AI 开放预览，适用于 RAG、语义搜索、情感分析等场景。（广角观察）

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

宙世代

一起剪

相关标签