钛媒体 App 3 月 11 日消息,谷歌周二发布其首个原生多模态嵌入模型 Gemini Embedding 2,将文本、图像、视频、音频及文档统一映射至单一嵌入空间,彻底实现跨模态检索与分类,支持超过 100 种语言。相比仅处理文本的前代,新模型支持最多 8192 个文本输入 token,图像单次最多 6 张,视频最长 120 秒,音频无需转录,PDF 限 6 页。模型已通过 Gemini API 和 Vertex AI 开放预览,适用于 RAG、语义搜索、情感分析等场景。(广角观察)

钛媒体 App 3 月 11 日消息,谷歌周二发布其首个原生多模态嵌入模型 Gemini Embedding 2,将文本、图像、视频、音频及文档统一映射至单一嵌入空间,彻底实现跨模态检索与分类,支持超过 100 种语言。相比仅处理文本的前代,新模型支持最多 8192 个文本输入 token,图像单次最多 6 张,视频最长 120 秒,音频无需转录,PDF 限 6 页。模型已通过 Gemini API 和 Vertex AI 开放预览,适用于 RAG、语义搜索、情感分析等场景。(广角观察)
登录后才可以发布评论哦
打开小程序可以发布评论哦