太平洋电脑网 05-13
苹果开源FastVLM视觉语言模型 为智能穿戴设备铺路
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

【太平洋科技快讯】5 月 13 日,苹果机器学习团队在 GitHub 上发布并开源了一款新型视觉语言模型 ( VLM ) —— FastVLM。该模型提供 0.5B、1.5B 和 7B 三个版本,基于苹果自研的 MLX 框架开发,并借助 LLaVA 代码库进行训练,专为 Apple Silicon 设备的端侧 AI 运算进行了优化。

FastVLM 的核心是一个名为 FastViTHD 的混合视觉编码器。该编码器专为在高分辨率图像上实现高效的 VLM 性能而设计,其处理速度较同类模型提升 3.2 倍,体积却仅有 3.6 分之一。FastViTHD 通过减少令牌输出量并显著缩短编码时间,实现了性能的飞跃。

根据技术文档显示,FastVLM 在保持精度的前提下,实现了高分辨率图像处理的近实时响应,同时所需的计算量比同类模型要少得多。最小模型版本 ( FastVLM-0.5B ) 的首词元响应速度比 LLaVA-OneVision-0.5B 模型快 85 倍,视觉编码器体积缩小 3.4 倍。搭配 Qwen2-7B 大语言模型版本,使用单一图像编码器即超越 Cambrian-1-8B 等近期研究成果,首词元响应速度提升 7.9 倍。

苹果技术团队指出,基于对图像分辨率、视觉延迟、词元数量与 LLM 大小的综合效率分析,他们开发出了 FastVLM。该模型在延迟、模型大小和准确性之间实现了最优权衡。该技术的应用场景指向苹果正在研发的智能眼镜类穿戴设备。多方信息显示,苹果计划于 2027 年推出对标 Meta Ray-Bans 的 AI 眼镜,同期或将发布搭载摄像头的AirPods设备。

FastVLM 的本地化处理能力可有效支持此类设备脱离云端实现实时视觉交互。MLX 框架允许开发者在 Apple 设备本地训练和运行模型,同时兼容主流 AI 开发语言。FastVLM 的推出证实苹果正构建完整的端侧 AI 技术生态。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai apple 开源 分辨率 机器学习
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论