星途科讯 4小时前
Datalab推90亿参数开源模型lift,PDF提取准确率达90%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

Datalab 正式发布 lift,一款拥有 90 亿参数的开源权重视觉模型,专攻结构化数据提取。该模型允许用户通过提供 JSON Schema,直接从 PDF 和图像中读取信息,并返回符合该模式的 JSON 对象。

作为 Datalab 首款纯粹为提取任务构建的模型,lift 将其此前推出的 chandra、marker 和 surya 等开源 OCR 工具的能力,进一步扩展至基于模式的字段提取领域。

性能表现与基准测试

在 Datalab 包含 225 份文档的基准测试中,lift 实现了 90.2% 的字段准确率。研究团队称其为目前测试过的性能最强的可自托管小型模型,平均每份文档的处理时间中位数为 9.5 秒。

测试集涵盖 6 至 64 页不等的文档,总计约 11,000 个评分字段,并植入了跨页面数值、穷尽列表及干扰项等对抗性案例。数据显示,在字段准确率方面,lift 领先于 NuExtract3 和 Qwen3.5-9B 等可自托管模型,且速度最快。其处理速度比 Gemini Flash 3.5 快约 3 倍,字段准确率与之相近。

然而,在更严苛的 " 全文档准确率 "(即所有字段均正确)指标上,lift 得分为 20.9%,仅高于 NuExtract3,低于托管 API 服务的 44.4% 和 40.0%。这反映了长文档单次传递提取的难度,表明 lift 目前更适合辅助人工审核或聚合分析,而非完全替代 " 零接触 " 自动化流程。

核心机制:模式约束与默认弃权

lift 的核心设计在于模式约束解码(Schema-Constrained Decoding)。模型将用户的 JSON Schema 转换为 Pydantic 模型并规范化,随后在生成过程中,服务器将 Schema 编译为语法树。每一步生成时,破坏 Schema 结构的标记会被屏蔽,确保输出始终是形状正确的合法 JSON。

值得注意的是,约束解码仅保证结构和类型的合法性,不保证语义的正确性。此外,lift 引入了 " 默认弃权 " 机制:对于文档中真正缺失的字段,模型经过训练会返回 null 而非凭空捏造。这一机制旨在减少静默错误,但要求用户在下游对返回的 JSON 进行验证,尤其是当 Schema 包含 enum、anyOf 等不支持构造时,模型可能回退至无约束生成。

部署方案与许可协议

lift 提供两种推理模式:通过 HuggingFace 进行的本地推理,以及通过 vLLM 服务器运行的远程推理(生产环境推荐后者)。代码采用 Apache 2.0 协议,模型权重则使用修改版的 OpenRAIL-M 许可证。

根据许可条款,lift 对研究、个人用途以及融资或收入低于 500 万美元的初创公司免费,但禁止在与 Datalab API 竞争的场景中使用。商业用途需获取额外许可。

快速入门可通过 CLI 实现,支持 Python 3.12 及以上版本。安装包还附带了 Streamlit 应用 Schema Studio,用于构建和测试 Schema。支持的 GPU 包括 H100、A100、L40S、RTX 4090 等主流型号。

【星途科讯 图文丨踢三脚 首发于 ZAKER 科技,转载请注明出处】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 托管 语法 自动化
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论