Datalab推90亿参数开源模型lift，PDF提取准确率达90%

Datalab 正式发布 lift，一款拥有 90 亿参数的开源权重视觉模型，专攻结构化数据提取。该模型允许用户通过提供 JSON Schema，直接从 PDF 和图像中读取信息，并返回符合该模式的 JSON 对象。

作为 Datalab 首款纯粹为提取任务构建的模型，lift 将其此前推出的 chandra、marker 和 surya 等开源 OCR 工具的能力，进一步扩展至基于模式的字段提取领域。

性能表现与基准测试

在 Datalab 包含 225 份文档的基准测试中，lift 实现了 90.2% 的字段准确率。研究团队称其为目前测试过的性能最强的可自托管小型模型，平均每份文档的处理时间中位数为 9.5 秒。

测试集涵盖 6 至 64 页不等的文档，总计约 11,000 个评分字段，并植入了跨页面数值、穷尽列表及干扰项等对抗性案例。数据显示，在字段准确率方面，lift 领先于 NuExtract3 和 Qwen3.5-9B 等可自托管模型，且速度最快。其处理速度比 Gemini Flash 3.5 快约 3 倍，字段准确率与之相近。

然而，在更严苛的 " 全文档准确率 "（即所有字段均正确）指标上，lift 得分为 20.9%，仅高于 NuExtract3，低于托管 API 服务的 44.4% 和 40.0%。这反映了长文档单次传递提取的难度，表明 lift 目前更适合辅助人工审核或聚合分析，而非完全替代 " 零接触 " 自动化流程。

核心机制：模式约束与默认弃权

lift 的核心设计在于模式约束解码（Schema-Constrained Decoding）。模型将用户的 JSON Schema 转换为 Pydantic 模型并规范化，随后在生成过程中，服务器将 Schema 编译为语法树。每一步生成时，破坏 Schema 结构的标记会被屏蔽，确保输出始终是形状正确的合法 JSON。

值得注意的是，约束解码仅保证结构和类型的合法性，不保证语义的正确性。此外，lift 引入了 " 默认弃权 " 机制：对于文档中真正缺失的字段，模型经过训练会返回 null 而非凭空捏造。这一机制旨在减少静默错误，但要求用户在下游对返回的 JSON 进行验证，尤其是当 Schema 包含 enum、anyOf 等不支持构造时，模型可能回退至无约束生成。

部署方案与许可协议

lift 提供两种推理模式：通过 HuggingFace 进行的本地推理，以及通过 vLLM 服务器运行的远程推理（生产环境推荐后者）。代码采用 Apache 2.0 协议，模型权重则使用修改版的 OpenRAIL-M 许可证。

根据许可条款，lift 对研究、个人用途以及融资或收入低于 500 万美元的初创公司免费，但禁止在与 Datalab API 竞争的场景中使用。商业用途需获取额外许可。

快速入门可通过 CLI 实现，支持 Python 3.12 及以上版本。安装包还附带了 Streamlit 应用 Schema Studio，用于构建和测试 Schema。支持的 GPU 包括 H100、A100、L40S、RTX 4090 等主流型号。

【星途科讯图文丨踢三脚首发于 ZAKER 科技，转载请注明出处】

宙世代

一起剪

相关标签