麻省理工：到2029年，AI足以胜任大部分基于文本的任务

麻省理工学院最新研究显示，AI 对劳动力市场的自动化替代并非突如其来的 " 巨浪 "，而是广泛且持续的 " 涨潮 "，预计到 2029 年，大多数基于文本的工作任务 AI 成功率将达到 80% 至 95%。

研究背景：AI 如何改变工作？

2026 年 3 月，麻省理工学院 FutureTech 团队发布工作论文《巨浪还是潮汐：来自数千名工人对劳动力市场任务评估的 AI 自动化初步发现》（论文编号：arXiv:2604.01363v1），作者包括 Matthias Mertens、Neil Thompson 等人，研究资金来自 Open Philanthropy 及一家科技公司。

这项研究试图回答一个对投资者和政策制定者都至关重要的问题：AI 能力的提升，究竟会以 " 巨浪 " 形式（Crashing Waves）——突然、集中地颠覆某类工作——还是以 " 潮汐 " 形式（Rising Tides）——广泛、渐进地抬升整体自动化水平？

两种模式对劳动力市场的冲击截然不同。" 巨浪 " 意味着某些职业在短期内从几乎不受影响到几乎被完全替代，工人几乎没有时间适应；" 潮汐 " 则意味着变化更可预期，但覆盖面更广，最终影响同样深远。

图 1 " 巨浪 " VS " 潮汐 "

研究方法：17000 份真实工人评估

研究团队从 O*NET 数据库的 18786 项任务中，筛选出具备至少 10% 时间节省潜力的 11768 项文本类任务，最终纳入调查的任务达 11536 项，生成 69216 个任务实例。

评估流程严格：每个任务实例由 41 款大型语言模型（LLM）生成回答，再由具备相关工作经验的真实从业者打分，评分采用 1 至 9 分制—— 7 分及以上代表 " 无需编辑即可最低限度使用 "，9 分代表 " 优于普通人类工人水平 "。研究最终纳入超过 17000 份有效评估，约 34.6% 的原始数据因质量问题被剔除。

任务时长覆盖从约 10 分钟到数天不等，大多数任务耗时在 20 分钟至 10 小时之间。

研究团队强调，这是初步结果，数据收集仍在进行中，当前样本在工资水平和学历要求上略低于目标分布，白领职业略有过度代表。

图 3 任务时长分布直方图（Task Duration Histogram）

核心发现一：是 " 潮汐 "，不是 " 巨浪 "

研究的核心发现是：AI 成功率与任务时长之间的关系曲线出奇地平缓。

具体而言，任务时长每增加 10 倍，AI 成功率（≥ 7 分门槛）的对数几率仅下降 0.31。在 60% 的样本均值成功率下，这意味着预测接受率仅下降约 7.6 个百分点。这条曲线远比此前 METR 等机构基于基准测试得出的陡峭曲线平缓得多。

论文写道：" 在 LLM 能够处理的大量具有代表性的、贴近实际的劳动力市场任务中，任务成功率与任务持续时间之间的下降趋势平均而言出奇地平缓——也就是说，更像是水涨船高，而不是海浪拍岸。"

这一模式在不同规模的模型、不同发布时间的模型中均成立。在大多数职业类别（如管理类、社区与社会服务类）中，同样遵循 " 潮汐 " 规律。

不过，不同职业类别之间存在显著差异。成功率最高的是 " 安装、维护与修理 " 类（72.5%）和 " 建筑与采掘 " 类（71.0%），最低的是 " 法律 " 类（46.8%）。斜率最陡的是 " 个人护理与服务 " 类（β =-0.93），意味着该领域任务时长对 AI 成功率影响最大。

图 4 任务实例自动化程度与所需完成时间（Task Instance Automation by Required Task Completion Time）

核心发现二：进步速度超出预期，任务处理耗时每 3.8 个月 " 翻倍 "

" 潮汐 " 并不意味着缓慢。研究数据显示，AI 能力正在以相当快的速度全面提升。

研究写道：" 在 2024 年第二季度至 2025 年第三季度期间，前沿模型在 3 至 4 小时任务上的成功率从 50% 提升至 1 周任务，在 1 分钟任务上的成功率从 70% 提升至 1 小时任务。"

前沿模型在50% 成功率门槛下可完成的任务时长，从3 至 4 小时跃升至1 周

在70% 成功率门槛下，可完成任务时长从1 分钟跃升至1 小时

如果将 AI 达到特定成功率（例如 50%）所能处理的 " 人类任务耗时 " 作为衡量标准，这一指标的 " 翻倍时间 " 仅为 3.8 个月。这一速度处于现有研究估算的较快端—— METR 此前报告的倍增时间为 2 至 6 个月，Kwa 等人报告为 4 至 7 个月。

从失败率角度看，在耗时 5 分钟至 24 小时的任务中，失败率（1 减去成功率）的减半时间为2.4 至 3.2 年，对应每年成功率提升约8 至 11 个百分点。

这种全面且快速的提升验证了 " 水涨船高 " 的逻辑：新一代模型的发布，带来了成功率曲线的整体平行上移。

图 6 任务时长与成功率门槛随时间变化（Task Duration and Success Rate Thresholds over Time）

核心发现三：大模型与新模型，进步路径不同

研究还区分了两种能力提升路径，这对理解 AI 投资逻辑有直接意义。

模型规模（大 vs 小）： 参数量超过 1000 亿的大模型相比小模型，在短时任务上优势明显，但在长时任务上优势收窄——曲线呈 " 向外旋转 " 形态（β =-0.36 vs -0.26）。

模型新旧（新 vs 旧）： 2025 年后发布的新模型相比旧模型，在各类任务时长上的提升幅度大致相同——曲线呈近乎平行上移。

这意味着，时间维度的迭代（更新的模型）比规模维度的扩张（更大的模型）更能均匀地提升 AI 在长时复杂任务上的表现。对于关注 AI 基础设施投资回报的投资者而言，这一发现值得关注。

2029 年预测：渐进，但不可低估

基于当前趋势外推，研究团队给出了明确的时间节点预测：

预计到 2029 年，大多数任务的 AI 成功率将达到 80% 至 95%，并达到最低合格质量水平。我们调查中的大多数任务耗时数小时，这意味着到 2029 年成功率将接近 90%。

然而，研究同时指出，要达到" 近乎完美 " 的成功率（接近 100%），还需要数年以上的时间。这为工人调整提供了一定窗口期，尤其是在容错率低的任务领域。

研究团队明确提示，上述预测建立在 AI 进步速度维持近两年趋势的假设之上，应视为上限情景。潜在的放缓因素包括：算力扩展成本上升、硬件进步放缓、算法创新减速，以及物理极限对芯片性能的约束。

图 7 AI 成功率随时间预测（Predicted AI Success Rates Over Time）

对劳动力市场的影响：任务自动化≠工人被替代

研究团队特别强调，AI 在任务层面的高成功率，不能直接等同于相应比例的工作岗位被自动化。

原因有三：

数据偏差： 当前样本可能过度代表易于调查的职业，而这些职业也可能更易于自动化，导致整体估算偏高

" 最后一公里 " 成本： 现实中将 AI 整合进工作流程存在信息获取、系统集成、合规等额外成本，部分任务在经济上并不划算

任务与职业的区别： 单个任务被自动化，不必然导致整个职业的就业减少。正如 Autor 与 Thompson（2025）的研究所示，任务自动化对工资和就业的影响取决于该任务在整个职业任务束中的地位，结果可能是工资上升或下降，就业增加或减少

论文写道：" 目前尚不清楚经济将如何应对，但很难想象 AI 的持续进步与当前经济现状的稳定相协调。"

宙世代

一起剪

相关标签