欧美人性爱-777me第四色 Nature发文「智能体摩尔定律」,Agent才略每7个月翻倍,5年后能顶东说念主类苦干一个月的职责
  • 你的位置:欧美人性爱 > 濑亚美莉作品 > 777me第四色 Nature发文「智能体摩尔定律」,Agent才略每7个月翻倍,5年后能顶东说念主类苦干一个月的职责

777me第四色 Nature发文「智能体摩尔定律」,Agent才略每7个月翻倍,5年后能顶东说念主类苦干一个月的职责

发布日期:2025-07-06 10:57  点击次数:77

777me第四色 Nature发文「智能体摩尔定律」,Agent才略每7个月翻倍,5年后能顶东说念主类苦干一个月的职责

AI Agents(智能体)也有我方的"摩尔定律"了?!777me第四色

就在最近,Nature 报说念了一项来自非渔利谈论机构 METR 的最新发现:

AI 在完成长期任务方面的跳跃速率惊东说念主,当时分跨度约莫每七个月翻一番。

为了揣度 Agent 自动完成任务的才略变化,谈论东说念主员淡薄了"50%- 任务完成时分跨度(50%-task-completion time horizon)"这一方针。

他们以 50% 任务奏遵循为基准,假定 2019 年 AI 达到这一标的所需时分对应东说念主类需要的时分为 10 分钟,那么 7 个月后,其对应的东说念主类完成任务时分则形成了 20 分钟。

换句话说,AI 好像胜任越来越多东说念主工耗时久的任务,才略逐渐更强。

2024 年这一增长速率变得更快了,一些最新模子约莫每三个月翻一番。

按照预计,约莫五年后,AI 就能自动完成好多东说念主类刻下要花一个月能力完成的任务。

网友们纷纷示意,这下终于对 AI 跳跃神速有实感了!

淡薄" 50%- 任务完成时分跨度"方针

在 METR 的先容中,他们将这一发现定名为" Moore ’ s Law for AI agents ",也即是"智能体摩尔定律"。

底下咱们详备伸开其谈论设施。

合座而言,他们主淌若让 AI 和一些专科东说念主员在雷同条目下尝试完成任务,然后测量东说念主类所需要的时分,最终来比拟 AI 奏遵循怎样跟着东说念主类完成时分的诟谇而变化。

这第一步,谈论团队选定了三个不同的任务套件来评估 AI 模子的才略:

97 个 HCAST 任务,涵盖软件工程、机器学习、网罗安全和一般推理挑战的各样化任务围聚,难度从几分钟到 30 小时;

7 个 RE-Bench 任务,由七个怒放式的机器学习谈论工程环境构成,每个需东说念主类各人约 8 小时完成;

66 个 SWAA 任务,代表软件建树流程中的单个要领操作,时长 1 秒到 30 秒。

接下来,为了量化评估 AI 模子的推崇,团队招募了800 多名软件工程、机器学习和网罗安全范围的专科东说念主员扩展任务,并记载他们完成任务所需的时分。

据 METR 先容,在这些任务中,东说念主类完成时分从 1 秒到 16 小时不等。

这些时分被算作揣度任务难度的轨范。

然后他们又评估了从 2019 年到 2025 年发布的13 个前沿 AI 模子,包括 GPT 系列和 o1、Sonnet 3.7 等,通过在构建的任务套件上脱手这些模子,并记载它们完成任务的奏遵循。

关节来了,随后他们引入了一个新的方针——50% 任务完成时分跨度(50%-task-completion time horizon),濑亚美莉喷奶番号即 AI 模子在 50% 的奏遵循下好像完成的任务的平均时分长度。

之是以选定 50% 这一奏遵循,主淌若它关于数据分散的狭窄变化最为郑重。

浅易说,当数据的分散(即数据的特征、比例或趋势等)发生一些小的变化时,这个方针不会受到太大的影响,仍然好像保抓相对踏实的推崇。

论文作家之一 Lawrence Chan 示意:

如果你选定特殊低或特殊高的阈值,那么区别移除或加多一个奏效或失败的任务,就会对你的忖度值产生很大的影响。

应用这一方针,团队通过对 AI 模子在各个任务上的奏效与失败数据进行逻辑回来分析,贪图出每个模子的时分跨度,也即是模子完成任务奏遵循达到 50% 之时,对应的东说念主类完成任务的时分。

(每个模子在每个任务上脱手 8 次,记载奏遵循)

有了这些数据,团队最终绘画了模子自主性随时分呈指数变化的图表。

发现" AI 智能体摩尔定律"

如上图所示,谈论的主要发现是:

自 2019 年以来,AI 模子的时分跨度呈现出指数级增长,每七个月摆布翻一番。

为了考据谈论恶果的外部有用性,他们又进行了以下四个实验:

1、用 2023-2025 年数据回溯预计,考据趋势一致性;

2、对 HCAST 和 RE-Bench 任务基于 16 个 "繁杂" 身分评级,分析任务繁杂进度对模子性能的影响;

3、在其他 SWE-bench Verified 数据集上应用疏导设施,对比恶果;

4、在里面 Pull Requests(PR)任务上测试模子性能,与东说念主类基线对比。

最终,这一趋势得到了以上外部考据。

黑丝高跟

比如在第 2 个实验中,所谓的 16 个 "繁杂(messy)" 身分是指试验任务比谈论任务更难的方面,包括任务是否受到有限资源的死亡、是否触及及时互助或是否源自试验宇宙的环境。

每个任务都笔据这些身分得到了一个 "繁杂度(messiness score)" 分数。

谈论东说念主员发现,尽管 AI 模子在愈加繁杂的任务上(比如短少明确教导和反应、需要 AI 主动去获得信息、任务条目和要求比拟朦胧等情况)的皆备性能较低,但另一方面其性能在稳步进步。

更有酷爱的是,无论任务的"繁杂"进度怎样,AI 都是以雷同的速率在进步。

再比如在 SWE-bench Verified 基准上的考据,他们也不雅察到了一个雷同的指数级增长趋势。

不外由于标注时分的问题,该基准测试的时分跨度翻倍时分更短。

总之,按照"智能体摩尔定律"进行预计,AI 可能在 2028 年 11 月达到一个月的任务时分跨度;而在较为保守的忖度下,这一标的可能在 2031 年 2 月达成。

METR 团队以为,天然谈论还存在职务套件具有局限性、评估方针不圆善、改日 AI 发展具有不细目性等需要完善的场所,但很信赖这一方针每年有 1~4 倍的增长趋势。

而连结试验中 Manus 智能体的走红,咱们仍是好像意意象智能体将迎来爆发。

论文:

https://arxiv.org/pdf/2503.14499

参考邻接:

[ 1 ] https://www.nature.com/articles/d41586-025-00831-8

[ 2 ] https://x.com/METR_Evals/status/1902384481111322929

一键三连「点赞」「转发」「防御心」

迎接在驳斥区留住你的思法!

—  完  —

终末一周!2025 年值得热爱的 AIGC 企业产物 报名行将截止 � �

下一个 AI "国产之光"将会是谁?迎接陈述奖项!

本次评比恶果将于 4 月 16 日中国 AIGC 产业峰会上公布。

� � 一键星标 � �

科技前沿进展逐日见777me第四色



相关资讯
热点资讯
  • 友情链接:

Powered by 欧美人性爱 @2013-2022 RSS地图 HTML地图

Copyright © 2013-2022 版权所有