华游体育 37 位学者联手: 把论文从 PDF 改写成 AI 能径直奉行的询查包

发布日期：2026-06-05 04:10 点击次数：101

重新想考为东谈主类领路带宽联想的科研生态：

刻下应该以AI科学家为中心。

咱们今天以 PDF 写论文的方式，也曾执续了三百多年。但是论文其实是把一段紊乱反复、充满试错的确切询查，讲成一个干净利落、足以服东谈主的完满故事。

最近，由前 Meta 超等东谈主工智能本质室询查科学家 Jiachen Liu 牵头，蚁合 MIT、CMU、Michigan、Stanford 等机构、觉得 37 位作家的一篇新论文给出了一个卓绝激进的回应：不需要。

这篇名为 The Last Human-Written Paper: Agent-Native Research Artifacts（arXiv:2604.24658）的论文里，作家们抛出了一个让总共学术圈皆得停驻来想一想的问题 —— 行为家和读者皆不再是东谈主，沿用了三百年的论文范式还竖立吗？

作家团队的签字卓绝「重」，内部包括了 MIT 的 Alex Pentland、CMU 的 Beidi Chen、Michigan 的 Mosharaf Chowdhury，以及 Stanford 在 AI co-scientist 方朝上颇活跃的 Chenglei Si 等一众熟相貌。论文一上 arXiv，就在 X 和小红书上引起了不小的争论。

论文标题：The Last Human-Written Paper: Agent-Native Research Artifacts

论文流畅：https://arxiv.org/abs/2604.24658

Github 流畅: github.com/AmberLJC/Agent-Native-Research-Artifact

让咱们望望他们具体是怎样说的。

论文神气的两笔「隐形税」

把科研历程塞进一篇 PDF 论文里，自己就要交两笔「隐形税」。这两笔税，东谈主类同业在复现别东谈主的责任时其实一直在交，仅仅到了带宽近乎无穷的 agent 眼前，它们才澈底无处可藏。

叙事税 (Storytelling Tax)。确切的询查是一棵分叉的树，会有几十次尝试、撞墙、推倒重来，但 PDF 只讲演终末跑通的那条骨干，把失败本质、被驳回的假定、临时拐弯的决定全部丢弃。这种压缩对东谈主类读者是一种必要的处事，毕竟没东谈主就怕候读完一整棵搜索树；可对带宽近乎无穷的 agent 来说，它便是纯正的信息亏损。那些 pivot、dead end 和负面后果莫得干涉任何文档，对下一个想作念访佛询查的东谈主 (或 AI 智能体) 来说，这部分学问等于从未存在过。

工程税 (Engineering Tax)。论文里技术刻画的精度，只够让审稿东谈主校服；能不可让别东谈主跑起来，从来不是论文的牵累。超参数缺失、warmup schedule 只存在于某个作家的脑子里、数值巩固性的小 trick 在哪份文档里皆找不到。这便是 "足以劝服" 与 "足以奉行" 之间的范围。

作家用 PaperBench 上 8921 条大众标注的复现条款，作念了一次量化分析。后果惊魂动魄：PDF 中完整评释的只占 45.4%，缺失超参数的占 26.2%，滚球app中国手机版入口刻画浑沌的占 21.9%，仅靠交叉援用的占 13.4%，穷乏代码或 baseline 细节的占 21.7%。换句话说，AI 智能体复现一篇论文所需的信息，有一半以上根柢不在 PDF 里。

这些信息诚然存在过，仅仅停留在某本本质记载、某个 Slack 对话、原作家的肌肉顾虑里，永远莫得千里淀成一种可被检索、可被罗致的样式。于是每一次复现尝试，皆得把一样的代价重新支付一遍。

措置有规划：四层互锁的「询查包」

那询查的载体究竟该长什么样，智力把这些被压缩掉的颗粒度原样留住？作家的谜底是 ARA (Agent-Native Research Artifact): 把整段询查以机器可奉行的样式原样保留住来，华游体育跳过叙事压缩这一步。一个 ARA 由四层构成。

领路层，刻画这个询查在干什么：可证伪的论断、样式化的意见、声明式的本质联想。

物理层，刻画怎样把它跑起来：一份让 agent 即开即用的代码加环境清单。

探索图，刻画询查是怎样走到这一步的：把被叙事税抹掉的绝路、pivot 和踩过的坑，用一张 DAG 完整保留。

凭据层，回应 "凭什么校服你": 每一个论断皆径直挂在原始本质输出上，不再隔着一层东谈主工写就的 "咱们不雅察到 X"。

四层相互印证，把论文从一个 compiled view 变回了一份执续演化、有结构的询查学问。

三个让生态跑起来的机制

光有结构还不够。作家配套联想了三个机制，让 ARA 不需要询查者格外加班就能产出。

Live Research Manager。这是总共体系的要津一环。询查者不消过后回忆、手工打包；这个组件在 AI 与东谈主协同作念询查的历程中静默拿获轨迹：哪一步是 decision、哪一步是 dead_end、哪一步是 heuristic、哪次本质产生了些许 loss。总共 artifact 在后台我方长出来。

ARA Compiler。几百万篇存量 PDF 不可能整夜铲除。作家为此作念了一个把 "legacy PDF + 代码仓库" 自动翻译成 ARA 的 compiler，让历史文件也能被 agent 径直花消。

ARA-native Review System。既然 ARA 自己是结构化的，那么无数 "这个超参数有莫得论说"" 这个 claim 有莫得 evidence 复古 " 之类的客不雅查验就不错十足自动化。东谈主类审稿东谈主则能把元气心灵留给只好东谈主智力判断的事：遑急性、新颖性、品尝。

本质后果

作家想考证的问题很具体：对一个接办任务的 AI agent 来说，一份 ARA 是不是简直能比今天最常见的科研载体，也便是 "论文 PDF + 配套 GitHub 仓库"，更好地复古它去领路、复现、并在此基础上彭胀一项询查？他们在 PaperBench 和 RE-Bench 两个基准上，把这三件事休止来量化对比。

领路 (Understanding):+21.3pp。在跳跃两个 benchmark、共 450 谈问题的设定下，读 ARA 的 agent 回应准确率达到 93.7%，而读 PDF + GitHub 的对照组只好 72.4%。总共子类别上，ARA 皆占优。

复现 (Reproduction):+7.0pp。在 PaperBench 的 15 篇论文、150 个子任务上，复现生遵循从 PDF + 仓库的 57.4% 擢升到 ARA 的 64.4%。一个值得闪耀的发现是：任务越难，ARA 的上风越大。浮浅任务上两者差距很小，但在难任务上，ARA 的当先相称显豁。

彭胀 (Extension):3 / 5 任务到手。在 RE-Bench 的 5 个通达式彭胀任务上，ARA 在 3 个任务上拿到了最好分数，其余 2 个基本执平；何况在全部 5 个任务上，它皆能让 agent 更早作念出第一步有效的动作。

不外彭胀维度上还有一个反向发现值得单独拎出来：当 agent 自己也曾实足强时，被保留住来的 dead_end 反而会把它框死在原作家走过的旅途里，让它拦阻易跳出 prior-run 的框架去作念信得过勇猛的探索。这是 ARA 联想上的一个深层张力：保留些许是 "站在巨东谈主肩膀上"，保留些许是 "替巨东谈主套上桎梏"。刻下的谜底是：对中等才略的 agent，保留是弘远助力；对最强的 agent，则需要一套更精采的 "健忘机制"。

三个维度合在通盘，取得的是归并个论断：在 AI agent 也曾是中枢读者的前提下，把论文和代码各自打包好，远不如把它们按 ARA 的结构合并后交出去。

感兴味的读者不错阅读论文原文，了解更多询查细节。

对于一作

开云中国2026世界杯app下载

刘嘉晨 (Amber Liu)，本文一作，密歇根大学 CS 博士 (师从 Mosharaf Chowdhury)，前 Meta 超等智能本质室询查科学家华游体育，本科毕业于上海交通大学。询查目的为 AI for Science 与机器学习系统 (LLM 预磨练 & 后磨练系统)，曾在 Apple、MIT CSAIL 从事询查责任。2023 年入选 MLSys Rising Stars。