提出一种保护模型主成分的持续学习方法,把新任务的调整更多放到低秩的尾部方向。
2026年6月4日,Bitdefender的研究人员提出一种保护模型主成分的持续学习方法——把新任务的调整尽量放到低秩的尾部方向。这里的主成分就像是模型记忆的核心骨架,是学完海量数据后形成的底层理解,轻易改动容易忘掉已学知识;低秩的尾部方向则相当于模型脑中那些很少被用到的角落,专门处理罕见细节,把新知识写到这里,就不容易挤占常用记忆;而持续学习,就是指让模型不断接纳新任务,同时不遗忘旧本事的能力。
我们要理解这个思路,先看常见的困境:AI模型学完新任务后,往往会覆盖旧知识——就像你教会语音助手推荐播客,它却突然听不懂“定个闹钟”了。过去,人们提出微调技术来缓解遗忘,但要么改动太大,要么需要记住大量旧数据。
后来,基于频谱分解的方法提供了新视角。这类方法把模型的权重矩阵拆成一组方向,就像把一本字典拆成高频词条和生僻词。研究发现,对应大奇异值的主方向承载着全局理解,而小奇异值的尾部方向只负责细枝末节。TailLoR正走在这条思路上:它先把预训练权重通过奇异值分解拆成U、V这两套坐标,以及夹在中间的奇异值旋钮——U和V就像两根固定的坐标轴,把整个参数空间定住了,而奇异值旋钮则调节各方向的“音量”。然后,TailLoR只在奇异值上加一个低秩的小补丁,并施加一种“软惩罚”:如果补丁试图拧动大旋钮(主方向),就会遇到阻力;如果拧动末端的旋钮,则畅通无阻。这样一来,新知识就被自动导引到高度灵活的尾部坐标上,主心骨几乎纹丝不动。
这对未来的AI意味着,模型或许能像手机装App一样持续升级功能,学会新指令后仍记得原有技能,自动驾驶学了新路况也不会忘记雨天如何刹车。这种“终身学习”的能力,背后正是保护主成分、利用尾部空间的思想。
不过,任何方法都有边界。TailLoR依赖奇异值分解,对超大模型可能计算成本偏高;而且它假设最重要的知识都集中在前几个主方向,如果遇到必须大幅改动这些方向的任务,反而可能束手束脚。此外,尾部方向容量有限,能写入的新知识也有限。
当AI学会不断进化却不丢本事,我们究竟该让它学到什么程度,才不失人类的掌控?
提出名为 HANDOFF 的全身控制接口,把高层任务规划和人形机器人的脚步、重心、手臂动作接起来。
2026年6月4日,加州理工学院和人与机器认知研究所的团队公布了一项研究:他们提出了HANDOFF全身控制接口,让高层任务规划直接指挥人形机器人的脚步、重心和手臂动作。可以把HANDOFF想象成机器人的“翻译官”——听到“去拿杯子”的任务,立刻输出“先迈左脚、重心跟上、手臂前伸”的全身动作指令;而全身控制接口则确保这些指令能协调所有关节,不会出现左脚绊右脚、手臂打翻东西的尴尬。
过去,工程师要让机器人执行一个拿杯子动作,往往需要为全身几十个关节逐个设定精密的角度轨迹。这就像要求战场指挥官既制定进攻战略,又亲自调整每个士兵的持枪姿势,任务规划器根本无法从“拿杯子”这类语义信息中自动生成如此密集的参考。人形机器人只能在高度结构化的实验室里行走,一出门就摇摇晃晃。
HANDOFF的设计思想是“化繁为简”。它只接收少量关键参数——比如目标位置和手掌朝向——就能在瞬间算出所有关节的协调动作。更巧妙的是它的训练方式:研究人员先训练了三位各有专长的“专家教师”;然后通过知识蒸馏,把这三位老师的本领汇聚到一个“学生”模型里,并植入一个门控网络。门控网络就像一个智能调度员,实时评估任务需求和环境信息,动态激活最合适的专家模块。之所以需要多个教师,是因为人形机器人的行走、操作和平衡各有侧重,一个模型很难同时精通所有技能,而通过门控融合,学生能取长补短。这个门控网络会根据脚下的地形或手中的任务,动态决定调用哪位老师的经验,就像一位经验丰富的领班,看到是平地大步就走起来,看见要旋转门把就换到精细操作模式,切换几乎在瞬间完成。这样一来,一个控制器就能适应多种场景,无需针对每个任务重新设计。
这意味着,HANDOFF让机器人拿到了一个通用“驾照”,不需要针对每种任务重新考一次试。无论是在家庭中端茶送水,还是灾后废墟里推开一扇歪斜的门,它都能自己决定该怎么移动重心和手脚。这项研究最直接的意义,是朝着人形机器人摆脱密集编程、在真实世界自主作业,迈出了关键一步。
当然,目前HANDOFF的验证主要还在仿真环境和有限的实物平台上完成。从屏幕里的完美计算到真实世界的油污地面、松软草坪、突然闯入的行人,中间还有巨大的不确定鸿沟。另外,“教师策略”的覆盖范围也是短板——如果学生模型从未在训练中见过湿滑斜坡连走带端的情况,它第一反应很可能还是硬搬熟悉的动作,结果摔个跟头。因此,在推向真实工厂或家庭之前,它还需要接受更多样化的“场景预科班”训练。
你最担心人形机器人哪一项日常动作最难实现?是上下楼梯时不踩空、开门后能顺利走出去,还是单手端满杯咖啡穿过人群?欢迎在评论区聊聊。
提出一种让超网络按代码仓库生成 LoRA 适配器的方法,减少推理时反复塞入整仓上下文的需求。
2026年6月4日,滑铁卢大学的研究团队公布了一项研究:他们提出一种用“超网络”为代码仓库生成“LoRA适配器”的方法,能大幅减少推理时反复塞入整仓上下文的需求。通俗点说,超网络就像一个“模型生成器”,读一遍代码库就能变出一个小型参数包(LoRA适配器),这个包里浓缩了项目的方法调用、导入规则和编程习惯,相当于给代码模型做了一份“项目速查手册”,推理时加载它就行,不必再重复塞进大段代码。
目前主流的代码大模型,比如AI编程助手,想要准确补全代码或回答项目问题,通常需要把整个仓库的相关片段作为长提示输入进去。这就像你每次考试都要把整本教材搬进考场,可教材每过几天就修订一次,每次都要重新搬运、重新翻找。现有的检索增强方法每次生成都要拼凑长上下文,而全仓库微调又成本高、难以跟上代码的快速演化。
滑铁卢大学提出的Code2LoRA框架换了条路。它设计了一个超网络,专门读取项目文件结构(比如导入语句、函数签名),学习其中规律,然后直接生成一组低秩矩阵参数,也就是LoRA适配器。这些适配器体积极小,通常只有几兆,加载到预训练模型里之后,模型就像装上了该项目的“思维插件”,自动切换到那个代码库的频道,推理时不再需要看到任何外部上下文。
这个框架支持两种场景:Code2LoRA-Static针对一个固定版本的代码库生成适配器,适合稳定项目的快速理解;Code2LoRA-Evo则能持续跟踪代码的改动,及时更新适配器,让模型始终知道项目最新状态。
这样一来,最直接的好处就是省钱省时间。因为推理时不再需要输入冗长上下文,云端API按token计费的成本大幅下降,本地运行的响应速度也更快。而且,当代码库有更新时,只要用超网络重新生成一次适配器,不必从头训练整个模型,让AI助手更像一个随代码一同成长的团队成员。
对普通程序员来说,这意味着未来的编程工具可能更聪明、更“懂你”。你不再需要手动描述项目的API、命名风格或常用模式,助手自己就知道。对软件企业来讲,部署和维护大规模代码模型的门槛可能降低,代码审查、老项目理解等任务的效率也有望提升。
当然,这项技术还远没到你马上就能用的地步。超网络需要海量多样化的代码库来训练,如果训练数据中某种编程语言或框架的案例太少,生成的适配器就可能不准;而且,面对极端庞大或逻辑极度动态的项目,适配器能否保持高精度还有待检验。
不过,它打开了一个有趣的前方:既然代码模型可以靠一个小参数包就记住整个工程的习惯,那类似的方法能不能用在自然语言上?比如给每个用户生成一个个人知识适配器,让对话Agent瞬间了解你的专业背景和写作风格?你会希望AI助手默默记住你的项目约定,还是更愿意每次手动提示?
无论如何,这项研究让我们离“真正懂你代码的AI伙伴”又近了一步。
提出一种面向会变招对手的重复博弈后悔度量,重新衡量策略在互动环境里的稳定性。
2026年6月4日,麻省理工学院和马里兰大学的团队提出了一种面向会变招对手的重复博弈后悔度量,重新衡量策略在互动环境里的稳定性。这里解释几个关键概念:“后悔度量”就像你玩完一局游戏后,比较实际得分和如果当时换种打法能拿到的最高分,差值就是后悔值;“重复博弈”指你和对手要连续交手很多轮,每轮都根据之前的结果调整行动;而“策略”是指你选定的出招习惯。
传统方法中,后悔度量有个盲区:它默认对手的策略固定不变。这好比打牌时假想对手永远按套路出牌,一旦对手见招拆招,你的最佳打法就失效了。针对这个盲区,研究者定义了“重复策略后悔”(RP-Regret),它假设所有玩家都能根据历史调整策略,然后比较你实际累积收益与一种“事后诸葛亮”式的最佳应对之差——而这个最佳应对,也必须在对手同样能根据历史响应的情况下算出。
打个比方,就像多回合石头剪刀布:你不仅关心上一把出什么,还要考虑对手会不会揣摩你的习惯。如果用RP-Regret复盘,会假设你换了一种更聪明的出拳习惯,对手也会跟着调整,再看最终得分。这更符合真实博弈的直觉:在对抗中,对手的策略会因你的动作而变,RP-Regret衡量的正是这种在双方都能见招拆招的动态过程中的稳健性,而不再是对付固定对手的理想结果。
这项研究为多轮互动环境里的强化学习算法提供了更准的尺子。传统指标常让算法在自对弈中“自我感觉良好”,但一到会自适应的对手面前,表现就大打折扣。有了RP-Regret,我们能更准确衡量策略在博弈中的真实表现。长远看,这一思想或许能帮助开发更稳定的多智能体协作系统,比如让自驾车在共享道路时学会互让,或让供应链管理优化策略性伙伴的响应。
但要清醒地看到,目前用RP-Regret做实际训练还很困难,因为它要求在模拟中反复推演对手的适应性回应,计算复杂度很高。目前工作仍处于理论阶段,研究团队只给出了定义和基本性质,尚未涉及高效计算。它也不能直接保证找到最优解,只是重新定义了“更好的策略”。一个值得思考的问题是:当每个人都能学习并适应,我们还能找到一套让所有人都几乎不后悔的稳定平衡吗?这或许是通向更普适博弈智能的关键一步。
构建一个渐进式人机协同改写基准,用来测试检测器能否识别人写文本一步步变成 AI 文本的过程。
2026年6月4日,穆罕默德·本·扎耶德人工智能大学和伦敦大学学院的联合团队公布了一项研究,他们搭建了一个“渐进式人机协同改写基准”,专门考察 AI 文本检测器在文章从人写逐步转为 AI 改写的过程中还能不能认出原样。所谓基准,就像一套标准化的考题,考题是同一篇文章的九个不同版本,从几乎完全由人书写,到 AI 参与的痕迹越来越重,直到几乎都由机器重写,检测器要在这套题上暴露自己的“脸盲”程度。
随着 AI 写作助手渗透进日常,我们发出去的文字经常是人先写框架,再让 AI 润色措辞,甚至 AI 出稿后人工调整,不再是单纯的“人写”或“机写”。然而,现有检测器大多只在极端样本上训练,一碰到中间地带就易误判——把学生只改了少数几个词的作文标为 AI 生成,或者放过一篇几乎全由 AI 代笔的文章。
为了修补这个缺口,研究团队从真实人类写作中选取文章,让 AI 像一个渐进修订助手,分不同“粒度”一步步修改:先替换个别词汇(标记级),再改写单个句子(句子级),接着调整相邻几个句子(片段级),最后索性整段甚至整篇文章推翻重来(文档级)。每一次操作严格分级,像用不同号数的砂纸打磨,给文章打上逐步加深的 AI 滤镜。
从人写原文出发,上述操作被轮流施加,每施行一轮就产出一个新版本,最终得到九个版本,构成人写特征慢慢消退、AI 痕迹悄悄堆积的序列。研究人员用这个序列去考各种检测器,记录它们从哪一步开始犹疑不定——是头几次小改就拉响警报,还是直到大面积重写才后知后觉。这样一来,就能画出 AI 作者信号的浮现轨迹,把检测器的弱点暴露清楚。
如果这类基准被实际采用,可能给真实场景带来参考。对教师,也许能为反抄袭工具提供一种判断思路,区分学生是独立写作做了轻微修正,还是通篇由 AI 代笔。对新闻平台,也可能帮助识别经过精巧“换皮”的 AI 文章,但要真正减少误判,还需更多验证和迭代。
OpAI-Bench 并非什么都测得了。目前的实验只覆盖了少数大语言模型和特定英文文本,换到中文网文、社交短帖的混合编辑,效果未知。AI 的修订招数日新月异,今天的考题过上半年就可能落伍,得像杀毒软件那样不断更新。而且,如果有人故意针对这种分级检测训练出绕过的改写策略,检测与规避就会形成猫鼠游戏。
最后留一个开放问题:假如未来出现一种 AI,能把你个人的写作习惯模仿得惟妙惟肖,连最好的朋友都无法分辨,你还会相信网络那边文字背后是真人吗?你更希望检测工具给一个模糊的概率,还是简单盖章?这项研究至少朝着透明化迈进了一步。
提出一种绕开长时间反向传播的循环网络预训练方法,试图让长序列记忆训练更容易并行。
2026年6月4日,麻省理工学院的研究人员公布了一项新研究:提出了一种绕开长时间反向传播的循环网络预训练方法,希望让长序列记忆的训练更容易并行。循环网络是擅长处理语音、文本等时间序列数据的神经网络;“反向传播”是训练它的标准算法,需要沿着时间顺序一步步往回调整参数,就像背长诗时一句句倒着检查对错,速度慢且容易遗忘早期信息;而“预训练”则是先让模型学习记忆如何一步转移的通用规律,再用于具体任务。
循环网络虽然能自然编码时序信息,但传统的“随时间反向传播”(BPTT)训练起来既慢又难:每一步都要等前一步算完,无法并行,而且梯度在长序列上容易消失或爆炸,导致模型很难学到很久以前的依赖关系。这就像让一个人背一首百行长诗,总是背到后面就忘了开头。
过去,研究者尝试过用近似梯度、跳跃连接,或者干脆用擅长并行的Transformer完全替代循环网络。但循环结构本身对序列顺序的归纳偏好仍被很多场景需要。麻省理工的这项新工作,找到了一种保留循环网络、但用监督学习进行预训练的方法,取名为监督记忆训练(SMT)。
SMT的核心是一个“记忆编码器”,它是一个Transformer模型,先通读整个序列,预测出每个时间步的理想记忆状态应该长什么样,生成一批“记忆转移标签”。然后,循环网络只需要学习一个简单的映射:从当前记忆和当前输入,直接输出下一个记忆。这个单步预测任务可以完全并行训练,不再依赖时间展开。
用这种方式预训练过的循环网络,在处理长序列时可能更稳定,有望获得更强的长期记忆能力。研究人员设想,在长视频理解、多轮对话、机器人长期规划等需要处理海量时序信息的任务中,这种方法可能让训练更加高效,让模型更好地记住过去发生的细节。
当然,这个方法也有它的边界。首先,它依赖一个高质量Transformer编码器来生成记忆标签,编码器本身需要先训练好,这可能带来额外的计算开销。其次,一步记忆转移是否总能捕捉到足够丰富的序列信息,在更复杂的任务上还有待检验。另外,目前的研究主要在特定数据集上验证,推广到真实场景还需更多工作。
尽管如此,SMT提供了一个新思路:不直接硬解反向传播的难题,而是从数据中提炼出更容易学习的记忆模式。未来,如果这种方法不断成熟,或许我们能让AI助理像人一样,轻松记住一整月甚至更久的对话历史,而不会“失忆”。
你觉得,用这种“先学记忆再预测”的方式,未来能不能让智能设备真正理解你长期的生活习惯?欢迎在评论区聊聊你的看法。
提出一种按推理片段重新分配奖励的方法,让训练信号更早指向真正出错的步骤。
2026年6月4日,奥地利林茨约翰内斯·开普勒大学和Cognizant AI Lab的团队公布了一项新研究:他们提出一种按推理片段重新分配奖励的方法,让训练信号能更早指向模型真正出错的步骤。这里的“推理片段”,就是模型在一步步解题时写下的中间思考段落,像做数学题时的草稿纸;“奖励”相当于老师批改时打的好评或差评,告诉模型哪些步骤做对了、哪些搞砸了。
这两年,让大语言模型学会像人一样分步推理,成了AI领域的热点。主流方法是强化学习,用群组相对策略优化(GRPO)算法,让模型多尝试几条推理路径,最后看答案对错给奖励。但这里有个大麻烦:奖励只在答案最后才发,前面的每一步都得不到及时反馈,就像跑完马拉松才告诉你哪一公里跑慢了,学习效率低,还容易练出歪点子。
从强化学习理论看,这种延迟奖励会导致训练信号方差极大,同一个答案,可能这次奖励高,下次奖励低,模型学得晕头转向。GRPO本质上用的是蒙特卡洛方法,虽然简单,但天生高方差,就像用抛硬币猜考试分数一样不靠谱。
这次的新方法,核心是重新分配奖励。研究者把模型整个思考过程切成多个小段,每一段都评估它对最终答案的贡献大小,然后按贡献重新把奖励分配过去,而不是简单地把最终对错分平摊给所有步骤。这有点像老师批改一道证明题,不仅看最后结论,还会在推导的每一步上画圈、打叉,告诉学生你错在哪一步。
具体怎么做呢?他们利用了模型内部的状态表征,通过数学变换,计算出每个片段对最终输出的因果影响程度,再去调整段落的奖励权重。这样一来,真正关键的步骤会得到更强的正向激励,而拖后腿的步骤会被早早揪出来惩罚。
这个改进旨在提供更精准的训练信号,有望让模型更快地修正推理套路,从而提升学习效率。当然,实际效果还需要在更多任务和场景下加以验证。
未来,这种按段奖励的方法或许可以延伸到各种需要多步推理的AI任务上,比如数学解题、编程纠错、医疗诊断分析,甚至法律条文推理。对于希望AI可靠辅助决策的人来说,这相当于给模型装了一个更精细的纠错导航。
当然,任何技术都有边界。这套方法目前主要在数学推理数据集上做了实验,搬到更开放域、逻辑跳跃大的场景里效果如何,还需更多验证。另外,分段和计算因果影响会额外消耗算力,虽然有望提高信号质量,但单步计算成本上升了,这之间的平衡还需要工程优化。
如果我们想让AI真的帮我们思考,而不只是拼凑答案,就必须知道它哪一步可信,哪一步可疑。你觉得,让模型自己知道“我哪一步可能想歪了”,会不会是下一个爆点?欢迎在评论区聊聊你的直觉。
提出一种多项式权重预处理层,用来改善大模型预训练时的权重状态和优化稳定性。
2026年6月4日,香港中文大学(深圳)和Google的团队公布了一项研究:提出多项式权重预处理层,用来改善大模型预训练时的权重状态和优化稳定性。
通俗来说,就是训练开始前用数学变换把权重矩阵的数值分布“捋顺”,让奇异值更均匀,就像给跑车做四轮定位;而大模型预训练是从零开始学习海量知识的过程,对初始权重状态特别敏感。
具体来说,研究人员在标准Transformer中嵌入了一个PC层模块,它通过低阶多项式对权重矩阵进行预处理。这个操作类似于给权重矩阵做一次“频谱整形”:放大过小的奇异值,压缩过大的奇异值,让整个奇异值谱分布更均匀,从而降低矩阵的条件数。这样一来,优化器在训练时行走的“地形”就变得平坦,梯度下降更顺畅,训练稳定性得以改善。实际上,这种做法的灵感来自数值线性代数中的预条件技术:通过左右乘一个精心设计的多项式矩阵,间接调整权重矩阵的谱半径,使优化问题的病态程度大幅缓解。
更巧妙的是,训练完成后,PC层的变换可以直接合并进原始权重矩阵,推理时不会增加任何额外计算,真正做到零开销。理论上,作者证明了只要每层权重的奇异值被约束在一个有界范围内,优化过程就能实现几何收敛,比普通的线性收敛快得多,这意味着损失值会以几何级数稳步下降,训练进程可预测性更强。
在Llama-1B的预训练实验中,添加了PC层的Transformer模型,无论使用AdamW还是Muon优化器,都观察到了更低的训练损失和更稳定的收敛曲线,展示了PC层在改善训练效率方面的潜力。当然,目前这项验证仅限于10亿参数规模,更大模型上是否同样奏效,以及多项式阶数等超参数如何自适应选择,还需要更多实验探索。换句话说,它不是在模型外面再挂一个长期插件,而是把训练时的这层变换最终并回权重里。另外,PC层在训练中引入的额外计算量虽然较小,但在超大规模训练中是否真的可以忽略,也值得进一步评估。
你平时训练模型时,遇到过loss莫名不收敛的情况吗?可能就和权重初始状态有关。如果这项改进日后成为标配,你觉得它最有价值的应用场景在哪里?欢迎评论区聊聊。
提出一种跨层共享路由的稀疏注意力方法,用一次索引服务多层长上下文推理。
2026年6月4日,微软研究院和清华大学的研究人员提出了一种跨层共享路由的稀疏注意力方法,让一次索引就能服务多层长上下文推理。简单说,就是让大模型处理长文本时,像人一样只关注关键段落(稀疏注意力),并且多个计算层共用同一套“阅读笔记”(跨层共享路由),不必每层都重新计算该看哪里,就像团队共用一份重点标注。这里的关键创新在于“一次索引”:模型在最底层做一次路由计算,选出重要内容,然后把这份索引直接传给后续所有层复用,就像开会时一位同事做好笔记,大家传阅,从而大幅减少重复计算。
当前大语言模型在处理超长文本时,注意力机制需要逐字扫描全文,计算量与序列长度平方级增长,尤其在需要生成大量中间推理步骤的思考链任务中,开销量会急剧膨胀。已有的稀疏注意力方法试图只选择部分内容进行注意力计算,却普遍面临速度与质量的权衡:结构化块稀疏方法能提供较强的加速,但常导致明显的质量损失;基于 token 的稀疏方法通常更准确,然而因为每次在全量缓存中选择关键 token 的路由开销依然很高,甚至可能超过注意力计算本身,所以整体加速效果有限。
新方法的核心是在已有键值共享架构(例如 YOCO)上,不仅共享键值缓存,还共享注意力路由。模型在最底层做一次索引,确定哪些键值对是当前输入需要关注的,然后将这一索引直接传递给后续所有层复用,从而避免了每层重复执行昂贵的 Top-K 路由计算。这样,一次索引就能服务多层,推理时每层的路由开销几乎被消除,而注意力计算仍然可以保持稀疏带来的速度优势。
这意味着,未来长上下文推理的计算开销可能得到有效控制,模型或许能在更长的对话历史、法律文书或代码库中保持流畅推理,而不被推理时间阻断。对于需要生成数千字推理链的任务,比如解决数学难题,也能跑得更快。
不过,该方法依赖特定的模型架构,不是所有大模型都能直接套用。此外,全层共享同一份注意力模式,可能会让某些层丢失自己特有的关注重点,在极度精细的任务上或许需要额外的微调或混合策略来弥补。
这就引出一个问题:如果所有层都看同样的重点,模型会不会变得“千人一面”?未来能否在共享和层独立性之间找到更灵活的平衡?
比较成年人和大语言模型在主动探索任务中的表现,研究谁更能从自己设计实验中受益。
2026年6月4日,麻省理工学院和Mila-魁北克人工智能研究所的团队公布了一项研究:比较成年人和大语言模型在主动探索任务中的表现,研究谁更能从自己设计实验中受益。这里的大语言模型,简单说就是能聊天、写文章的AI;主动探索,则是让人或AI自己去尝试不同条件、观察结果,而不是被动地看数据。
过去,心理学家们发现一个有趣现象:当人们只能被动观察时,很难理解那些需要多个条件同时满足才能触发的因果规则。比如,必须同时按下两个按钮,灯才会亮。这种规则叫合取规则。相比之下,如果按任何一个按钮灯都会亮,这样的析取规则就容易掌握。这种现象被称为“合取障碍”,而且反复出现在各种被动学习任务里。但现实中,我们常常是主动探索的:想弄明白一个新设备怎么用,会到处按按试试。那么,如果给人动手的自由,这个障碍会不会消失?
研究者用到了一种经典实验工具,叫“blicket探测器”。想象一个玩具箱,往上面放不同的小玩具,有时候箱子会发光、播放音乐。你的任务是找出哪些玩具是魔法“blicket”——就是能触发箱子的。这个任务看起来童趣,但背后的逻辑和科学家找因果关系是一样的。麻省理工和Mila的团队把实验改成了主动版本。成年参与者可以自己一次次选玩具放上去,自由尝试各种组合,完全由他们决定怎么试。同时,他们也把同样的任务推给了大语言模型——让AI扮演一个虚拟实验者,每次选择动作并“观察”结果。
研究的核心问题很明确:拥有主动探索的机会后,成年人是不是能克服合取障碍?大语言模型又表现如何?或者说,谁更能从自己设计实验这件事上获益?这不仅仅是人的学习问题,也是AI能力的一个新考验。
如果结果证明,成年人一旦能自己动手,之前困扰他们的因果学习难题就迎刃而解,那对教育培训很有启发:给学习者更多自主探索的空间,可能比单向灌输有效得多。而对AI来说,假如大语言模型在主动探索中没占到什么便宜,那说明当前主要靠海量文本预训练的方式,可能缺失了某些关键的学习维度。
当然,我们不能把这项实验的结论直接等同于“AI不如人”。这里的主动探索是高度简化的,跟真实世界做实验没法比。而且AI的决策环境也是模拟的,并没有眼睛和手去感受真实物理反馈。未来如果能给AI配上实验室机器人,或许会有更惊人的发现。
最后留一个问题给你:如果有一天AI也学会了像人类科学家一样主动设计实验、提出假设,你觉得它最先可能在哪个领域带来突破?是药物研发、新材料,还是气候预测?欢迎在评论区说说你的想法。