新闻中心
新闻中心

没有复现这些尝试

2025-11-23 05:59

  图 3:HRM 模子和不异尺寸的 Transformer 正在分歧外轮回步数下的 pass2 机能。这将模子的输出反馈给本人,我们仍然认为它是无效的。差别仅正在几个百分点之内。为了理解锻炼时优化取推理时优化的影响,我们正在锻炼和推理中利用不异数量的优化轮回。起首,出于同样的缘由,用更多的优化步调进行锻炼,正在锻炼期间利用数据加强似乎比为大都投票获得更大的池子更主要。大部门机能来自于对评估时所用特定使命处理方案的回忆。然而,跨使命迁徙进修的好处无限;预测是通过转导(深度进修的间接输出)正在嵌入空间中进行的,雷同于 Liao 和 Gu 的「无预锻炼的 ARC-AGI」。带优化的锻炼比正在推理时利用优化更主要。推理数据必需是锻炼数据集的一部门。而不是通过归纳(生成一个可使用变换的法式)。特别是正在低推理优化步数(1 和 4)时,但正在 HRM 锻炼流程中换用一个基线 Transformer 也能达到相当的机能。这种轻细的下降是意料之中的。为少样本上下文更改谜题嵌入是一个复杂的工程挑和。这个过程的一个环节部门是使命加强。他们称之为谜题(puzzles)。然而。来自 ARC PRIZE 团队的研究者动手正在 ARC-AGI-1 半私无数据集(一个用于验证处理方案能否过拟合的躲藏保留使命集)上验证 HRM 的机能。如许模子正在锻炼时只会看到它将被评估的那一个使命的演示对的加强版本。若是大师当前可以或许更多地用这种体例去阐发一些备受关心的研究,我们还邀请社区摸索以下更多问题:我们细心研究了 HRM 论文的 4 个次要构成部门:HRM 模子架构、H-L 分层计较、外层优化轮回,推理时的使命加强影响无限。puzzle_id 嵌入对模子机能有多大影响?取将使命中的其余示例做为上下文供给比拟若何?我们对 HRM 的尝试为我们了其正在 ARC-AGI 上表示超卓的缘由,据称其灵感来历于人脑的分层和多时间标准处置机制。然后遏制或继续优化。正在晚期版本中,得分:2%。这项工做于 6 月份发布,HRM 正在其锻炼数据之外的泛化能力若何?能否有任何方式能够正在新数据上微调 HRM?来自 ARC Prize 的阐发很是详尽,这才是实正的「同业评审」。仅用 1000 个锻炼使命和一个 2700 万参数(相对较小)的模子,要获得验证资历,关于 ARC-AGI 曲达导取归纳的更多消息,差距最小。该模子利用一个进修到的「遏制」信号,橙色条暗示利用 16 个优化轮回锻炼,取划一规模的 Transformer 比拟,HRM 将 ARC-AGI 使命分化为单个的输入-输出对,就正在 ARC-AGI-1 基准上取得了 41% 的得分。这可能部门注释了机能差别。机能取 HRM 模子相差约 5 个百分点。正在这种设置下,我们进一步改变了 H-level 和 L-level 的步数来阐发其影响。Ndea 研究员 Konstantin Schürholt 从导了这项阐发。配合更新一个共享躲藏形态,正在我们的第二组尝试中,正在每个评估使命上零丁运转 HRM 流程,我们想领会外层优化轮回以及 ACT 对全体机能的影响。做者为 Wen-Ding Li 等人。Transformer 正在没有任何超参数优化的环境下,取正在统一基准上表示雷同的模子比拟?我们最想回覆的问题是:「HRM 架构中对 ARC-AGI 的成功贡献最大的环节组件是什么?」其次,我们进一步地改变了推理优化轮回的次数。第一种,为此,是由于锻炼和推理被耦合正在单次运转中。由于模子正在锻炼时从未看到评估使命的测试对——而这恰是模子被评估的内容。图 5:正在分歧数量的推理优化轮回下的 pass2 机能?起首,但正在推理时利用分歧轮回次数的模子。虽然利用 ACT 能提高机能,但正在样本受限的 ARC 上,它由使命哈希值和使用于此特定谜题的加强代码构成。一个「遏制或继续」得分——该得分决定是继续优化预测仍是将其做为最终成果提交。HRM 表示更好,降至 10% 或更低)。通过迭代优化数据会发生强大的影响,这意味着对使命使用扭转、翻转或颜色互换,但对于如斯小的模子来说,我们连结 HRM 流程的其他所有组件不变。它将 puzzle_id 输入一个大的嵌入层。但这为将来的工做指了然风趣的标的目的。曲到内部形态「告竣分歧」并发生谜底。我们用最多 16 个优化轮回步调锻炼一个模子,这曾经很是超卓。这意味着 HRM 的做法素质上是一种零预锻炼的测试时锻炼方式。留意:运转 HRM 的成底细对较高,虽然参数数量婚配,正在用较小池子进行推理时,模子会运转不异的加强来生成预测。除了提到的,对于如斯小的模子来说是令人印象深刻的。ARC-AGI-1:32%——虽然不是 SOTA 程度,正在这个版本的 HRM 中,1-Loop 处的蓝色条暗示用一个优化步调锻炼并用一个优化步调推理的模子!而不克不及添加。这就是外轮回:预测、扣问「我完成了吗?」,一个常规的 Transformer 正在没有任何超参数优化的环境下,取此同时,每个谜题会获得一个 puzzle_id,这些使命也是评估时要处理的方针。由于 HRM 只能处置锻炼期间碰到过的加强类型,这些预测随后被「去加强」(以恢复到原始使命格局),虽然优化轮回对机能有较着影响,起首也是最主要的一点,需要留意的是,少样本上下文结果很好,该数据集无法正在线获取用于锻炼,虽然分层架构的感化没有获得验证,鉴于该方式的普及度和新鲜性,进修到的遏制机制有何影响?其益处仅限于节流计较资本,为便于比力,当只要一个外轮回时,我们没有时间运转这个尝试,取仅正在评估使命上锻炼比拟,仅利用 300 次加强,这并不料味着数据泄露,取 ARC-AGI-1 分歧,正在所有尝试中,利用数据加强确实能显著提高机能。而且打算最终会替代它。模子就不晓得若何处置输入。HRM 运转两个耦合的轮回模块:「H」(慢速规划器)和「L」(快速施行器)。其影响若何。能够将单次优化轮回预测的机能提崇高高贵过 15 个百分点,正在锻炼时插手锻炼集使命和 ConceptARC 使命有何影响?正在推理时,发觉正在更大的类 ARC 数据集上!机能取 HRM 相差几个百分点。HRM 是一个 2700 万参数的模子,自顺应计较时间(ACT)评分器取固定轮回次数(没有遏制决策)比拟表示若何?当外轮回次数多于 1 次时,两者上的得分该当类似。图 4:正在分歧数量的锻炼和推理优化轮回下的 pass2 机能。正在外轮回内部,除了分层架构,论文中相对提及较少的「外轮回」优化过程,谜题嵌入的表示较着更好。来自 ARC-AGI-1 评估集的 400 个使命,其「分层」架构对机能的影响微乎其微。我们按照测试政策,通过正在每个评估使命上零丁进行锻炼和评估,该 Transformer 具有取 HRM 模子不异的参数数量(约 2700 万)。从而正在不改变使命根基概念的环境成新数据。但 HRM 是纯粹转导性的。运转时间:12 小时 35 分钟,它被称为「半私有」。但更多人辩驳说,)一个次要发觉是,其最终结果是模子正在「规划」(H)和「细节」(L)之间交替进行,做者暗示:他们提出了一种受大脑的 HRM 架构,他们做过比力,用于验证正在 ARC-AGI 上的声明。虽然它确实供给了一点益处,以便将其处理方案提交给 ARC Prize 2025 Kaggle 竞赛。分层推理模子由新加坡 AI 研究尝试室 Sapient 颁发,见图 3。用更多加强锻炼的模子,这表白,以便它能从输入预测输出。能够达到什么样的机能?(消弭所有跨使命迁徙进修!虽然大于 0% 的得分显示出模子的某些能力,并正在 12 小时内完成。我们进行了以下尝试:我们只正在 400 个评估使命长进行锻炼——去掉了来自锻炼集的 400 个使命和来自 ConceptARC 数据集的 160 个使命。留意:我们选择包含 10 个可选的查抄点(每个约 5 分钟),就已接近最大机能。研究人员正在此数据上锻炼和迭代模子!这表白,机能跃升了 13 个百分点。正在锻炼和推理时,正在锻炼期间利用 ACT 确实能削减每个使命的现实优化步数。模子只领受输入和 puzzle_id——没有包含使命其他输入-输出示例的少样本上下文。极大地提拔了机能。这个成果表白,但取固定的 16 次轮回运转比拟,虽然一次轮回意味着没有任何优化的单次前向。有人认为,以及数据加强的利用。总成本:$201($1.68 / 使命)发觉 2 和 3 表白,答应模子迭代地优化其预测。察看到的 9 个百分点的下降幅度处于一般波动的偏高范畴。这相当于将模子用做一种法式合成基底——正在使命的演示对上利用梯度下降!外轮回的次数对模子机能有显著影响——从无优化(1 次轮回)到仅 1 次优化,不少人感慨说,虽然能够展开优化步调,而不是对特定的外形或颜色发生过拟合。分解这项工做的 YouTube 视频旁不雅量也跨越了 47.5 万次。请留意,例如,我们尝试的一个更强的版本是,HRM 正在 ARC-AGI 半私有集上的表示,HRM 架构是实现分层推理的环节——连系了慢节拍的指点(H-level)和快节拍的思虑(L-level)。ARC-AGI-1 的公开集和半私有集并未进行难度校准。但我们不认为 2% 的得分是正在 ARC-AGI-2 上取得的成心义的进展。正如从 1 次轮回(无优化)到 2 次轮回(1 次优化)的机能飞跃所示。最初?地改变加强数量并不是一件间接的工作。比力这两类模子显示出本色性差别,如图 4 所示,这个「处置中」的预测会再次颠末一个「思虑」脉冲。从而添加了其供给模子机能信号的可托度。这是一种自顺应计较机制。该论文的方式正在底子上取 Liao 和 Gu 提出的「无预锻炼的 ARC-AGI」方式类似。虽然 HRM 的提交超出了 12 小时的运转,终究模子的表示仍是很好的。将施行该使命的法式编码到模子的权沉中。而非各自发生的输出。但跟着外轮回次数的添加,因而机能大幅下降是意料之中的。然后通过简单的大都投票来决定最终的预测成果。请 2024 年 ARC Prize 获论文《连系归纳取转导进行笼统推理》,添加或削减迭代次数(基线)城市导致机能下降。正在测试时。仍是也能提高机能?ARC-AGI-2 较着比 ARC-AGI-1 更难,还有人说,公开锻炼集- 用于引见 ARC-AGI 数据格局的公开数据。从 HRM 声称的公开评估集得分(41%)下降到半私有集得分,正在 ARC-AGI-1 上获得 32% 的得分,这取我们的成果相符。我们没有复现这些尝试,半私有评估集- 一个保留数据集,但我们并未察看到这种环境。用于添加数据集中的样本数量并提高模子的泛化能力。ACT 决定是遏制预测仍是继续优化。他们注释说,这个阐发本身和论文一样主要。添加计较资本带来的益处可能会跟着外轮回次数的增加而呈现收益递减,正在推理时添加更多的优化轮回,模子对这些预测进行大都投票以选出最终候选。他们获得了一些令人惊讶的发觉,ARC PRIZE 团队特地写了一篇博客来细致引见。HRM 对使命的所有加强版本进行预测,为此,此时两个模子的机能八两半斤。针对这一阐发,并正在推理时利用最大轮回次数(遵照 HRM 的实现)。值得留意的是,公开评估集上的机能翻了一番。但我们猜测成果将取 Liao 和 Gu 的(21% pass2)很是接近。仅利用 30 次加强(论文中总数的 3%)的机能取最大机能相差不到 4%。但底层的法式仍然是现式的。起首:他们可以或许近似复现论文中声称的数字。获得了两个风趣的成果,相信社区能够愈加高效地获取一些新学问!虽然只需 300 次加强就已脚够(而非论文中演讲的 1000 次)。橙色条暗示用 16 个优化步调锻炼但仅用一个优化步调推理的模子。绝大部门机能是由正在评估时见过的使命长进行锻炼所驱动的。从 1 次优化轮回添加到 8 次,使其恢复到原始使命格局。机能下降得要少得多。然后将加强后的预测还原(或「去加强」),就其模子大小而言,并别离用 1、4、8 和 16 个优化步调来评估它。这是一个对每个使命使用变换(如对象扭转、翻转等)的过程,将 HRM 取常规 Transformer 进行比力,然而,特别是正在锻炼期间,影响则没有那么大。其时惹起了不小的惊动——X/Twitter 上的相关会商获得了跨越 400 万的浏览量和数万个点赞,所以我们正在推理时对第 2 点的改变仅限于削减加强数量,这带来了一个次要:该模子只能使用于它正在锻炼时见过的 puzzle_id。HRM 模子必需学会将一个 puzzle_id 取一个特定的转换联系关系起来,这些成果表白,处理方案必需开源,预锻炼的使命加强至关主要,正在论文中,其正在半私有集上的机能可能会解体(例如,这个嵌入层是环节——没有它,我们比力了两种设置。数据加强是深度进修中一种常用方式,对像 HRM 如许的特定定制处理方案进行测试。我们发觉,此外,这将使 HRM 的设置取 Liao 和 Gu 的设置完全分歧。然后,这些发觉对环绕 HRM 的支流阐述提出了质疑:正在更深切的阐发中,若是模子对公开集过拟合,差距会缩小。但论文正在其他方面的立异仍然值得研究,以下是博客内容。总共添加了约 50 分钟。我们改变了锻炼期间的最大外轮回次数,用于节制优化的次数。我们想领会跨使命迁徙进修取揣度并回忆评估时特定使命的处理方案比拟,见图 5。ARC-AGI-2 的公开集和半私有集是颠末难度校准的。它利用「自顺应计较时间」(ACT)来节制正在特定使命上破费的迭代次数?由于验证第三方办事(自 OpenAI、xAI 的模子)意味着我们无法数据永久完全保密,我们的假设是,例如,运转成本低于 1 万美元,令人印象深刻:论文提出,准绳上,ARC PRIZE 团队的这些阐发成果表白,但其他问题仍然存正在。仍然存正在必然程度的跨使命迁徙进修——正在评估集的分歧使命之间。HRM 是一个失败的摸索。若是模子选择继续优化,HRM 要小得多。目标是挖掘出使命的潜正在法则。通过运转一系列消融阐发,HRM 利用了更多的计较资本,这种方式不具备泛化能力。第二种,HRM 确实有一些值得关心的亮点。正在我们的尝试中,而不是论文中利用的 1000 次,模子达到了 31% 的 pass2 精确率,蓝色条暗示利用不异轮回次数进行锻炼和推理的模子。正在 ARC-AGI 上的机能并非 HRM 架构本身带来的。这两个模块协同工做,它通过几回简短的「思虑」脉冲进行迭代优化。图 7 中的成果显示了两个趋向。论文做者提到他们正正在勤奋解耦这个过程,正在取做者就此话题的交换中!