核心事实核查:Meta FAIR团队于2026年5月18日发布论文 《Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design》(arXiv:2605.15871v1)。文中“340次60小时实验”系数据误读——实际是340次24小时实验和300次60小时实验,体现了多组算力预算下的一致性验证。以下内容据此核实并丰富。
当人类还在为Transformer的架构优化绞尽脑汁时,AI已经完成了“自我设计”的历史性跨越。Meta FAIR联合MIT等机构的最新研究,让AI智能体在24小时固定算力预算内自主设计出超越传统架构的神经网络,为“递归自我提升(Recursive Self-Improvement, RSI)”按下了加速键。论文标题中的 “双框架(dual-framework)” 与 “智能体驱动发现(Agentic Discovery)” 两大关键词,精准概括了这项研究的范式意义——这不仅是AI设计AI的技术突破,更是一种全新的AI科研方法论。
一、人类直觉的“算力天花板”:Transformer的困局与突围
长期以来,Transformer作为深度学习的“黄金标准”,其架构设计高度依赖人类专家的直觉。但这种依赖正遭遇物理瓶颈:
- 平方复杂度陷阱:自注意力的计算成本为O(n2),KV缓存内存成本为O(n),在处理超长序列时力不从心。当上下文从几千扩展到百万token时,算力需求呈平方级攀升。
- 混合架构组合爆炸:与严格堆叠注意力的传统Transformer不同,“混合架构(Hybrid Architecture)”有望在质量和效率间取得更好平衡——将注意力、MLP、Mamba等状态空间模型(SSM) 分层组合。但Mamba计算复杂度为O(n)(线性),与注意力的O(n2)形成互补——在三种基本计算基元(mA、MLP、Mb)约束下,16层网络产生约4300万种组合排列。人类靠手动试错如同“大海捞针”。
二、AIRA双框架:AI自主设计的“左右脑”协同
Meta FAIR提出的AIRA(Agentic Introspective Research Architecture) 双框架系统,打破了人类对神经网络设计的垄断。
1. 宏观架构师——AIRA-Compose
AIRA-Compose部署了11个智能体,从三类计算原语中探索最优组合:
- 多头注意力(mA):擅长长上下文依赖建模
- 多层感知机(MLP):核心特征提取器
- Mamba(Mb):线性复杂度的SSM,推理成本仅为O(n)
智能体在百万参数量级上迭代设计候选模型,自动外推至3.5亿、10亿和30亿参数规模,最终产出 14种全新架构,分为AIRAformer(纯Transformer变体) 和AIRAhybrid(Transformer-Mamba混合) 两个家族。
2. 微观极客——AIRA-Design
AIRA-Design负责“从零发明”,直接编写原生算法代码,包括模型初始化、优化器配置、梯度计算等底层逻辑。它部署多达20个智能体,在LRA(Long Range Arena)长程注意力基准和Autoresearch训练脚本优化两项任务上验证了自主设计底层机制的能力。
3. 进化引擎——AIRA-dojo与AIRS-Bench闭环
支撑AIRA双框架的是 AIRS-Bench标准化平台(20个科研任务构成,覆盖NLP、数学、生物信息学等)和AIRA-dojo进化引擎,实验总量达340次24小时实验 + 300次60小时实验。
三、性能碾压:全方位超越Llama 3.2与Nemotron-2
| 对比指标 | Llama 3.2 | AIRAformer-D | AIRAhybrid-D |
|---|---|---|---|
| 零样本准确率(下游任务) | 基准 | +2.4% | +3.8% |
| 扩展效率 vs Llama 3.2 | 基准 | 快54% | 未直接对比 |
| 扩展效率 vs Composer最佳 | 不适用 | 快71% | 快37% |
| 扩展效率 vs Nemotron-2 | 不适用 | 未直接对比 | 快23% |
| LRA文档匹配差距 | N/A | 仅差2.3%达人类SOTA | — |
| LRA文本分类差距 | N/A | 仅差2.6%达人类SOTA | — |
| Autoresearch最低BPB | 1.0121 | 0.968 | — |
数据来源:论文 arXiv:2605.15871v1 及 Meta AI 官方博客。
在10亿参数、375亿token固定预算下,AIRAformer-D验证损失降至2.734,六项零样本任务平均准确率59.7%;AIRAhybrid-D进一步压至2.719,不同聚合方法均收敛到一致的attention-MLP比例。此外,AIRA发现的混合架构在延迟与精度帕累托前沿上全面领先,超越了Nemotron-2和Mamba等对比基准。
四、递归自我提升的“智能爆炸”
1. 逼近人类顶尖的算法发明能力
- LRA长程注意力设计:智能体在1680次运行中,Greedy Gemini 3 Pro与Greedy Opus 4.6各拿下两项最佳——文档匹配仅差2.3%、文本分类仅差2.6%即可达到人类SOTA。
- Autoresearch训练优化:最佳智能体Greedy Opus 4.5将验证BPB从人类基线的1.0121降至0.968,5分钟内刷新了纪录。
2. 文献增强的“科研大脑”与“自我进化”
系统能够阅读顶会论文和开源代码,提取关键思路用于优化。论文坦诚了局限——智能体擅长“工程合成”而尚未实现真正的“科学创新”,所有“one-shot”设计均未产生有效提交。但正是这种清晰的边界认知,指明了下一阶段的进化方向。
自2026年以来,递归自我提升研究正加速突破:
- 2026年3月,Meta FAIR发布Hyperagents框架,智能体可重写自身逻辑形成“自指架构(self-referential architecture)”;
- 同期,Meta华人实习生推出DGM(自我进化框架),智能体自动增加补丁验证、优化工具并分析失败原因;
- 业界涌现出哥德尔机启发的智能体框架,将递归自我改进(RSI) 从数学构想推向工程实践。
