岑浩辉将访欧洲四国

AI学会左脚踩右脚自进化？Meta华人新研究改写Agent法则_蜘蛛资讯网

江语晨吃饭用的雷霆大勺

诊断过度修正、制定下一轮改进计划。这还不是「日志记录」那么简单，系统开始把改进看成一个长期经营过程，而不是一次次孤立的paœtch。它不只记录每一代分数，还会比较趋势、识别回退，并把跨代经验沉淀进pe

程序和被测AI必须完全隔离运行，标准答案不能出现在AI能访问的环境中，永远不要对不可信的输入调用eval()，LLM裁判要像处理用户输入一样对AI输出做过滤。有人在推特上评论：说得有点绝对，但当行业围绕分数竞争，分数本身的可信度反而成了最被忽视的东西。评测本身没有错，反而比以往任何时候都重要。不是「分数是多少」，而是「这个分数是怎么来的」。回到开头那10行代码。SWE-bench上，最好的模型跑出

bsp;参考资料： https://x.com/jennyzhangzt/status/2036099935083618487%20 https://arxiv.org/abs/2603.19461

当前文章：http://tx9qgr.qiaobenshen.cn/osc88u/avi.htm

发布时间：04:53:53

蜘蛛资讯网热门国内