知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」
大语言模型(LLMs)在决策场景中常因贪婪性、频率偏差和知行差距表现欠佳。研究者提出强化学习微调(RLFT),通过自我生成的推理链(CoT)优化模型,提升决策能力。实验表明,RLFT可增加模型探索性,缩小知行差距,但探索策略仍有改进空间。
7B智能体仅凭9个任务训练即超越R1!上交大打造AI-for-AI新范式
尽管人工智能(AI)在飞速发展,当前 AI 开发仍严重依赖人类专家大量的手动实验和反复的调参迭代,过程费时费力。这种以人为中心的方式已成为制约创新速度和通向通用人工智能(AGI)的关键瓶颈。为突破限制,AI-for-AI(AI4AI)应运
突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%
在家庭服务机器人领域,如何让机器人理解开放环境中的自然语言指令、动态规划行动路径并精准执行操作,一直是学界和工业界的核心挑战。近日,上海人工智能实验室联合新加坡国立大学、香港大学等机构的研究团队,提出了 "OWMM-Agent" 具身智能
超级智慧的黎明已至:Sam Altman的宣告,为何是现在必须读懂的未来?
您是否曾经想像过一个未来,AI 的能力将远远超越人类的智慧?过去这听起来像是科幻小说情节,但OpenAI的执行长Sam Altman 宣告,我们早已身处于「超级智慧」 (Superintelligence )时代的开端。
大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
“边看边画,边画边想”,让大模型掌握空间思考能力,结果直接实现空间推理任务新SOTA。来自蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源ViLaSR-7B。它在包括迷宫导航、静态图像理解和视频空间推理等5个基准上平均提升18
ICML 2025 Oral | NAS老树开新花,NUS提出智能体超网,成本狂降55%
LLM 智能体的时代,单个 Agent 的能力已到瓶颈,组建像 “智能体天团” 一样的多智能体系统已经见证了广泛的成功。但 “天团” 不是人越多越好,手动设计既费力又不讨好,现有的智能体自动化方法又只会 “一招鲜”,拿一套复杂阵容应对所有
只改2行代码,RAG效率暴涨30%!多种任务适用,可扩展至百亿级数据规模应用
只需修改两行代码,RAG向量检索效率暴涨30%!不仅适用于文搜文”、“图搜图”、“文搜图”、“推荐系统召回”多种任务;而且具备良好扩展性,适合十亿、百亿级别大规模应用。浙江大学高云君、柯翔宇团队联手向量检索领域大佬傅聪,开源新方法PSP(
三个大模型合作,1000次迭代,竟能像人类科学家一样发现方程
随着 AI4Science 的浪潮席卷科研各领域,如何将强大的人工智能模型真正用于分析科学数据、构建数学模型、发现科学规律,正成为该领域亟待突破的关键问题。近日,中国科学院自动化研究所的研究人员提出了一种创新性框架 ——DrSR (Dua
世界模型版《模拟人生》:AI虚拟小人街头演讲拉票,GPT-4o选举获胜
一个真实世界模拟器。当世界模型高度进化后,里面的「人」都在做些什么?有人会进行街头演说,吸引到了不少听众,小孩会和机器狗玩:有人会当街作案,警察前去抓捕,又有人会在大庭广众之下求婚:本周五,来自马萨诸塞大学阿默斯特分校(UMass Amh
地球副本上线!人类机器人蜂拥进入「世界模拟器」,复刻全球3D真实空间
一个融合真实地理空间与AI生成技术的开放世界模拟平台,由Genesis物理引擎驱动,支持人类与机器人在社区中共同互动、成长与演化。现实版「黑客帝国」来了!刚刚,一个融合未来人机共生蓝图的虚拟平台悄然上线,它或将彻底改变我们理解人类和未来A