推理正确率下降65.5%!斯坦福、MIT等用「不等式」拷问AI逻辑极限
大语言模型在数学证明中常出现推理漏洞,如跳步或依赖特殊值。斯坦福等高校团队提出IneqMath基准,将不等式证明拆解为可验证的子任务。结果显示,模型的推理正确率远低于答案正确率,暴露出其在数学推理上的缺陷。在大模型频频给出「看似完美」答案
CVPR 2025 Award Candidate | 英伟达等Difix3D+:用单步扩散模型修复 3D 重建伪影
在 3D 重建领域,无论是 NeRF 还是最新的 3D Gaussian Splatting(3DGS),在生成逼真新视角时仍面临一个核心难题:视角一旦偏离训练相机位置,图像就容易出现模糊、鬼影、几何错乱等伪影,严重影响实际应用。为了解决
提升大模型内在透明度:无需外部模块实现高效监控与自发安全增强|上海AI Lab & 上交
大语言模型(LLM)能力提升引发对潜在风险的担忧,洞察其内部“思维过程”、识别危险信号成AI安全核心挑战。当前主流用外部“黑盒”监控模块解读模型表征,此类方法如“隔靴搔痒”:独立于模型,解读逻辑不透明、结果可信度低,且对数据分布变化敏感、
我在哪?要去哪?要怎么去?字节跳动提出Astra双模型架构助力机器人自由导航
在当今科技飞速发展的时代,机器人在各个领域的应用越来越广泛,从工业生产到日常生活,都能看到它们的身影。然而,现代机器人导航系统在多样化和复杂的室内环境中面临着诸多挑战,传统方法的局限性愈发明显。一、传统导航瓶颈凸显,Astra 应势而生在
性能提升11.74%!腾讯优图提出激励推理,专攻复杂指令
现有的语言大模型(LLMs)在复杂指令下的理解和执行能力仍需提升。腾讯优图(UTU)研究团队提出一种系统性方法——激励推理(Incentivizing Reasoning ),来提升LLM处理复杂指令的能力。结果显示,该方法能够有效提升大
AI真的需要「像人类」那样思考吗?AlphaOne揭示属于大模型的「思考之道」
「The most effortful forms of slow thinking are those that require you to think fast.」 ——Daniel Kahneman,Thinking,Fast a
28岁辍学生掌舵Meta超级AI!小扎掷千亿,与奥特曼密谋,新「王」登顶
Alexandr Wang的人生堪称AI时代的缩影,19岁辍学到28岁掌管Meta超级智能。在最近的一场专访中,他谈到了AI的潜力与缺陷,他将如何影响这场智能革命的方向?19岁MIT辍学,24岁白手起家的亿万富翁,扎克伯格为他豪掷143亿
NVIDIA Tensor Core 的演变:从 Volta 到 Blackwell
https://semianalysis.com/2025/06/23/nvidia-tensor-core-evolution-from-volta-to-blackwell/在我们去年 AI Scaling Laws article
AI已学会PUA!Anthropic「说服」调查
这是一篇来自伊利诺伊大学香槟分校联合Anthropic发布的重磅报告,系统性地梳理了"计算说服"这个新兴领域。您可能会好奇"计算说服"是什么?传统人际说服基于理论构建(如亚里士多德的修辞学 、西奥迪尼的说服六原则 )和人类参与的实验。完全
LLM进入「拖拽时代」!只靠Prompt,几秒定制一个大模型,效率飙升12000倍
现在的大模型基本都具备零样本泛化能力,但要在真实场景中做特定的适配,还是得花好几个小时来对模型进行微调。即便是像LoRA这样的参数高效方法,也只能缓解而不能消除每个任务所需的微调成本。刚刚,包括尤洋教授在内的来自新加坡国立大学、得克萨斯大