ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++
一、背景介绍虽然旋转位置编码(RoPE)及其变体因其长上下文处理能力而被广泛采用,但将一维 RoPE 扩展到具有复杂时空结构的视频领域仍然是一个悬而未决的挑战。VideoRoPE++ 这项工作首先进行了全面分析,确定了将 RoPE 有效应
Nature研究遭质疑:像人类一样思考的AI,竟有点“荒谬”?
人工智能(AI),如果可以像人类一样“思考”,或许能够帮助我们理解人类的思维方式,尤其是不同心理状态(如抑郁或焦虑)的人群如何做出决策,进而为人类健康研究提供一个新视角。如今,一篇发表在权威科学期刊 Nature 上的研究论文,为实现上述
登上热搜!Prompt不再是AI重点,新热点是Context Engineering
最近「上下文工程」有多火?Andrej Karpathy 为其打 Call,Phil Schmid 介绍上下文工程的文章成为 Hacker News 榜首,还登上了知乎热搜榜。之前我们介绍了上下文工程的基本概念,今天我们来聊聊实操。为什么
AI科学家组团搞科研,爆肝万字报告震惊医学家!Nature独刊揭秘细节
谷歌、斯坦福等陆续推出「AI科学家」,协助人类科学家推动科研范式革新。科学家亲身试用后或震惊其洞察之深,或质疑其缺乏灵感与人性温度,AI能代替人类思考吗?斯坦福大学的病理学家Thomas Montine在4月的某个周日早晨,按照「惯例」举
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破
大语言模型(LLM)以生成能力强而著称,但如何能让它「听话」,是一门很深的学问。基于人类反馈的强化学习(RLHF)就是用来解决这个问题的,其中的奖励模型 (Reward Model, RM)扮演着重要的裁判作用,它专门负责给 LLM 生成
重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!
你肯定见过大模型在解题时「装模作样」地输出:「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。但一个灵魂拷问始终存在:这些词真的代表模型在「思考」,还是仅仅为了「表演」更像人类而添
Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成
近年来,基于智能体的强化学习(Agent + RL)与智能体优化(Agent Optimization)在学术界引发了广泛关注。然而,实现具备工具调用能力的端到端智能体训练,首要瓶颈在于高质量任务数据的极度稀缺。当前如 GAIA 与 Br
首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust
MLA-Trust 是首个针对图形用户界面(GUI)环境下多模态大模型智能体(MLAs)的可信度评测框架。该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系,精心设计了 34 项高风险交互任务,横跨网页端与移动端双重测试
vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025
在AI迈入多模态时代的当下,“让大模型上手机”成为产业落地的焦点。现有MLLM在手机端部署时常面临两大难题:1、纯语言任务性能下降:现有的端侧MLLM在纯文本的任务上表现不尽人意;2、手机NPU不支持MoE架构:而MoE架构恰恰是多模态训
4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源
Skywork-Reward-V2全新发布!巧妙构建超高质量的千万级人类偏好样本,刷新七大评测基准SOTA表现。8款模型覆盖6亿至80亿参数,小体积也能媲美大模型性能。AI,到处都是AI!早上起来,脑子里突然萦绕起一个旋律,于是便对着AI















