从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。近日,Daniel Han 和 Michael
提升大模型内在透明度:无需外部模块实现高效监控与自发安全增强|上海AI Lab & 上交
大语言模型(LLM)能力提升引发对潜在风险的担忧,洞察其内部“思维过程”、识别危险信号成AI安全核心挑战。当前主流用外部“黑盒”监控模块解读模型表征,此类方法如“隔靴搔痒”:独立于模型,解读逻辑不透明、结果可信度低,且对数据分布变化敏感、
地球副本上线!人类机器人蜂拥进入「世界模拟器」,复刻全球3D真实空间
一个融合真实地理空间与AI生成技术的开放世界模拟平台,由Genesis物理引擎驱动,支持人类与机器人在社区中共同互动、成长与演化。现实版「黑客帝国」来了!刚刚,一个融合未来人机共生蓝图的虚拟平台悄然上线,它或将彻底改变我们理解人类和未来A
ChatGPT上瘾,大脑萎缩47%!MIT祭出206页92图超长报告
AI上瘾堪比「吸毒」!MIT最新研究惊人发现:长期依赖大模型,学习能力下降、大脑受损,神经连接减少47%。AI提高效率的说法,或许根本就是误解!ChatGPT正在「吸干」你的大脑!刚刚,麻省理工学院完成了针对ChatGPT用户的首次大脑扫
性能提升11.74%!腾讯优图提出激励推理,专攻复杂指令
现有的语言大模型(LLMs)在复杂指令下的理解和执行能力仍需提升。腾讯优图(UTU)研究团队提出一种系统性方法——激励推理(Incentivizing Reasoning ),来提升LLM处理复杂指令的能力。结果显示,该方法能够有效提升大
李飞飞团队提出架构设计新思路!无需从头训练,直接“嫁接”预训练模型关键组件
预训练模型能否作为探索新架构设计的“底座” ?最新答案是:yes!简单来说,按照研究人员设计好的架构方案从头训练模型,往往是检验一个架构是否有效的重要手段。但问题在于,从头训练模型的成本也太高了!对此,包括李飞飞团队在内的研究人员提出了一
AI App 2024年赚了12亿美元,谁在给AI氪金?
文章摘要2024年全球AI移动应用收入达12亿美元,同比猛增179%。图片/视频生成应用主要由亚洲市场驱动,细分需求兴起;ChatBot领域ChatGPT占据主导,但套壳产品表现意外强劲,用户分层明显(高知男性与年轻女性为主)。AI赋能生
知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」
大语言模型(LLMs)在决策场景中常因贪婪性、频率偏差和知行差距表现欠佳。研究者提出强化学习微调(RLFT),通过自我生成的推理链(CoT)优化模型,提升决策能力。实验表明,RLFT可增加模型探索性,缩小知行差距,但探索策略仍有改进空间。
一文读懂深度表格数据表示学习 | 南京大学
在AI应用中,表格数据的重要性愈发凸显,广泛应用于金融、医疗健康、教育、推荐系统及科学研究领域。深度神经网络(DNN)凭借其强大的表示学习能力,在表格数据建模上展现出令人瞩目的潜力。南京大学团队系统介绍了表格表示学习这一研究领域,他们将现
Dify模板转换节点全解析|核心引擎Jinja2详解|8种典型应用场景|AI生成动态数据分析报告
一、节点介绍 Dify的模板转换节点,是基于Jinja2模板引擎,为用户提供灵活的数据转换能力。借助Jinja2,可以在Dify工作流中快速完成文本拼接、格式转换、数据结构重组等操作,实现"多源数据的无缝衔接与随心转换"。本文将展开介绍