重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
过去几年,随着基于人类偏好的强化学习(Reinforcement Learning from Human Feedback,RLHF)的兴起,强化学习(Reinforcement Learning,RL)已成为大语言模型(Large La
Windows最新搭载微软自研模型Mu,一句话搞定所有系统配置
还在为复杂的Windows设置头疼?微软来重新定义设置界面交互了。全新发布的设备端小语言模型Mu,让Windows 11的设置也拥有了自己的AI Agent。有了它,查找和更改PC设置就变得容易得多,现在只需要一个简单的问句,例如:我的鼠
人形机器人首次打通视觉感知与运动断层,UC伯克利华人博士让宇树G1现场演示
不用提前熟悉环境,一声令下,就能让宇树机器人坐在椅子上、桌子上、箱子上!还能直接解锁 “跨过箱子”、“敲门” 等任务~这是来自UC伯克利、卡内基梅隆大学等团队的最新研究成果LeVERB框架——基于模拟数据训练实现零样本部署,让人形机器人通
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。近日,Daniel Han 和 Michael
不用千亿参数也能合成高质量数据!这个开源框架让小模型“组团逆袭”,7B性能直追72B
无需蒸馏任何大规模语言模型,小模型也能自给自足、联合提升?上海人工智能实验室联合中国人民大学提出的GRA框架(Generator–Reviewer–Adjudicator) 正是这样一种新范式:该方法以“多人协作”、“角色分工”的理念为核
大模型到底是怎么「思考」的?第一篇系统性综述SAE的文章来了
作者介绍:本篇文章的作者团队来自美国四所知名高校:西北大学、乔治亚大学、新泽西理工学院和乔治梅森大学。第一作者束东与共同第一作者吴烜圣、赵海燕分别是上述高校的博士生,长期致力于大语言模型的可解释性研究,致力于揭示其内部机制与 “思维” 过
英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了
强化学习可以提升LLM推理吗?英伟达ProRL用超2000步训练配方给出了响亮的答案。仅15亿参数模型,媲美Deepseek-R1-7B,数学、代码等全面泛化。强化学习Scaling来了!刚刚,英伟达团队提出全新训练方法——ProRL,成
开源版MetaQuery来了!OpenUni用1.1B参数媲美BLIP3-o-8B,数据代码完全开源
随着 GPT-4o 展现出令人印象深刻的多模态能力,将视觉理解和图像生成统一到单一模型中已成为 AI 领域的研究趋势(如MetaQuery 和 BLIP3-o )。南洋理工大学 S-Lab 和商汤科技的研究团队推出 OpenUni,一个开
放弃幻想!伯克利重磅:消灭幻觉,就是消灭AI!
关于大模型产生幻觉这个事,从2023年GPT火了以后,就一直是业界津津乐道的热门话题,但始终缺乏系统性的重磅研究来深入解释其根本机制。今天,伯克利的研究者们带来一个重要研究成果:让基于Transformer架构的语言模型产生幻觉的机制,恰
Dify模板转换节点全解析|核心引擎Jinja2详解|8种典型应用场景|AI生成动态数据分析报告
一、节点介绍 Dify的模板转换节点,是基于Jinja2模板引擎,为用户提供灵活的数据转换能力。借助Jinja2,可以在Dify工作流中快速完成文本拼接、格式转换、数据结构重组等操作,实现"多源数据的无缝衔接与随心转换"。本文将展开介绍