您好,欢迎进入乐鱼体育永久网址【363050.com】
乐鱼体育-LEYU乐鱼体育官方网站-LEYU SPORTS

联系我们

邮箱:363050.com
电话:@BETHASH6
地址:乐鱼体育永久网址【363050.com】 在线咨询

乐鱼新闻

MM-Eureka:极少数据实现多模态推理的R1-乐鱼体育-LEYU乐鱼体育官方网站-LEYU SPORTSZero时刻

发布日期:2025-03-19 15:06 浏览次数:

  乐鱼体育官方网站LEYU SPORTS[永久网址:363050.com]是一家线上综合娱乐集团,全球最大线上体育娱乐服务商。乐鱼拥有乐鱼体育,LEYU乐鱼体育官方网站,乐鱼体育靠谱吗,乐鱼体育app,乐鱼体育官网,“欧洲马耳他mga”颁发的合法执照,是受国际认可的合法公司。欢迎注册!例如,R1-V 仅在简单计数任务上表现出进步,未能实现回答长度的增长和顿悟时刻;R1-Multimodal-Journey 则在训练过程中回答长度反而降低;LMM-R1 虽然有所进步,但尚未在大规模图文数据训练中得到验证。而 Kimi 1.5 尽管表现突出,但并未开源其模型或数据。

  我们这篇工作聚焦于一个核心问题:如何在多模态环境中复现 DeepSeek-R1 的关键特性,包括稳定的回答长度增长、准确率奖励以及 Visual aha-moment?

  为了解答这一问题,来自上海人工智能实验室、上海创智学院、上海交通大学和香港大学的研究人员提出了多模态学科推理模型 MM-Eureka。

  开源框架:我们基于 OpenRLHF 开发了一个高效可扩展的多模态大规模强化学习框架,支持 InternVL 等多种模型和 RL 算法。相比 R1-V 等已有框架,我们的方案成功训练了 InternVL 2.5-38B 等大型模型。

  极大的数据效率:仅使用 54K 图文数据进行规则型 RL 训练,平均性能超过使用 1M 数据的 MPO 模型;整体基准准确率与使用 12M 数据进行 CoT SFT 训练的模型相当!MM-Eureka-Zero 仅使用 8K 图文数学推理数据(指令模型的 0.05%),在我们自建的 K12 基准测试上超越指令模型 8.2%,在 MathVerse 上表现相当。

  极简的 RL 设计足以获得出色效果。在 instruct 模型上实验时,添加 KL 散度会限制模型探索,导致无法观测到 response length 的提高。

  数据选择对于稳定 RL 训练很重要!基于难度的数据过滤策略对 RL 训练稳定性至关重要。在 8B-instruct 模型上进行 RL 训练时,若不进行数据过滤,训练过程极其不稳定。

  模型在 RL 训练中展现类似 DeepSeek-R1 的 aha-moment,特别是模型不仅学会反思和回溯,还学会重新审视图像中的关键信息,我们认为这是 Visual aha-moment 的关键特征。

  在 Instruct 模型上,几乎全部使用开源数据(50K),便在所有多模态数学推理基准上取得稳定提升。相比其他后训练策略,比如 MPO(1M 数据)和 CoT SFT(12M 数据),我们发现简单的 rule-based RL 具备极强的数据高效性,使用几十分之一的数据,平均性能超过 MPO,与 CoT SFT 相当。

  在 Pretrained 模型上进一步挖掘 RL 潜力,仅需 8K 多模态数学推理数据,即可在奥林匹克数学测试集(部分)和 K12 数学推理测试集上,超过使用 16.3M 数据进行 SFT 的指令模型。在 MathVerse 上,两种模型表现也相似。我们仅使用了指令模型数据量的 0.05%,凸显了强化学习的巨大潜力!

  我们在复现过程中进行了许多其他的尝试,在此分享一些我们认为有帮助,但并未成功验证的操作。我们认为这并不代表这些方法有问题,而是需要进一步探索。

  Curriculum Learning:尽管我们基于难度划分数据并尝试从易到难训练,但未观察到明显性能提升。我们认为简单问题的学习难以直接泛化到难题,如何更有效地组织课程学习数据仍需探索。

  Online Data Filter:我们将预先基于难度的数据筛选策略记为 Offline Data Filter。这种方案虽然可以帮助 RL 进行稳定训练,但其数据利用率降低了,因此我们希望在模型训练过程中动态进行基于难度的数据筛选(类似 PRIME)。然而,我们发现训练结果不如 offline data filter 稳定,我们认为这是因为每次更新时的数据量不同,导致梯度不稳定。

  Model Size:尽管目前一些工作,比如 ORZ、SimpleRL 在 7B level 的 LLM 上也复现了 R1 的表现,但我们在多模态推理场景下,难以通过 8B 的 InternVL Pretrained 进行成功复现。我们认为这受制于多模态推理数据质量以及多模态预训练数据中很少存在 long CoT 数据。

  我们开源了全套数据(包括自助收集的高质量多模态 K12 数据集)、代码和模型,并发布了详细的技术报告,涵盖所有复现过程及未成功的尝试。希望我们的工作能帮助社区共同推进多模态推理的发展!我们同样在持续推进模型训练,请继续关注!

  03月09日,把握城乡关系动态演变 探索符合国情的城乡融合发展道路,爱体育官网登录,ope网站,365足球直播比分直播,万喜国际线日,青铜水禽等文物在秦始皇帝陵博物院展出 专家:凸显秦文化多彩性,真钱斗牛app下载,抢庄十点半棋牌,乐发彩票网,365bet平台线日,尊宪崇法丨法治“齿轮”紧紧耦合,“幸福航船”行稳致远,必威官网体育登录,马经挂牌系列A,天齐网3d藏机图,ku体育平台备用网址

  03月09日浙江杭州:“顶流”《黑神话:悟空》带热周边文创手办棋牌乐游戏雷速体育即时比分杏彩网页版在线登录必赢亚洲手机端官网下载

  03月09日日本一架飞机坠落悬崖 系着陆后冲出跑道米6体育平台赌博真钱下载游戏厅捕鱼达人扎金花什么是喜钱

  03月09日2023年广州海关关区企业出口汽车同比增89.6%威尼斯人官网登录2020欧洲杯预赛分组情况bob登陆平台铂爵彩票下载……

  03月09日,伪造“”行骗牟利 传播伪科普误导公众——中国互联网联合辟谣平台2024年5月辟谣榜综述,365bet体育正规盘口,果博东方平台,凯时登录网站,国际象棋线日,联合国机构间常设委员会集体声明呼吁世界“不要抛弃加沙人民” 中方回应,尊龙人生就是博官方app,云顶娱乐网页版手机登入,完美体育注册登录,谁有买球平台

  03月09日CEPA实施20年 探香港内地电影合作新机遇18新利体育客户端网堵网址赌城回忆录188宝金博客户端

  03月09日,中国香港成为2024年巴黎奥运三人篮球资格赛主办城市,天博平台下载,网投首选网站,千亿pt游戏,云顶娱乐网页版手机登陆

  03月09日,瑙鲁与台“断交”是中国对国际秩序的直接挑战? 外交部驳斥,ROR怎么开户,中北彩民报(新),下载凯时app,外围足彩网站有哪些

  03月09日,国家统计局:造假是统计领域最大腐败,IM体育官网比分,奔驰娱乐,乐鱼网页版登录不了,永利线日打击整治网络谣言 天津公安今年已依法查处180名造谣传谣人员2020最新送彩金网址澳门十大娱乐网站AG鸭油倒闭全民捕鱼下载安装

  03月09日全国“村乒”登场 “村味”足风情浓博雅德州手机官网靠谱的德州appAG真人官方网站爱赢中彩可靠吗

  03月09日餐馆饭店小菜单 藏着多少小心思千亿手机官网下载安装挖娱乐必赢网站改成多少火狐体育竞猜网

  出轨女老师曾获学生最喜欢老师称号,樊振东 食堂固定刷新NPCCNN记者上了菲律宾的海警船……爱游戏下载安装包dafabet手机版网页版一点红纬来体育登录

  35岁唐尚珺结束第16次高考,黄昏的优作美佛州州长德桑蒂斯退出2024年总统竞选天尊报江南tt官方网九游会下载地址凯发娱乐登陆手机网页版

  2024年首场大范围雨雪开启,有什么办法不失风度的夺回电脑?国务院关于《青岛市国土空间总体规划(2021—2035年)》的批复AG官网是多少靠谱的网投平台美高梅游戏平台bet360网址

  南京一野猪误闯星级酒店被玻璃门硬控,老练律师 第一季【新春纪事】投壶研墨剪窗花 留学生在古城襄阳体验中国传统习俗沙巴体育唯一授权网站官网喜盈门娱乐城和记最新版九游会旧版网址

  周游记,成毅王权富贵高清正脸照奥沙利文将冲击斯诺克大师赛第8冠什么app可以玩现金德州亚博国际体育美国博彩APP澳门拉斯维加斯线上网站

  四姑娘山多名向导接力送失温游客下山,全红婵再现010深圳海上重点项目按下建设“加速键”球盟会官方登录平台入口app所有体育平台注册册送38元九州体育直播平台

联系方式

全国服务热线

@BETHASH6

手 机:@BETHASH6

地 址:乐鱼体育永久网址【363050.com】

扫一扫,加微信

Copyright © 2002-2025 乐鱼体育官方网站 版权所有 非商用版本 备案号: