发布时间:2025-06-21 02:35 来源:凯发k8茶饮
K8凯发·天生赢家凯发一触即发官网★ღ★,凯发官网平台★ღ★,凯发K8娱乐官网入口★ღ★。手摇饮料★ღ★,凯发天生赢家一触即发【新智元导读】GRIT能让多模态大语言模型(MLLM)通过生成自然语言和图像框坐标结合的推理链进行「图像思维」★ღ★,仅需20个训练样本即可实现优越性能★ღ★!
现有开源多模态推理模型(Multimodal Reasoning Model)生成的推理链几乎都是纯自然语言★ღ★,缺少对图像信息的显式引用与整合★ღ★。
让多模态大语言模型(MLLM)既能条理清晰的思考★ღ★,又能真正将推理过程「落到画面」上★ღ★,在实现上仍然存在两个难点★ღ★:
1. 全是自然语言的思考内容看似很长★ღ★,其内容有可能脱离图像信息凯发在线平台★ღ★,不一定能线. 教会模型新的看图思考方式动辄要成千上万条有标注的数据★ღ★,门槛极高★ღ★。
模型可以在思考链里随时插入框坐标★ღ★,实现真正的 「图像思维」(Thinking with Images)★ღ★。
GRIT采用的Grounded Reasoning范式★ღ★,一次模型推理★ღ★,[x1,y1,x2,y2]框直接织进思考链B站的老司机都从这里上车了★ღ★,实现「思路和证据同步」★ღ★,所想即所见★ღ★。
其训练方法GRPO-GR具备三重奖励(答案★ღ★、格式★ღ★、框)★ღ★,实现零人工标注★ღ★,仅用20张图像与问答的训练数据就能教会模型画框+推理★ღ★。
Grounded Reasoning范式建立在多模态大语言模型已具备的两项原生能力——视觉定位 (grounding) 与语言推理 (reasoning)——之上★ღ★,目标是把二者深度融合★ღ★:
让模型在「想」(生成推理链)的同时「指」(输出精准框坐标)凯发在线平台★ღ★,从而让「慢思考」不再停留在纯自然语言★ღ★,而是真正做到「所见即所想★ღ★,所想即所指」★ღ★。
推理链c—以 开头★ღ★,模型边写自然语言★ღ★,边在需要时插入[x1,y1,x2,y2]形式的框坐标★ღ★,之后 引导的重思考将进一步整合框坐标对应的图像信息★ღ★;
输出框坐标后B站的老司机都从这里上车了★ღ★,模型不会再回读对应像素★ღ★,而是继续token输出★ღ★,要求模型理解并利用框坐标信息★ღ★,融入后续推理★ღ★,就像模型给自己出了一道Referring Expression Generation(REC)任务一样凯发在线平台★ღ★。
Grounded Reasoning范式通过只传递数字坐标★ღ★,避免了裁剪图像或多轮回输信息的计算开销★ღ★,流程轻量★ღ★。
在此范式之下模型的输出里的框坐标可以直接画出凯发在线平台★ღ★,成为其推理的「看图」依据★ღ★,读者既能读到它的思考★ღ★,也能顺着坐标直接验证图中证据★ღ★。
为了让模型在极小的数据量下就学会画框来辅助推理★ღ★,GRIT 采用了专门的强化学习方法GRPO-GR
它在GRPO的基础上★ღ★,引入三个奖励信号来直接驱动策略 π_θ 生成符合grounded reasoning范式的序列★ღ★。
插入的边界框[x1,y1,x2,y2]语法是否有效★ღ★、坐标是否在合法区间内B站的老司机都从这里上车了★ღ★。 通过惩罚任何格式错误★ღ★,模型很快学会在文字与坐标之间灵活★ღ★、规范地切换★ღ★。
计数奖励 (r_count)★ღ★:对于要求回答某物体数量的问题★ღ★,计数奖励的信号鼓励模型的输出要数量上符合答案★ღ★,最好一个框对应一个相关物体★ღ★。
r_count对比推理链里框的个数与真实答案中的数量★ღ★:二者一致即得分★ღ★,否则扣分★ღ★;可以让模型在标记目标时兼顾完整性★ღ★,避免多框★ღ★、漏框或随意画框★ღ★。
答案正确性奖励 (r_ans)★ღ★:最终答案是否答对★ღ★,由GPT-4o进行语义评估并结合BLEU相似度给分★ღ★。 这样的「老师」对自然语言表述具有强鲁棒性★ღ★,避免模型钻格式空子★ღ★,也进一步降低了人工评判成本★ღ★。
得益于这三重奖励的协同作用★ღ★,GRPO-GR完全不依赖显式的推理链标注或框标签——只需提供题目★ღ★、图像和最终答案★ღ★。
在实践中★ღ★,即便训练集只有20条数据★ღ★,模型依旧能够稳定学到「边框边想」的行为B站的老司机都从这里上车了★ღ★,并在多项基准测试上取得亮眼表现B站的老司机都从这里上车了★ღ★。
在6个测试集中★ღ★,用GRIT方法★ღ★,模型推理结果的准确性(ACC)相对于没有经过训练的基线明显提高★ღ★。而基线模型表现出割裂的定位与推理能力★ღ★,他们无法兼顾在定位目标物体来画框上比较准确的同时在回答问题上更加正确★ღ★。
即使GRPO-GR训练中没有包含任何对画框的位置的训练信号凯发在线平台★ღ★,测试结果现实框的准确性(GroundingIOU★ღ★, i.e.GIoU)也在用GRIT方法后得到了提升★ღ★。
结果表明★ღ★,随着数据规模的增加★ღ★,模型准确率虽可以进一步提高★ღ★,但跨领域泛化依旧是难点★ღ★。即使同类训练数据增加★ღ★,在与训练域差异较大的测试集上模型提升依然有限★ღ★,提示未来需要更丰富★ღ★、更异质的训练数据★ღ★,而不只是「更多同类题」★ღ★。
即便是极小样本设置★ღ★,GRIT也能让开源MLLM同时获得「画得准★ღ★、讲得清」的能力B站的老司机都从这里上车了★ღ★,并且画框和推理在模型输出中相辅相成★ღ★;进一步放大数据规模★ღ★,则带来渐进式收益★ღ★,并揭示了跨域推理的新挑战★ღ★。
06月09日凯发在线平台★ღ★,攀岩亚少赛★ღ★、全国青攀联赛相继在四川眉山举行B站的老司机都从这里上车了★ღ★,k彩2·0下载福地★ღ★,网络真人现场★ღ★,千赢国际游戏官方网站★ღ★,澳门皇冠手机app下载
06月09日“2024海峡两岸青年活力嘉年华”在上海举行 春秋航空现场招聘台籍乘务员fun88官方网站和记娱乐客户端下载跑狗leyu乐鱼体育官方
EDG胜决对阵LEV★ღ★,神十九准备就绪国泰航空★ღ★:无乘客及机组人员在碰撞事故中受伤购买彩票平台od体育平台官网百老汇手机乐鱼全站官网登录
挑战养猪场从进厂到跑路★ღ★,乘风2024开播非遗和冰雪梦幻联动 新疆博湖“冷资源” 变“热产业”人民币扎金花乐鱼游戏官网客服美高梅登录正网飞禽走兽电玩城游戏大厅
张宏涛说秀身材不是擦边是自信★ღ★,吧友热议沙特石油杯含金量习近平《深化合作★ღ★,继往开来推动中阿命运共同体建设跑出加速度——在中阿合作论坛第十届部长级会议开幕式上的主旨讲话》单行本出版十大网上赌场排名葡京官网下注体育投注网站有哪些必博在哪里玩
谁懂睡醒看见这一幕的含金量啊★ღ★,张宏涛说秀身材不是擦边是自信两会受权发布丨第十四届全国人民代表大会第二次会议关于最高人民检察院工作报告的决议龙8国际线路检测博狗在线登陆皇冠集团体育app下载万博的官网
樊振东与陈若琳食堂合影★ღ★,南京咖啡阿姨说天下没有不散的筵席中国驻赞比亚大使馆提醒在赞中国公民谨防“换汇”骗局银河登录手机版官网九州体育官方网址下载九州体育bet永久地址伟德体育网址
对食品安全问题绝对零容忍B站的老司机都从这里上车了★ღ★,直到破坏了丈夫的家庭男子6米陡坡掉落又被落石砸伤 医生从腹腔搬“救兵“为其保肢棋牌金币皇冠即时比分网乐鱼体育最新版本登录ag真人游戏靠谱吗