横扫 31 个主流基准、拿抓 10 类中枢任务,视觉模子界的"通才"来了!
香港华文大学 MMLab 与好意思团盘问团队开源提倡OneThinker——一个基于 RL 的长入多模态视觉推理通才模子,隐匿图像与视频两种模态下的十类中枢视觉任务。

在 31 项主流视觉任务测试中,OneThinker 均理解亮眼。它不仅能在多任务稽查中完毕互相促进,还能在从未见过的任务上作念出合理推理,初步展现了通才模子的泛化才气。

天然以 Vision-R1、Video-R1、VLM-R1 等为代表的职责,也曾在图像问答、视频泄露、主张检测等任务上得到权贵后果。
但这类 RL 模子大部分存在一个放荡:只可处理单一模态或单一任务。模态、任务之间清寒联系,推理才气被割裂,难以泛化行使。
来望望 OneThinker 是怎么作念的。
实验天下中的视觉数据复杂各种,经常同期包含静态图像与动态视频信息。同期,视觉任务类型也高度各种化,举例问答、定位、分割、追踪等。
在这种配景下,传统的"单任务、单模态" RL 想考模子架构存在以下两个根人道问题:
无法长入建模实验复杂场景
真实行使中经常需要同期泄露图像与视频本色,并完成多类任务协同,专才模子难以满足。
学问间隔,迁徙受限
模子之间相互孤苦,清寒学问分享机制,放荡了推理才气在职务之间的泛化与迁徙。
为了责罚这一问题,盘问团队提倡了一个"通才想考模子" OneThinker,具备长入泄露和推理不同模态、任务的才气。

为了让 OneThinker 真是具备长入推理不同模态和任务的才气,盘问团队从两方面动手:一是构建长入的数据体系,二是优化多任务的稽查次第。
多模态长入任务数据构建

构建具备通用视觉推理才气的模子,领先需要责罚数据隐匿不及、任务割裂的问题。
为此,盘问团队用心搭建了一套数据集,隔离用于模子的 SFT 冷开动与强化学习稽查:
OneThinker-600k
隐匿图像与视频两种模态,涵盖图像问答、视频问答、时空定位、分割、追踪等十类中枢视觉任务,用于强化学习阶段的主力稽查数据。
OneThinker-SFT-340k
基于 Seed1.5-VL 对 OneThinker-600k 生成高质料的想维链样本并过滤,用于 SFT 阶段冷开动
通过图像与视频任务的麇集稽查,OneThinker 能够在空间与时间维度上建设长入的推理才气,从而完毕跨模态、多任务的通用泄露。
EMA-GRPO:晋升多任务 RL 稽查端庄性

传统强化学习次第在多任务、多模态场景中存在权贵稽查不服衡问题。
不同任务之间的奖励结构互异较大(如检测任务的奖励无边,而问答类任务经常寥落),容易导致样本间或任务间稽查不服衡的问题。
为此,OneThinker 引入了全新的EMA-GRPO(Exponential Moving Average Group Relative Policy Optimization) 强化稽查算法,通过对各任务奖励表率差进行滑动平均归一,责罚了两个层面的不服衡问题:
任务内样本权重不均:缓解模子对低方差样本的过度依赖;
任务间梯度孝顺失衡:看重寥落任务在反向传播中占据主导,阻止其他任务学习。
实验散伙标明,EMA-GRPO 能权贵晋升强化学习阶段的稽查端庄性与不休速率,为大限制长入推理模子的多任务稽查提供了灵验补助。
实验散伙
为了全面评估 OneThinker 的才气,盘问团队在图像与视频两个模态下不同任务的31 个主流 benchmark上进行了系统测试,隐匿图像问答、视频泄露、空间定位、时间定位、主张分割、主张追踪等 10 类中枢视觉任务。

OneThinker 在图像问答任务中理解出色,MMMU 达到 70.6%,MathVerse 达到 64.3%,在视频泄露上,VideoMMM 得到了 66.2% 的理解。

关于时间定位和空间定位任务中,模子在 RefCOCO testA 的空间定位任务中也得到了 93.7% 的高分,Charades 和 ActivityNet 的 R@0.5 隔离达到 68.3 和 43.6。

同期,OneThinker 在追踪任务 GOT-10k 上 AO 达到 73.0, 在视频分割任务 ReasonVOS 上 J&F 得分为 54.9,体现了其在感知类任务中的稳健理解,更多的任务理解请参考原文。

盘问团队还发现,在某些任务和模态之间,OneThinker 能完毕存效的学问迁徙与分享,不同任务之间互相促进。

同期,OneThinker 在未见任务上展现出零样本才气,能径直妥当如点追踪、图像质料评估、GUI 泄露和旋转主张检测等任务,体现出重大的任务泛化才气。
不错说,OneThinker 的推出,不仅展示了强化学习在长入多模态、多任务视觉推理上的后劲,也为构建真是的视觉通才模子提供了明晰的旅途。
在大模子不绝走向多模态、强推理、通才化的趋势下,OneThinker 的职责大略仅仅一个伊始,但它所考证的标的,正在成为通往通用视觉智能(AGI)的枢纽一环。
更多细节,请参考原文。
论文地址:https://arxiv.org/pdf/2512.03043
代码地址:https://github.com/tulerfeng/OneThinker
一键三连「点赞」「转发」「注重心」
接待在指摘区留住你的想法!
— 完 —
咱们正在招聘别称眼疾手快、暖热 AI 的学术裁剪实习生 � �
感兴致的小伙伴接待暖热 � � 了解确定

� � 点亮星标 � �
科技前沿进展逐日见天元证券:正规杠杆配资平台
天元证券:正规杠杆配资平台,适合有经验者?提示:本文来自互联网,不代表本网站观点。