GPT-4o 会画吉卜力、会「自拍」开云官网切尔西赞助商,然则能拼好乐高吗?
你有莫得想过这么的问题:
多模态谎话语模子确凿具备麇集和推理空间结构的能力吗?
在多步空间推理任务上,现存 MLLMs 究竟进展得何如?
比年来,跟着多模态谎话语模子的飞速发展,视觉麇集、图文对皆、话语生成等能力不休破损,仿佛东谈主类助手已易如反掌。
但在需要多手脚空间感知与逻辑推理的复杂场景中。
举例机器东谈主安设、自动驾驶有绸缪、3D 物体麇集等,多模态大模子的信得过"空间能力"究竟何如?
为此,上海东谈主工智能实验室和洽同济大学与清华大学,提倡了全新基准 LEGO-Puzzles,以乐高拼搭为载体,初度系统评估现存多模态大模子(MLLMs)在多步空间推理(multi-step spatial reasoning)任务中的本色进展。

LEGO-Puzzles:全面掩盖多步空间推理的基准数据集
评估多模态大模子的多步空间推理能力,一个中枢挑战是:何如构建既信得过又结构明晰的任务?
比拟起施行寰球视频或图像中的芜乱配景和不笃定性,LEGO 拼搭过程具备自然的评测上风。它不仅结构章程、每一步明确、空间变化明晰,还领有高度可控的任务序列。
不同于视频帧之间可能存在的时分逻辑进步或视角漂移,LEGO 的每一拼装手脚都具有安谧且严实的空间逻辑。此外,视觉万般性亦然 LEGO 的一大上风。
万般体式、热情、组合款式带来了丰富的视觉抒发,同期又幸免了施行图像中复杂纹理和配景的打扰。
更紧迫的是,团队基于公开 LEGO 积木源文献自动生成大领域、可彭胀的任务数据,既精真金不怕火标注本钱,又保证高质料与一致性。因此,无论从建模逻辑、可控性,一经数据收尾来看,LEGO 都是多步空间推理的梦想载体。
依托 LEGO 所具备的结构章程性与空间变化可控性,团队构建了一个专注于多模态大模子多步空间推理能力评估的基准数据集:LEGO-Puzzles。
数据集基于从互联网汇聚的开源 LEGO 名堂源文献,通过 Bricklink 官方软件 Studio 进行渲染,并联接 POV-Ray 生成多视角高质料图像,合营任务模板自动生成问题与选项,最终构建出 1100+ 经心联想的任务样本。
这些样本掩盖 11 种任务类型,按功能别离为三大类,复旧两种任务时局:视觉问答(VQA)与图像生成(Image Generation)。

LEGO-Puzzles 的任务联想恪守东谈主类在 LEGO 拼搭中的自然贯通经由,从不雅察结构、践诺操作到合座回话,渐渐晋升任务难度,具体包括:
空间麇集(Spatial Understanding): 判断乐高组件的高矮干系、连结干系和旋转角度;字据不同视角麇集乐高结构。
单步推理(Single-Step Reasoning):评估下一个组件的旋转景色、安设位置,以及安设后的下一步景色和所需组件。
多步推理(Multi-Step Reasoning):推理安设过程中的中间景色、合座安设律例,以及识别不得当律例的极度景色。

合座任务成就掩盖从基础感知到多步有绸缪,具有高度结构性、序列依赖性与空间万般性。
同期,图像生成版块进一步拓展了评测维度,使得 LEGO-Puzzles 不仅能西宾模子"看图作念题"的麇集力,也能测试"看题绘制"的构建能力。
模子进展何如?闭源领跑,但仍远不足东谈主类
团队在 LEGO-Puzzles 基准上系统评测了 20 个多模态大模子(MLLMs),包括 GPT-4o、Gemini 系列、Claude 3.5,以及 Qwen2.5-VL、InternVL 等开源模子。涵盖视觉问答(VQA)与图像生成两大类任务。
开源 vs 闭源:能力范围仍浮现

合座来看,闭源模子在所有任务上渊博优于开源模子。GPT-4o 以 57.7% 的平均准确率位居榜首,Gemini-2.0-Flash 紧随后来(54.0%),而最好开源模子 Qwen2.5-VL-72B 仅为 46.6%,其余开源模子大多落在 30%~40% 区间,接近致使低于立时基线(27.5%) 。
在部分关节子任务上,开源模子的进展不仅不安谧,致使存在系统性失效。举例在" Ordering "任务中,多达 4 个开源模子准确率为 0,而在" Height "任务中,有一半模子准确率低于立时水平。这标明现时大批开源 MLLMs 还无法建筑起灵验的空间构型示意或推理旅途,超越是在三维结构感知和多步景色麇集方面存在根蒂短板。
MLLMs vs 东谈主类:距离信得过智能还有多远?

为了更直不雅地比较 MLLMs 与东谈主类在空间任务上的进展,团队构建了LEGO-Puzzles-Lite 子集,从完竣数据汇聚每类任务中立时抽取 20 题,认为 220 个样本,邀请 30 位具备关联专科配景的行家参与答题。
实验收尾表现:东谈主类在所有任务上的平均准确率为 93.6%,真实在所有任务中都进展安谧。而 GPT-4o 自然是最强模子,在该子集上仅达到 59.1%。其他模子进展更为失态,Gemini-2.0-Flash 为 55.5%,Qwen2.5-VL-72B 为 48.2% 。
超越是在多步推理任务中,模子与东谈主类之间的差距进一步被放大。以" Backwards "和" Ordering "为例,GPT-4o 的得分落在 55% 和 60%,而东谈主类均为 95%。这充分说明,现时模子在贬责多步空间推理能力上,与东谈主类之间仍有权贵贯通范围。
图像生成:看得见的空间推理"糟糕现场"
除了视觉问答外,LEGO-Puzzles 还包含了一个挑升用于评估视觉生成能力的子集,联想了 5 类图像生成任务,分别对应于主任务中的 Rotation、Multiview、Next-Step、Position 与 Dependency。
每个样本条款模子在给定拼搭景色和操作指示的前提下,生成标的结构图像。团队从主数据汇聚为这五类任务彭胀构建图像生成输入输出,并邀请东谈主工行家对生成收尾进行双重维度评分:
Appearance(App):图像是否在合座结构上保留了标的景色的特征;
Instruction Following(IF):图像是否准确响应了指定的拼搭操作。




评测模子包含 GPT-4o、Gemini-2.0-Flash,以及开源的 Emu2、GILL、Anole 等具备图像生成能力的模子。
收尾标明,仅有 Gemini-2.0-Flash 在两项见解上均达到中等及以上水平(App: 2.15 / IF: 1.17),在结构保真度和指示践诺力之间保握了较好的均衡。
比拟之下,GPT-4o 的生成过程更像是基于指示语义进行场景重构,而非渐渐裁剪输入图像。这种战略使得它在指示麇集方面进展尚可,但在结构回话方面存在浮现不足,生成图像在细节与合座结构上频频偏离原始图像,导致其 appearance 得分权贵低于 Gemini-2.0-Flash。
需要说明的是,本次评测使用的是 2025 年 3 月 6 日前的 GPT-4o 版块,团队也正在测试新版 GPT-4o 的图像生成能力,后续评测中将实时更新。
Emu2 的图像生成与原图外不雅相同度较高,但真实无法体现任何操作变化,呈现出典型的"图像重建"手脚,枯竭对任务指示的响应。
而 GILL 和 Anole 在所有子任务中基本失效,生成收尾与标的结构无关,IF 得分接近于 0,说明它们在空间麇集与践诺方面均不具备灵验能力。
一步能答对,五步就乱了?多步推理让模子"断片"
为了更真切评估 MLLMs 在复杂空间序列任务中的推理能力,团队引入了一个针对多步构建链条的彭胀实验:Next-k-Step。该实验建筑在原有的单步任务" Next-Step "之上,进一步条款模子在一语气践诺多个拼搭操作后,识别正确的最终拼搭景色,模拟更靠拢信得过场景中的多步空间构建推理。
实验成就中,团队截止拼搭操作步数 k 从 1 增多到 5,渐渐加深推理链长度,对模子的连贯性建模与景色纪念能力提倡更高条款。输入包括现时 LEGO 景色、接下来的 k 个组件图,以及对应的标的图像和候选选项;模子需从中判断哪一张是合理的拼搭收尾。团队还引入 Chain-of-Thought(CoT)辅导词,探索"渐渐想考"是否能在视觉场景中带来推感性能晋升 。

收尾表现,大大批模子在 k=1 时仍有一定推理能力,如 GPT-4o 可达 75%(使用 CoT),Gemini-2.0-Flash 高达 85%。
但跟着 k 增大,准确率权贵下滑,GPT-4o 在 k=4 和 k=5 情况下真实全都失效,准确率降至 0 – 5%。
即使引入 CoT 辅导,大部分模子在 k > 2 后仍无法保管灵验推理旅途,说明话语模子中常见的 CoT 技巧对视觉多步空间任务的匡助极为有限。
值得留神的是,Qwen2.5-VL-72B 在不同步数下进展相对安谧,准确率恒久保管在 65% 掌握,展现出一定的结构纪念能力;而 InternVL-2.5-78B 则在大批情境下准确率接近立时水平。
这一系列实验揭示出:现时主流 MLLMs 在贬责多手脚空间逻辑时,存在浮现的"推理衰减"问题。
纪念
LEGO-Puzzles是一个专为评估多模态大模子在复杂空间推理任务中的能力而联想的全新基准,涵盖 1100+ 任求实例,掩盖从静态结构识别到多步时序重建在内的 11 类子任务。数据集同期复旧 VQA 与图像生成,为模子提供了多模态输入、万般化输出的完竣测评旅途。
团队对现时主流的 20+ 多模态大模子进行了系统性评估,全面揭示了它们在三维空间麇集、多手脚空间推理、指示运转图像生成等关节能力上的进展瓶颈。实验还进一步引入了 Next-k-Step 和 CoT 推理等机制,真切探查了模子在推理链条加深时的安谧性与泛化能力。
LEGO-Puzzles 现已集成至 VLMEvalKit,复旧一键评测,快速定位模子的空间推理能力短板。
Paper: https://arxiv.org/abs/2503.19990
Github: https://github.com/Tangkexian/LEGO-Puzzles
HomePage: https://tangkexian.github.io/LEGO-Puzzles
一键三连「点赞」「转发」「小心心」
迎接在批驳区留住你的见解!
— 完 —
学术投稿请于使命日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 名堂主页链接,以及无间款式哦
咱们会(尽量)实时回复你

� � 点亮星标 � �
科技前沿进展逐日见开云官网切尔西赞助商