摘要
近期,“视觉感知”开始进入人们的视野,人们期望这种慢思考设计能够解决视觉推理任务,特别是几何数学问题。然而,现实情况是当前的大型视觉语言模型(LVLMs)几乎无法准确复制一个几何图形,更不用说真正理解几何形状内部复杂的内在逻辑和空间关系了。我们认为准确的复制(强感知)是视觉感知的初级阶段。因此,我们引入了“缓慢感知”(SP)的概念,它指导模型逐步感知基本点线组合,就像我们人类一样逐步重构复杂的几何结构。SP分为两个阶段:a) 感知分解。感知不是瞬间完成的。在这个阶段,复杂的几何图形被分解成基本的简单单元以统一几何表达。b) 感知流程,承认准确追踪一条线并非易事。该阶段旨在通过使用提出的“感知标尺”一笔一划地追踪每条线,避免在回溯线段时出现“长视觉跳跃”。令人惊讶的是,这种类似人类的感知方式享有推理时间缩放律——越慢越好。研究人员过去努力加快模型的感知速度,但我们又将其放慢,使模型能够逐步且仔细地阅读图像。
1. 引言
几何图形解析涉及将二维图像中的几何形状转换为可编辑的格式,这是计算机视觉领域的一项重要任务,具有光明的学术和工业价值。在研究领域,几何图形感知有潜力推动数学视觉推理领域的发展[39,6,19,28]。同时,在应用领域,它在教育、建筑等领域也展现出着陆前景。然而,几何解析

图1. 缓慢的感知分为两个阶段:1)感知解构。一个几何形状被分解成基本视觉单元,如圆形和线段,从而统一了多种几何图形的基本表征形式。2)感知流。使用相同的建模方法(基于起点预测终点)来处理不同长度的线段是不合理的。我们采用分部复制的方法,用感知标尺来表达每个线段。
由于几何单元之间的空间关系和依赖性,这并不容易。据我们所知,迄今为止还没有有效的解决方案、预训练数据或有效的基准测试,这进一步阻碍了这一领域的发展。
在过去的几年里,当检测算法特别流行时[26,25,14,12,35,31,30],使用检测模型进行几何解析被认为是一种可行的方法[11]。然而,与自然物体不同[13],几何形状本质上具有元素关系。例如,在图1所示的∠ABC中,边AB

图2. 当人类描绘一条线时,这通常是一个缓慢的感知过程。人类不是用一笔(远距离的“跳跃”)勾画线条,尤其是长线条,而是常用“多次短笔画”来绘制,以获得高精度。我们的“慢感知”算法就是基于此设计的,用以模仿人类逐步识别几何图形的过程。
而BC在共同顶点B相交,而对象检测方法则独立地(并行地)预测目标对象。因此,线段AB和BC的输出结果可能会导致点B的坐标不一致。这种解耦预测方式就是传统检测在几何图形解析任务上挣扎的原因。
在过去的两年里,大型语言模型(LVLMs)[21, 2, 32, 33, 40]在图像描述[13]和视觉问答[27, 20]任务中展现了卓越的能力。更重要的是,对于几何解析任务,下一个标记预测建模方法确保后续点可以引用先前生成的点的坐标,从而保证输出几何形状的闭合性,这让我们希望大型语言模型能够解决几何解析问题。然而,当我们尝试使用最先进的模型[3, 34, 2, 21, 16]来生成代码,以便对几何形状进行反渲染时,我们发现它们都无法展示这一能力,即便是像GPT-4o[21]和Claude3.5[1]这样的模型也不例外。对我们人类来说,复制一个几何形状似乎是一项简单的任务,甚至小学生也能仅凭直尺就做得很好。这迫使我们必须密切关注这项任务。一个自然的问题随之产生:当前的左心室模型范式有哪些不足之处?
想象一下,如果我们手动追踪一个几何形状,我们不可能一蹴而就。相反,典型的方法论包括:1)将复杂的几何形状分解成小单元(旨在“化复杂为简单”);以及2)一笔一划地绘制每个视觉部分(“从局部到整体”),如图2所示。我们声称这是对上述问题的答案,并据此提出“慢感知”(SP)概念,以指导模型像人类一样执行此类任务。
具体来说,无论几何形状有多复杂,它总是可以分解成点和线的基本组合。这允许对所有形状进行统一的几何表示。例如,无需关心几何形状是什么多边形,模型只需按一定顺序预测组成它的每一条线段。我们称之为感知分解(一级减速)。然而,将线段建模为仅考虑其成对的端点并不简单。这个定义面临两个问题:1)代表线段的标记数量少于代表端点的标记数量,导致线段(点与点之间的关系)的优化不足。这可能导致准确的点预测,但点与点之间的连接混乱。2) 预测长线与短线的计算成本相同,这与我们的直觉感受相矛盾。受到人类在复制几何线段时使用的尺子工具和视线移动过程(图2)的启发,我们提出了感知流(二阶感知减速),它采用分段追踪方法来表示每条线。具体来说,每个线段可以表示为:“起点 → 视线点1 → 视线点2 →⋯→ 视线点n → 终点”。n的值与目标线段的长度和预设的“感知标尺”有关。
最重要的是,随着慢速感知的概念和建模方法,我们提供了一种渲染几何形状以扩大数据集的方法。我们构建了总共200,000个合成数据样本用于训练模型。此外,我们从中学试卷场景中手工收集了480个真实世界的几何图形,其中120个用于验证,360个作为测试集。我们将开源所有数据和代码库,以促进该领域的社区发展。
实验性地,慢速感知可以提高F1分数6%。我们还发现了两个有趣的结论:1) 线预测的感知流方法一致性地提高了准确性。即使将感知标尺设置为相对较大的值,也能显著提升性能。2)慢速感知表现出一种推理时间缩放律:随着感知尺度的减小,预测每条线段的计算成本增加,导致推理时间变长,这逐渐提高了几何解析性能。
总之,几何形状是人类对自然视觉对象的抽象。因此,我们相信我们在几何解析任务中的发现也将为计算机视觉的其他研究领域提供洞见。
2. 相关工作
2.1. 作为视觉感知的对象检测
对象检测[9, 8, 26, 24, 25]是计算机视觉中最热门的研究主题之一,可大致分为两阶段[26]和一阶段[24]。以前,人们认为两阶段方法提供了更高的

图3. 缓慢感知的框架。我们的方法适用于最受欢迎的LVLM框架。根据下一个词元序列化预测,预测的后续几何点可以参照前面的点的坐标,以便更容易地形成闭合形状。我们建立一个感知标尺作为单步距离预测的上限。
尽管一级方法更快,但准确度更高。后来,随着基础模型、算法工程和变压器[4]网络的进一步发展,一级模型变得既强大又高效。近年来,检测算法的主流趋势似乎被一级类型所主导。
对于几何解析任务,使用对象检测算法似乎没有意义。这是因为独立检测每个几何视觉组件不能保证整个几何闭合性。例如,点A经常是多个不同线段的端点,而每条线的平行预测不能确保该点的一致性,即使误差极小。此外,从RCNN[9]到Faster RCNN[26],再到YOLO系列[24, 25],这是一个朝着越来越快感知发展的趋势。然而,我们不禁要问:更快的感知总是更好吗?感知纯粹是一个优化问题吗?我们在密集区域、小物体或极大物体上以相同的速度标注物体吗?
2.2. 用于视觉感知的LVLM
近期,大型视觉语言模型(LVLMs)[16,2,37,7]的研究呈上升趋势,这些模型在多种视觉感知任务中展现了最先进的性能,例如光学字符识别(OCR)[27,34,15,5]和定位[40, 38]。经过一年多的开发,这些LVLMs的框架已经相当成熟。具体来说,新模型通常采用“编码器-接收器-解码器”架构,并运用类似于大型语言模型(LLMs)的训练方法,主要包括预训练和随后的监督微调(SFT)。值得注意的是,LVLMs的强大视觉知识(开放集通用物体识别能力)也给人们留下了深刻印象,使我们对LVLMs抱有非常高的期望。
然而,一些研究如BlindTest[23]显示,
LVLMs似乎并不真正理解图像;换句话说,模型对图像的理解过于肤浅。这种草率的阅读方式使得捕捉图像中的细节、逻辑和空间关系变得困难。一些研究尝试使用链式思维[36]方法来提升VLM的能力。令人困惑的是:多次感知一个物体;还是仅仅仔细地阅读图像,需要思考?
3. 方法论
3.1. 架构
如图3所示,我们选择了经典的LVLM框架进行实验,以验证慢速感知的效率。它通常由一个视觉编码器和一个LLM解码器组成,中间用一个简单的线性层进行通道映射。具体来说,我们使用的是GOT-OCR2。0[34] 作为主要实验模型,因其迭代效率高。此外,我们利用其他经典的大型语言模型(LVLMs),例如 Qwen2-VL[29] 和 Vary[33],来进一步验证我们慢速感知机制的有效性。
3.2. 数据引擎
我们渲染了20万个合成几何图像作为训练数据,其中使用Matplotlib作为渲染引擎。我们随机变化多个参数以确保数据的异质性,包括线宽、线型(实线或虚线)以及图像分辨率(DPI)。总共生成了15万张图像,其DPI值随机分布在36到300之间,而其余的5万张统一设置为96 DPI,反映了实际应用中常用的分辨率。对于构成几何图形的点线位置及关系语料库,我们设计了以下生成程序:
- 选择基底。我们选择最常见的四边形作为渲染基础,包括正方形、长方形、平行四边形、菱形、梯形、等腰梯形、直角梯形以及其他不常见的任意四边形。
- 点的添加和删除。基于基础四边形,我们随机删除0-1个点或添加1-6个点以增加多边形的多样性。对于额外生成的点,我们主要取它们位于基础图形的边或其边的延长线上,并增加选中中点或三等分点的概率权重。
- 生成圆形和文字。以预定的概率,我们为基础四边形添加内切圆和外接圆。此外,以一定的概率在顶点位置生成文本标签(“A”到“Z”)。尽管这些特征在慢速感知中并不使用,但它们的加入会增强渲染数据与真实世界几何形状的相似性。
上述整个渲染过程可以如下表示:
G=Φ(Ψ(q,P),δ,A,ω,ρc,ρt,T)(1)
其中G是最终生成的几何图形;Φ代表几何图形生成函数;Ψ是基础四边形生成函数;q∈Q,其中Q是预定义的四边形类型集合;P=(p1,p2,p3,p4)代表初始四边形顶点坐标向量;δ∈[0,1]是点删除参数;A=(a1,…,an),n∈ 0到6是添加点的集合;ω代表特殊点(例如,中点、三等分点)的权重因子;ρc 和 ρt∈[0,1]是生成内切圆/外接圆和文本标签的概率;T是可能的文本标签集合。
所有渲染的点都在从-10到10的坐标轴范围内,保留两位小数以确保精确度。在最终标签生成过程中,我们首先使用Matplotlib中的TransData函数将显示坐标转换为像素坐标。然后我们将像素坐标重新计算到-10到10之间的范围。这是因为Matplotlib在渲染过程中总是自动添加坐标轴和围绕图像的填充,使得坐标转换变得困难。设G为方程1中的一个几何形状,这个过程可以表示为:
G^=Normalize(TransData(G))×20−10(2)
其中,G^ 是具有最终坐标标签的几何形状。归一化是指将原始坐标的x和y值分别除以原始图像的宽度和高度。这样做的目的是为了统一训练数据和测试数据的坐标表示,因为我们的验证集和测试集是手动注释的。
渲染线条的长度和角度分布如图4所示。长度主要分布在2到10之间,这将作为在慢速感知中设置感知尺度的指导。

图4. 渲染后的列车数据的线条分布。左图显示了线段长度,右图是角度分布,以包含列车数据中的几何形状。
为了评估,我们采用手动方式来构建基准。所有在基准内的图像均来源于中学数学考试。总共,我们收集了480个几何图形,通过样本的特征按1:3的比例将其分为验证集和测试集,从而得到120张用于验证的图像和360张用于测试的图像。
3.3. 缓慢感知
提出的几何图形解析的缓慢感知主要分为两个阶段:1)将复杂的几何图形分解成基本单元,并逐渐感知每一个。我们将这一过程称为一阶慢速。2)对于每个基本点线对,我们使用小的局部“感知跳跃”来缓慢且准确地重构它。我们将这一程序称为二阶慢速。其详细描述如下:
一阶慢速用于感知分解。该阶段的主要目的是统一复杂几何形状的表示形式。如图3的输入图像所示,总共有8个三角形。如果采用模型使用Tikz的闭合形状代码——循环或Matplotlib的多边形函数来绘制这个形状,由于多个三角形相互嵌套,可能会容易出现多个峰值和冗余定义的问题。在一阶慢速中,我们不需要考虑哪个图形是多边形。我们将所有图形逐行分解,因为无论几何形状有多复杂,它总是由基本线段组成。这种“化繁为简”的过程可以通过统一表示法有效避免多个峰值问题。使用上述方法,图3的输入图像可以表示为:
G′=⎩⎨⎧Line[(A,B),(B,C),(C,A),(A,D),(A,E),(B,E)]Circle[(Cx,Cy,R)](3)
在图3中,G′ 是几何形状。线和圆是两个集合,包含与整体形状解耦的线单元和圆单元。
感知流速的二阶放缓。在经典的计算机视觉领域,推理时间缩放似乎一直存在。例如,在RPN[26]中从提议过渡到最终边界框的过程,或者在扩散[10]中的去噪过程,是典型的由粗到细的推理时间缩放方式。然而,在自回归框架下,对于LVLM来说进行由粗到细的建模并不容易。因此,我们提出了一种替代方法——从局部到整体的感知流。
我们的方法受到速写技术的启发。例如,在画肖像时,通常有两种方法:一种方法是先构建框架,然后逐渐绘制细节。这称为轮廓法,是一种由粗到细的方法。另一种方法是从局部区域开始绘制细节,并慢慢构建出整体。这称为局部法,是一种从局部到整体的方法。
在几何解析任务中,对于一条长长的直线,人类可能无法一笔准确地画出,模型也可能面临类似的挑战。因此,我们定义了最大单一感知距离(感知标尺)。注意,基于“多笔画流”的这种二阶放缓,在这项工作中我们不将其应用于除线之外的形状,原因如下:a) 线是 大多数基本和常见的形状,因此需要优先考虑;b) 在几何图形中,其他形状,例如圆形和曲线,具有较低的相互依赖性,将成为我们未来的工作。
设直线l为 AB,其中点A是起点,点B是终点。可以通过多条子线 li 重新定义直线l:
⎩⎨⎧l=AB=⋃i=1nli, whereli=[xi−1,xi];x0=A,xn=B,∣li∣=d;∀i∈{1,2,…,n−1},and∣ln∣≤d;n=⌈∣l∣/d⌉(4)
其中,d 是一个超参数,表示感知尺度的长度。n 是由 l 和 d 共同组成的子线段的数量。假设 l=12 且 d=8 ,那么 n=2 。如果 d=4 ,那么 n=3 。因此,当 l 固定时,感知尺度 d 越小,绘制一条线所需的“笔画”就越多,导致计算复杂度增加和推理时间增长。
3.4. 优化和评估目标
模型的输入是几何图像 v,输出是解析文本序列 t。训练优化目标如下:
L(ω,t)=−E(t,v)∼DlogPω(tm∣t<m,v)(5)
其中,w表示目标文本序列,v表示来自视觉主干网络的视觉特征,m表示输出目标标记的当前索引,D表示

图5. 真实值的示例。该图显示了一个渲染的几何样本以及相应的文本标签,感知尺度的长度为4。
数据集。ω代表模型权重。输入图像和真实文本的示例在图5中展示。由于我们仅关注几何图形解析任务,我们不使用任何提示。
在评估中,我们使用交并比(IoU)来确定预测线段是正面还是负面样本;具体来说,线段的总IoU等于水平分量和垂直分量的平均值。数学上,
IoUline=21(∣Px^∪Tx^∣∣Px^∩Tx^∣+∣Py^∪Ty^∣∣Py^∩Ty^∣)(6)
其中P是预测线段,T是真实情况。x^ 和 y^ 分别表示线段在x轴和y轴上的分量。
4. 实验
4.1. 实验设置
数据集:我们将我们生成的训练数据和基准测试命名为SP-1,包括20万个合成图像-文本对用于训练,以及480个真实场景样本用于评估。我们将评估部分划分为验证集和测试集,比例为1:3,从而得到120张图片用于验证,360张图片用于测试。我们使用的所有数据都将开源,以促进几何图形解析领域的进步。我们还希望我们的数据配置能成为后续研究者的实际标准,以确保公平比较。
实施细节。我们选择了三个模型进行实验:GOT[34]、Qwen2-VL-2B[29] 和 Vary-toy[33]。GOT是慢速感知的主要模型,我们在其上进行大部分实验,因为它提供了良好的
Perceptual ruler | IoU | F1 | F1s | F1 | P | Ps | P1 | R | Rs | R1 |
+∞(baseline) | 0.75 | 51.4 | 44.3 | 47.5 | 50.1 | 42.8 | 49.3 | 53.6 | 48.8 | 47.3 |
+∞(baseline) | 0.9 | 47.5 | 41.6 | 43.7 | 46.3 | 40.1 | 45.2 | 49.5 | 45.9 | 43.6 |
12-length | 0.75 | 53.3 | 46.2 | 49.6 | 51.6 | 44.9 | 50.3 | 56.0 | 50.2 | 50.3 |
12-length | ↑1.9 | ↑1.9 1.9 | ↑2.1 | ↑1.5 | ↑2.1 | ↑1 | ↑2.4 | ↑1.4 | ↑3 | |
12-length | 0.9 | 49.9 | 43.0 0 | 47.2 | 48.3 | 41.7 | 47.8 | 52.4 | 46.8 | 47.8 |
12-length | ↑2.4 | ↑1.4 1.4 | ↑3.5 | ↑2 | ↑1.6 | ↑2.6 | ↑2.9 | ↑0.9 | ↑4.2 | |
10-length | 0.75 | 54.4 | 48.4 .4 | 49.6 | 52.9 | 47.1 | 50.1 | 56.8 | 52.5 | 50.1 |
10-length | ↑3 | ↑4.1 | ↑2.1 | ↑2.8 | ↑4.3 | ↑0.8 | ↑3.2 | ↑3.7 | ↑2.8 | |
10-length | 51.4 | 45.7 | 47.0 | 50.0 | 44.6 | 47.4 | 53.6 | 49.5 | 47.7 | |
10-length | 0.9 | ↑3.9 | ↑4.1 4.1 | ↑3.3 | ↑3.7 | ↑4.5 | ↑2.2 | ↑4.1 | ↑3.6 | ↑4.1 |
8-length | 55.4 | 50.4 50.4 | 49.9 | 54.0 | 49.0 | 51.3 | 57.7 | 54.5 | 49.9 | |
8-length | 0.75 | ↑4 | ↑6.1 6.1 | ↑2.4 | ↑3.9 | ↑6.2 | ↑2 | ↑4.1 | ↑5.7 | ↑2.6 |
8-length | 0.9 | 52.1 | 47.3 47.3 | 48.0 | 50.7 | 45.9 | 49.3 | 54.3 | 51.1 | 48.0 |
8-length | ↑4.6 | ↑5.7 5.7 | ↑4.3 | ↑4.4 | ↑5.8 | ↑4.1 | ↑4.8 | ↑5.2 | ↑4.4 | |
4-length | 0.75 | 57.5 | 52.4 | 51.8 | 55.8 | 50.8 | 52.9 | 60.7 | 56.9 | 52.2 |
4-length | ↑6.1 | ↑8.1 | ↑4.3 | ↑5.7 | ↑8 | ↑3.6 | ↑7.1 | ↑8.1 | ↑4.9 | |
4-length | 0.9 | 53.5 | 47.3 | 49.5 | 51.9 | 45.9 | 50.4 | 56.0 | 51.2 | 49.9 |
4-length | ↑6 | ↑5.7 | ↑5.8 | ↑5.6 | ↑5.8 | ↑5.2 | ↑6.5 | ↑5.3 | ↑6.3 |
表1. 不同方法在SP-1测试集上的结果。这里的“s”和“l”分别代表“短”和“长”,表示短片段和长片段。阈值设定为8,小于8的片段被认为是短的,大于8的则被认为是长的。红色向上箭头↑表示当前方法相较于基线在0.75 IoU(交并比)上的改进,而蓝色箭头↑则表示在0.9 IoU下的性能提升。
Perceptual ruler | IoU | F1 | F1 s | F11 | P | Ps | P1 | R | Rs | R1 |
+∞(baseline) | 0.75 | 52.2 | 41.3 | 49.2 | 51.1 | 39.2 | 50.6 | 53.7 | 46.6 | 48.9 |
+∞(baseline) | 0.9 | 48.6 | 36.4 | 47.2 | 47.6 | 34.9 | 48.6 | 50.1 | 40.6 | 46.8 |
4-length | 56.7 | 44.3 56.7 | 54.3 | 54.9 | 42.0 | 55.5 | 59.5 | 49.6 | 54.4 | |
4-length | 0.75 | ↑4.5 | ↑3 ↑3 | ↑5.1 | ↑3.8 | ↑2.8 | ↑4.9 | ↑5.8 | ↑3 | ↑5.5 |
4-length | 0.9 | 51.9 | 39.0 | 51.6 | 50.3 | 37.2 | 52.8 | 54.2 | 43.1 | 51.6 |
4-length | ↑3.3 | ↑2.6 3.3 | ↑4.4 | ↑2.7 | ↑2.3 | ↑4.2 | ↑4.1 | ↑2.5 | ↑4.8 |
表2. 不同方式在SP-1验证集上的结果。图中的上箭头与表1具有相同的含义。可以看出,在验证集上慢速感知的性能提升也是稳定的。
性能更高,模型规模更小,并且允许快速迭代。Qwen2-VL和Vary-toy作为辅助模型,为我们得出结论提供了更确凿的证据。对于GOT,我们解冻所有参数进行训练。对于Qwen2-VL和Vary-toy,我们冻结编码器参数并解冻LLM部分进行微调。所有其他实验设置都相同。具体来说,我们使用8个L40s GPU进行训练,在SP-1数据集上运行2个周期,每个GPU的批量大小为2,梯度累积为2,从而得到全局批量大小为32。使用简单的数据增强,例如颜色/光照抖动和高斯噪声。
我们采用余弦退火[17]来调整学习率,起始值为3e-5,总共迭代12,500次,热身比例为0.003。训练GOT大约需要3小时,Vary-toy需要5小时,而Qwen2-VL-2B由于其较大的编码器[22]计算成本,需要15小时。
基线定义。我们没有定义模型级别的基线,因为所有模型在我们的验证集/测试集上的直接测试性能太低。相反,我们的基线是方法级别定义的。具体来说,通过训练SP-1,我们设定一个无限长度的感知标尺作为基线,意味着对于每一行,基线模型总是直接进行回归。

图6. 随着感知尺度的减小,我们可以观察到几乎所有指标的稳步提升。感知尺度越短,模拟一条线所需的“笔画”就越多,导致模型输出更多的中间“注视”点。这会增加推理过程中的计算复杂性,相应地延长推理时间,并在一定程度上表现出推理时间的缩放律。
从起点到终点的无慢速感知的起点。评估指标。我们使用F1分数、精确度和召回率来衡量不同方法的有效性。具体来说,我们利用方程6中的IoU来确定预测是正样本还是负样本。基本的IoU阈值为0.75,严格阈值为0.9。精确度、召回率和F1分数的定义为:P=(TP+FP)TP,R=(TP+FN)TP,其中TP、FP和FN分别代表真正例、假正例和假负例。有了计算出的精确度和召回率值,可以进一步计算F1分数:F1=2x(PxR)/(P+R)。F1分数通常被认为是精确度和召回率之间的平衡,是我们衡量所提出的慢速感知性能的主要指标。
4.2 主要结果
慢速感知的有效性。表1展示了慢速感知在SP-1测试集上的性能比较。所有结果均通过训练GOT-OCR2.0[34]模型获得。基线(从起点到终点的预测线段)可以达到51.4%的F1分数和50%的精确度。在0.75交并比(IoU)下,准确率为1%,召回率为53.6%。当标准变得更加严格(0.9 IoU)时,这些值分别降至47.5%、46.3%和49.5%。随着引入了慢速感知方法,性能逐渐提升。可以观察到,在使用相对较长的感知标尺(12倍长度)时,在0.75 IoU下,F1分数可提高1.9%,精确度提高1.5%,召回率提高2.4%。在0.9 IoU下,这种提升变得更加显著。随着感知标尺长度从12逐渐减少到4,我们可以观察到性能指标几乎稳定增长。在长度为4时,慢速感知方法在0.75 IoU下的F1分数超出基线6.1%,精确度超出5.7%,召回率超出7.1%。这些结果强有力地证明了慢速感知的效果。
对于验证集中的图像,除了与测试集相比具有不同的样本量之外,几何形状显示出更复杂的短线交织,这意味着短线比测试集中的长线更难预测,而长线则略微容易一些。如表2所示,尽管慢速感知的改进低于测试集,但提升仍然显著。慢速感知主要通过“感知流”解决模型“一笔”中长线段的问题,验证集上的结果与此特征一致,这进一步证实了所提出的慢速感知效果是可靠的。
推理时间缩放律。图6展示了在测试集上缓慢的感知性能的视觉图表,清晰地表明了推理时间缩放法则——更长的推理时间与更好的模型性能相关联。这可能是因为模型对其精确感知距离有一个上限,类似于人类的感知。我们认为这种感知推理缩放也可以为其他计算机视觉任务提供洞见。
Model | Size | Ruler | F1 | P | R |
Qwen2-VL | +∞ | 44.1 | 43.1 | 46.0 | |
Qwen2-VL | 2B | 4 | 46.0 | 45.2 | 47.9 |
Vary-toy | +∞ | 45.5 | 44.8 | 47.2 | |
Vary-toy | 1.8B | 4 | 47.8 | 46.7 | 50.0 |
表3. 对其他大型语言模型(LVLMs)的慢速感知。我们冻结编码器来训练Qwen2-VL[29]和Vary-toy[32],并在SP-1测试集上测试这些模型,以进一步验证所提方法的效率。“标尺”指的是感知标尺的长度,因此+∞代表没有慢速感知的基线情况。
Model | Unfreeze | Ruler | F1 | P | R |
GOT | √ | +∞ | 51.4 | 50.1 | 53.6 |
GOT | √ | 4 | 57.5 | 55.8 | 60.7 |
GOT | X | +∞ | 43.8 | 41.7 | 47.3 |
GOT | X | 4 | 46.9 | 44.2 | 50.9 |
表4. 视觉编码器测试。我们通过冻结或解冻GOT[34]编码器,进一步测试视觉编码器是否为几何图形解析任务的瓶颈。
4.3. 消融研究
在其他大型语言模型(LVLMs)上的感知速度较慢。上述实验基于GOT[34]模型进行。为了验证所提出的缓慢感知的稳定性,我们选择了另外两个LVLMs进行训练和测试,即Qwen2-VL[29]和Vary-toy[33]。两者的解码器都有大约20亿个参数,我们在训练期间冻结它们的编码器以节省GPU资源。如表3所示,这两个模型的表现远低于表1中未冻结编码器的GOT模型。我们认为瓶颈可能在于它们原始(CLIP[22])编码器在感知几何点和线方面的能力不足。即便如此,缓慢感知仍然实现了约2%的稳定性能提升,这充分展示了其鲁棒性。
视觉编码器瓶颈。表4显示了通过冻结和解冻GOT的视觉编码器后的测试结果。可以看出,解冻编码器显著提高了基线性能,而在解冻后,缓慢感知的提升更大。这表明当前大型语言模型中编码器的研发和训练仍有相当大的空间。
Model | Jitter | Ruler | F1 | P | R |
GOT | X | 4 | 57.5 | 55.8 | 60.7 |
GOT | √ | 4 | 56.6 | 54.5 | 59.6 |
表5. 凝视点的准确性还是感知流更为重要?我们沿着线段随机抖动“凝视点”的真实值。性能仅降低了不到1%(57.5%对比56.6%)。

图7.“带抖动”代表使用经过抖动的注视点训练出的模型的结果。每条线段的“笔画顺序”根据彩虹的颜色进行映射,例如,“无抖动”结果中使用了红色、橙色和黄色,而“带抖动”结果中则使用了绿色、青色和蓝色。
注视点发生抖动。我们沿着线段随机对额外的“注视点”的真实值进行抖动,抖动范围从线段长度的0到1/10不等,以测试在慢速感知的二阶减速中哪个更重要:是准确预测注视点还是感知流。从表5中我们可以观察到,向注视点添加噪声只会使性能下降不到1%。即便是在不精确的注视点下,模型在慢速感知下的表现仍然远优于基线(F1分数上56.6%对比51.4%)。这表明感知流过程,即从起点逐渐感知到终点的过程,可能是慢速感知的核心。如图7所示,感知流的中间过程的准确性对最终端点的影响极小。这一结论减轻了注视点注释的难度,并可能激励我们将慢速感知扩展到更一般的场景。

图8. 缓慢感知可视化结果。第一列代表输入图像,第二列显示了模型在缓慢感知中执行的每一个“笔画”的轨迹路线,其中“笔画顺序”由彩虹颜色定义。第三列是解析缓慢感知的最终结果。
4.4. 可视化结果
我们提供可视化结果以更好地理解缓慢感知的运作。如图8所示,基于缓慢感知,模型在绘制每个线段时,会逐渐从起点画到终点,通过多个“笔画”。这个过程似乎包含了类似人类的逐步校正过程。
5. 结论
经共识,“视觉o1”是有前景的方向,也是通向AGI的必要步骤。然而,学界似乎跳过了最基本的感知和趋势,直接让大型语言模型解决视觉推理问题,例如几何中的数学问题。我们认为,解决感知是视觉o1的第一步;如果一个模型连视觉几何都无法准确复制,我们又怎能期望它直接正确回答复杂的推理问题呢?在本文中,我们提出了针对几何解析任务的缓慢感知方法,我们的结果显示它非常有效。几何图形是人类对自然视觉场景的抽象,我们相信我们的缓慢感知方法也能为其他一般视觉领域提供启发。
6. 附录
在正文中,我们主要讨论了慢速感知在研究领域中的价值,重点探讨了细粒度感知任务需要感知的分解和流动。本附录部分将进一步演示慢速感知在下游应用场景中的使用技巧。
因为在实际场景中,几何图像与我们用于训练的渲染图像之间存在差距。因此,我们在训练后加入了一些内部真实数据。请注意,这只是为了进一步展示我们基于慢速感知的几何解析探索,并不影响正文对慢速感知所有结论的影响。

图9. 对于自动回归框架来说,在几何形状中为点和线添加标签是很容易的。尽管这个过程不影响对缓慢感知的声明,但将几何解析结果嵌入到下游任务中是必要的,例如,数学几何视觉问答(VQA)。
6.1. 更完整的几何形状
在几何解析应用中,除了点线的坐标和关系外,有时我们还需要它们的标签来支持下游业务。这个任务本身与缓慢感知无关,但由于我们的方法基于LVLM[34]框架,实现这一特性非常简单,即您只需简单地在真实数据中添加与标签对应的键值对来训练模型,如图9所示。
6.2. 从几何解析到推理
我们使用Mathvista[18]的几何子集进一步验证基于缓慢感知的几何解析对于LVLMs在问答任务上的效率。该几何子集包括208幅图像。我们选择最先进的LVLM,即GPT-4o,作为实验目标,并利用训练后的带有现实数据的4尺缓慢感知GOT[34]来生成一个解析参考。有了解析结果,我们将额外的参考组织到图10中,以GPT-4o为例。
如表6所示,对于没有解析参考的原始结果,GPT-4o可以实现53.37%的准确率。当我们添加解析结果作为参考时,准确率提升至
Model | Method | Accuracy |
GPT-4o | original | 53.37 |
GPT-4o | + slow perception | 60.10↑6.73 |
表6. 以几何解析结果为参考。GPT-4o在Mathvista地理子集上的准确率可提升6.73%。此结果进一步表明,即便是对于GPT-4o,其细粒度视觉感知能力仍然不足,感知是推理的基础,而其难度一直未被重视。

图10. 在添加几何解析结果作为GPT-4o的参考时输入的组织方式。我们将解析结果以“草图”形式提供给GPT-4o,强调它只能表示点到线之间的某种程度的关系,并且仅供参考。我们要求最终答案仍需基于输入图像。
60.10%。这一实验结果证明,即使是GPT-4o这样的语言模型在感知方面也存在明显的缺陷,而且社区忽视了感知的重要性。我们认为缓慢的感知概念,特别是感知推理时间的扩展,可能是一个不错的解决方案。
然而,预先解析几何图形然后使用文本来帮助模型并不是最佳方式。更人性化的做法是模型学会在解决问题过程中反复查看图像,并在适当的时候绘制相关的辅助线。这取决于模型能否更自然地读取图像,其中“感知o1”是关键。

图11. 不同模型的几何解析结果可视化。对于GPT-4o和Claude-3.5,我们使用这个提示来输出结果:写出这个几何图形的Tikz代码,注意不要给点加标签,只绘制几何形状。
6.3. 可视化结果比较
图11展示了在几何解析任务中,慢感知、基线模型以及另外两个先进的大型语言模型(即GPT-4o[21]和Claude-3.5[1])的可视化比较。我们使用提示“写出这个几何图形的Tikz代码,注意不要给点加标签,只绘制几何形状”来使GPT-4o和Claude-3.5输出Tikz代码,并使用LATEX来渲染结果。可以看出,两个最先进的模型在几何细粒度解析上无法输出满意的结果,这样的任务可能比预期的要难得多。与输出的Tikz代码不同,基线模型使用了论文中提出的一阶慢速感知数据(可以理解为慢感知的一半),这种数据将几何形状分割得更加原子化。结果显示其输出更接近输入,但容易出错。使用所有慢速感知方法进行模型输出的效果更好,这表明慢速感知的建模方法对于线段优化的优化更为合理。
6.4. 未来展望
几何解析只是慢感知的起点。本质上,我们的目标是找到一种合理的方法来提升感知任务推理的计算复杂度。该方法应满足以下要求:计算复杂度应根据模型感知的不同目标的难度而变化,例如本文中的长线与短线。如果将来能扩展到一般场景,其将与目标检测中的遮挡与非遮挡物体类似。
接下来,我们将关注两个方面。首先,我们计划引入强化学习,使几何解析任务中的缓慢感知更加优雅,类似于可变长度的感知标尺。其次,我们旨在将此想法应用于更广泛的任务。