街边随手拍一张照片,喂给一个模型,它告诉你照片里那棵树离你 13.71 米。你用 Google 地图一查,实际距离 12.87 米。误差 0.84 米,不到 7%。
做出这件事的模型叫 Vision Banana。它没有学过距离,没有学过几何,没有学过摄影测量。它只学过一件事:画图。
说这个模型的来历之前,先想想你已经在做的事情。你可能用过 Gemini 或 GPT,拍一张照片丢进去问这是什么。它能答。猫还是狗,路牌写了什么,办公室里几把椅子,都没问题。但如果你要的不是一句话回答,而是一张逐像素标注的掩码图,或者一份每个像素离镜头多少米的深度图,现有的多模态模型就做不到了。它们能看,但吐不出这种精细的结构化输出。今天的计算机视觉里,分割、深度估计、法线估计这些任务,仍然各自依赖一套专用的模型架构和训练流程。
而 Vision Banana 说,不需要。它只有一个输入,一个输出。输入是图片加一段文字指令,输出也是一张图片。所有视觉任务都被重构为按指令画图。一个模型,一套权重,通过提示词切换任务。
这个故事在自然语言处理那边已经被验证过一次了。在 LLM 出现之前,NLP 也是任务割据的。情感分析要训一个情感分类器,命名实体识别要训一个 NER 模型,翻译要训一个翻译系统。每个任务有自己的数据集、自己的输出头、自己的训练流程。然后生成式预训练来了。预测下一个词,这个看起来只能做补全的任务,大规模跑通之后,翻译、摘要、问答、推理、代码,全被统一到了同一个模型里。生成和理解原来是同一件事的两面。
但在视觉领域,这个故事一直缺一个原生的版本。现在有人把图片丢给 Gemini 或 GPT-4V 问这是什么,也能得到回答。但那本质上是把视觉信号塞进一个语言模型里,理解能力还是来自 LLM 那头,不是来自一个真正的视觉原生系统。一个纯粹以图像生成为起点的模型,能不能像 LLM 那样,靠生成能力自然演化出对视觉世界的理解?这个假设一直有人提,一直没人在规模上做出来过。
Vision Banana 是第一个验证这个假设的模型。
上个月,Google DeepMind 发布了一篇论文《Image Generators are Generalist Vision Learners》。何恺明和谢赛宁以 leadership sponsor 身份出现在作者名单里。何恺明是 ResNet 发明人,二十一世纪引用量最高的论文一作。谢赛宁是 DiT 框架的联合作者,Sora 的底层生成架构就建在这个想法上。而这也不是一篇只靠人名撑场的论文。它的核心结论是:一个纯粹的图像生成模型,不做任何架构修改,就能在分割任务上超过 Meta 倾尽资源打造的 SAM 3,在度量深度估计上超过 Depth Anything 3 这个领域专家,在表面法线估计上超过 Lotus-2。这三个任务用的不是专用架构,不是专用损失函数,只是同一套生成模型的权重。
这篇论文真正改写的是视觉任务的定义方式。
在传统计算机视觉里,一个输入图像后面要接一个”头”。分割要 mask 头,深度估计要 depth 头,表面法线要 normal 头。每个头是一个专门输出某种结果的网络层,每个任务有自己的训练流程。
Vision Banana 把这个逻辑翻了个面。既然生成模型只会输出 RGB 图片,那就让所有视觉任务都变成输出 RGB 图片。
以语义分割为例。以前需要一个专门训练的模型给每个像素分类。Vision Banana 只需要这样一个指令:把猫耳朵画成橙色,把出口标识画成蓝色,把背景画成紫色。模型生成一张彩色图,你拿到后按颜色聚类,每个像素的类别就出来了。指令里颜色怎么写都可以,自然语言行,十六进制码也行,JSON 也行。
换成度量深度估计。深度值是米,模型吐不出数字,只能吐颜色。论文的做法是给深度值配一套颜色编码:近处的物体颜色变化剧烈,远处的基本一个色调。这样模型会把注意力花在离你最近、你最关心的那些东西上。你拿到模型生成的彩色图后,按同一套颜色编码反向查表,就能精确还原出每个像素的距离。整条映射可逆,不留模糊空间。
表面法线最简单。法线向量的三个分量取值区间天生就在 -1 到 1 之间,一个线性变换就映射到 RGB 三个通道,反过来也一样。
所有这些任务的设计思路相同:把答案伪装成一张图,教模型画出来。不需要给模型加任何新的网络结构。
一个模型同时打赢三个方向的专家,按直觉该堆了很多数据。但实际上没有。
论文的做法是在 Nano Banana Pro 原有的图像生成训练流里,混入极少比例的视觉任务数据做指令微调。每个批次里大部分样本还是原来的生成数据,只有极少数是视觉任务数据。
这么做的目的是不让模型忘记怎么画图。作者把这种策略叫轻量指令微调,目标是教模型把自己的理解按指定格式画在纸上,而不是从头教它做分割或深度估计。他们相信理解能力已经在生成预训练里了,指令微调只是给模型装一层输出格式的对齐。
论文对比了 Vision Banana 和原版 Nano Banana Pro 的图像生成质量,两者在统计上基本持平。文字生成图像的胜率 53.5%,图像编辑的胜率 47.8%。视觉任务微调后,画图能力几乎没掉。这和传统微调里那种学一个新任务忘掉所有旧能力的灾难性遗忘完全不同。
论文在四个基准上做了零样本迁移评测,训练数据完全不包含这些基准的任何样本,全部靠预训练学到的能力泛化。
语义分割 Cityscapes:mIoU 69.9,高于 SAM 3 的 65.2。SAM 3 是专为分割设计的架构。
指代表达分割 RefCOCOg:cIoU 73.8,略高于 SAM 3 加上 Gemini 2.5 Pro 联合方案的 73.4。指代表达分割比语义分割难很多,模型需要先理解自然语言描述,再找到对应物体。比如”穿粉色 T 恤的那个男人”,或者”正在伸懒腰的那只猫”。
ReasonSeg:gIoU 79.3,高于 SAM 3 加 Gemini 2.5 Pro 的 77.0。这个基准考的是推理。例如”用来当游戏控制器的烤面包机”,模型得先知道烤面包机一般不是控制器,然后在图里找到那个被当成控制器用的烤面包机。
度量深度估计:在 Depth Anything 3 评测的四个数据集上,平均 δ1 为 0.929,高于 Depth Anything 3 的 0.918。这组数字的意思是 92.9% 的像素,预测深度和真实深度的误差在 25% 以内。而且 Vision Banana 完全不需要相机内参,而传统的顶级深度估计模型大多依赖这一信息。
表面法线估计:室内三个数据集平均角度误差 15.549 度,低于 Lotus-2 的 16.558 度。
最直观的结果来自一个非标准测试。论文作者在日本金阁寺用手机拍了张照片,Vision Banana 预测画面中某一点的深度为 13.71 米。作者随后用 Google Maps 量了实际距离,12.87 米。这个测试没有经过基准标准化,但它比任何表格都更能说明一件事:模型不是在靠记忆训练数据取巧,它真的从单张图里提取出了绝对尺度的信息。
这几组数字指向一个更大的变化。
先回头看一眼 NLP 走过的路。在 LLM 出现之前,做情感分析要训一个情感分类器,做实体识别要训一个 NER 模型,做翻译要训一个翻译系统。每个任务都是一个独立的问题,有自己的数据集、自己的输出头、自己的损失函数。直到大家发现,预测下一个词这个看起来只能做补全的单任务,规模跑上去之后,模型内部自动学会了语法、事实、推理、意图跟随、长程依赖。这些能力不是被分别训练出来的,是生成这个单一目标逼着模型在内部自发形成的。
一个足够强的下个词预测器,不可能只是一个浅层的记忆器。任务本身会强迫它建立对语言的理解。
这就是 LLM 给整个 NLP 领域上的那一课:生成是一种比判别更根本的学习方式。
诡异的是,这一课在视觉领域一直没有以原生的方式被验证。过去几年有大量工作想把图像灌进 LLM 里做理解,比如多模态模型看图回答问题、看图做推理。这些做法的底层逻辑是借 LLM 的理解能力来覆盖视觉,视觉信号本身没有产生独立的、生成驱动的理解能力。
Vision Banana 把这个缺失的版本补上了。它不是在图像外面套一层语言模型,它就是图像生成模型本身。生成是它的母语。轻量指令微调只是在教它把答案画成图片而不是说出文字。仅此一步,它的视觉理解能力就能在多个基准上超过专门为这些任务设计的架构。这和 LLM 的路径形成了严格的对称:在 NLP,生成式预训练让模型学会了理解语言;在视觉,同一套逻辑现在也有了实验证据。
这是不是视觉领域的 GPT 时刻,现在下定论还太早。但这篇论文给出的证据够强了:同一个模型,只改提示词不改架构,在五个不同方向的基准上同时达到或超过领域专家。这不像是巧合。
Vision Banana 不是又一个基准冠军故事。
这些年我们习惯了视觉理解和图像生成是两套东西。分割模型和生成模型在不同的团队、不同的框架、不同的数据集上独立演进,交集只剩下偶尔在排行榜上互相看见。这篇论文说,这个分工可能是人工划出来的。一个人能在脑海里想象一个物体的样子,说明他对它已经有某种程度的理解:它的形状,它的材质,它在空间里的位置。生成和理解可能本来就是一体的。
Vision Banana 的实验只是给这个直觉套上了一组可度量的数字。
论文原文:Image Generators are Generalist Vision Learners,项目页:vision-banana.github.io