我一直是AI的坚定支持者。身边不少朋友问起AI能干什么,我会给出非常具体的答案:它可以帮你规划日程、调研资料,甚至在生活里处理很多琐碎但耗时的任务比如下单和砍价。我会根据他们的场景给出prompt模板,尽量降低他们尝试的门槛。但我这一两年向几百个人推荐了AI,观察是大多数人用完之后的反馈相当冷淡。最常见的回应是:还好吧,没觉得多有用。有时候还会补一刀:还不如我自己上手做嘞。
这个反差倒没有浇灭我给AI带路的热情,但确实一直让我困惑:明明模型变得越来越强,为什么普通用户却一直很难感受到?除了“AI是一个需要学习的工具”以外,还有没有什么更深层的原因?最近一段时间,我更系统地对比了市面上几个主流AI客户端使用体验(Claude、Gemini和ChatGPT,也有Deepseek),才慢慢意识到,这种AI好不好用的感受错位,是因为在用户和模型之外,连接二者的产品设计出了问题。
AI模型的能力确实在以惊人的速度演进。我们下面会介绍,它开始只是multi-turn conversation,后来加入了multi-modal的能力。现在最先进的AI,可以和各种工具交互,实现multi-hour的自主工作。但现在的app,大多数还停留在multi-turn的设计理念,跟LLM的能力差异巨大。所以当AI的智能通过一个不合适的交互介质呈现出来的时候,用户就会很抓狂。比如Claude app是为了短时间对话设计的,一旦切到后台任务执行就断了。那Claude 4再牛逼,能在后台执行几个小时的任务也没用。这就像把一台F1引擎塞进了桑塔纳里,牛逼吗?牛逼。好用吗?开起来跟普桑也差不多。
遗憾的是,这些app使用的细节,构成了用户感知的全部。绝大多数用户不知道这是app的问题,只会觉得AI不好用。这构成了AI产品的一个系统性的错位,也是这篇文章想详细讨论的话题。
Multi-Turn, Multi-Modal, 到 Multi-Hour Agency
近两年AI模型的能力,出现了三次跃变。先是学会了记住上下文,能多轮对话;接着是可以看图、听声音、分析视频;现在最新的模型,甚至可以自主运行好几个小时,完成复杂任务、自动调用工具、阶段性地总结和反馈。
这三次跃变,从“能说”到“能看能听”,再到“能做”,一步步把AI从一个问答工具推向了智能助手。OpenAI在朝这个方向走,Google在走,Anthropic也在。但问题是,我们今天大多数用到的AI App,还是停留在两年前的那一代交互逻辑上。像是在一台桑塔纳,发动机已经逐渐升级成了f1的发动机,但刹车和悬挂全都没变。这才是很多人感受不到AI有多厉害的根本原因:模型在进化,但App没跟上。
Multi-Turn:Chatbot的开端
多轮对话,是今天所有主流模型最基础的能力。
ChatGPT之所以成功,一个重要原因就是它不是像Google智能搜索那种问一句答一句的搜索框,而是能围绕一个任务持续对话的系统。这背后的关键技术是 Supervised Fine-Tuning(SFT),也就是用人类标注的多轮对话数据,去让模型学会怎么提取记忆,回答问题。
Claude在这方面也表现不错。它很擅长对上下文进行归纳和引用,比如帮你读论文、总结长文档,或者多轮润色一篇文章,做得很棒。
在这个阶段,做app很简单,基本上只要维护好聊天历史,在API外面套个壳就差不多了。各家的体验也都差不多。唯一要注意的就是对大context window的支持。比如Gemini 2.5系列模型支持1M级别的context window,这对于很多应用是非常重要的。但是它的网页端和客户端都会在用户输入了几千个token(也就是占用了不到1%模型能力)的时候假死,导致几乎不可用。这是一个app没跟上的典型例子。
把产品做成Chatbot的这种设计,放在2023年没关系,大家刚开始用AI就是为了聊天。但现在模型已经不是单纯的聊天机器了,而是一个可以处理结构化任务的copilot系统。如果App还停留在老思路里,就会极大地浪费模型的潜力。
Multi-Modal:从能说到能看能听
第二次跃变是多模态。
今天主流模型都声称支持多模态,但差异很大。Gemini 2.5目前是这方面做得最彻底的。它可以原生看图、听音频、理解视频。而且不是简单地看,而是可以真正推理、组合、分析、总结。它背后的技术路线是,用不同的tokenizer结合projection layer把不同模态的信息(图像、声音、文本)映射到一个共享的表示空间里,让模型可以像看文字一样处理视频里的动作、语音里的语气。
OpenAI的路线类似,但没有一个统一的模型可以又实现推理(类似o3),又可以处理视频,音频和图像(类似gpt-4o-realtime)。它的亮点是,允许图像作为工具调用的对象。比如o3可以通过撰写 Python 代码对图像进行裁切、放大、识别图中细节,再把处理结果传回模型继续tokenize进一步分析。这种方式目前极大提升了它的多模态能力,甚至支撑了“看图猜地点”这种只有o3才能做到的变态场景。
Claude目前对多模态的支持比较基础,只能进行图像识别,不能处理音频或视频。
但是从体验来看,最先进的Gemini,反而是体验最差的一个。因为它的网页端和客户端根本不支持上传视频和音频,而只能上传图片。这是一个典型的模型活在2026,产品还在2023的例子。产品没有适配模型的竞争力,用户体验自然也很难做出差异化。
Multi-Hour Agency:AI真正成了助理
第三个变化,是AI模型开始有了持续运行,自主完成任务的能力。我们可以把这个阶段叫做 Multi-Hour Agency,也就是 AI 能够维持上下文、调度工具,连续完成一个耗时几十分钟甚至几小时的任务,而不需要你每次去踢一脚动一下。
这其实是AI变得真正可用的前提。很多重要的事,比如调研某个领域的新闻、规划一个完整的旅程、分析一个数据库、生成一段结构清晰的代码,这些都超出了问答机器人的范畴。它们本质上需要的是一个能思考、能调用工具补充信息、能一步步自动执行甚至动态调整计划的系统。
Claude 4就声称自己可以连续跑七小时来完成一个特别复杂的任务。o3也能调用很多工具,分阶段执行非常复杂的任务。这些能力的实现,背后其实是对HFRL(人类反馈强化学习)、函数调用、外部工具接入、长上下文等机制的不断调优。模型本身已经准备好了接管一段复杂流程,但App没准备好。比如Claude模型再牛逼,iOS App甚至Mac App只要熄屏就断掉,聊天记录都找不回。
从多轮对话,到多模态理解,再到长时间任务执行,模型的能力一层层叠加。而App的能力几乎原地踏步。模型已经不是那个我问你答的机器人,而是一个可以和你共同完成任务的数字助理。但客户端在产品设计层面还把它仅仅当成一个延迟更低、语气更自然的搜索引擎。所以问题不在AI是不是够聪明,而是我们有没有构建出一个足够能承接这份聪明的产品结构。绝大多数时候,用户并不是在评价模型,而是在评价模型以某种形式被封装后的那层外壳。而那一层,很多公司(包括大公司)根本没花心思去做。
OpenAI,Claude,Gemini三大平台产品对比
说到底,AI模型的能力现在已经高度趋同,都是大模型+工具系统+长上下文+多模态编码。但真正拉开差距的,不是模型能力,而是产品怎么把这些能力跟用户的应用场景结合起来。我过去几个月持续在用 Claude、ChatGPT 和 Gemini,不光用了API,也用了GUI/app,不光用了Web端,也用了它们的iOS App和桌面端。整体感受是:三家公司都在强调自己有多强,但他们的消费级产品(除了OpenAI)用起来都像是在半成品和试验品之间切换。这一章我们就从用户的角度,看看三家在客户端上的优劣。
Claude:模型扎实,App是个半成品
Claude 3.7/4这系列模型本身是很强的,尤其在长文本阅读、写代码、不偷懒这些方面,甚至比o3还要稳,Cursor上收获了无数好评,是很多人的go to model。但Claude.ai这个消费级产品的体验真是一言难尽。
Claude的客户端有一个非常致命的问题:你只要切App,推理就断了。不是说任务暂停或者重新连接,而是整个对话从历史里面直接消失。它不会告诉你中断了,但是任务状态直接变成空白,聊天在历史里也变成Untitled。不论是在iOS上熄屏,还是在Mac上把笔记本合上,都会触发这个问题。这个问题从根本上看,是因为Claude的消费级产品还没有从chatbot的思路里跳出来,觉得app就是API的一个wrapper而已。所以它的架构高度依赖于客户端,把stream的维持、session状态的保存,全部放在用户侧。这在只跑一个短问答的时候没问题,但一旦跑复杂任务,就完全撑不住。它的iOS app实现也很初级,模型的输出一长,手机就发烫。所以模型再强,用户只会说一句话:不好用。
这里面唯一的差异化因素,可能是Claude桌面app是目前唯一集成了MCP的主流客户端。可以直接利用MCP把本地资源接入消费级的AI平台,用订阅而不是token计费,这一点还是蛮实用的。
Gemini:模型很强,App体验像个demo
Google的Gemini是一个更极端的例子:模型能力离谱地强,App做得离谱地差。
AI Studio是Google面向开发者的一个debug套件。在这个工具里,Gemini是我目前看到支持最大token window、最稳健的视频+音频+图片+文本混合分析的模型。上传100万字文档没压力,跑个10分钟的论文总结也不掉线。你给它100个重复任务,要它做一些枯燥的重复处理,Gemini也能不偷懒,不折不扣地完成。它的multi modal,tool use,尤其是instruction following的能力是业界顶级的,我个人甚至认为它把第二梯队的模型,包括Claude和GPT都甩开了一大截。
问题是,这一切都只能在Web版的AI Studio里体验到。这毕竟是个面向开发者的工具。全程要盯着网页前台,手机锁屏就掉线,system prompt每轮都会自动清空,没办法个性化,聊天记录的保存和分享完全依托google drive,也很初级。
面向消费级用户,google主推的是Gemini App。但这个App,就。。。尼玛非常离谱的一个产品,感觉是产品部门专门做出来恶心AI部门的。你Gemini 2.5模型不是1M context window吗?好的,我让用户输入10k左右token的提示词就把UI卡死,把你拉到跟其他AI同一个起跑线上。你Gemini 2.5不是处理视频和音频特别牛逼,别家都没有这个功能吗?好的,我在UI上就不允许用户上传视频和音频文件,这跟其他AI产品功能不就一样了吗。2025年年中才允许用户设置Gemini 2.5的系统提示(BTW现在网页版还有bug,移动版还没上线)。就算我终于找到一个场景可以用Gemini App了,也会发现它体现的智能和AI Studio里面的智能差距还是很大,会更厌恶用搜索来增加答案的广度,更倾向章口就莱,也不知道system prompt里面做了什么负优化。
所以很多人,包括我在内用了Gemini App之后第一反应:“就这?”但其实他们可能没用到模型能力的一成。你得自己去研究Prompt,自己去摸索AI Studio的用法,才能勉强挖出它的底层潜力。这对99%的用户来说是毫无可能的。
ChatGPT:产品团队最成熟的一家
相比之下,OpenAI在产品的体验上吊打另外两家。这其实特别反直觉,因为我们提到GPT的时候,第一反应是最老牌的LLM,模型能力业界最强,会下意识的觉得OpenAI主要靠模型来引领竞争,产品可能会没有时间精修。但其实OpenAI模型第一的这个宝座岌岌可危,o3虽然tool use还是顶级,但instruction following的能力还是不如其他两家。context window的长度,多模态的能力(音频和视频理解),和价格也有相当差距。与之相反的是,ChatGPT的产品体验吊打全场,领先其他两家数个身位。它甚至可能是目前唯一可以用到背后AI模型七八成能力的产品。
具体我们来看几个场景:
- 任务异步执行:AI有一个重要场景是,我们在路上使用手机,突然想起来用AI做一些调研。于是我们在app里面输入比如“调研一下XXX”。然后最小化app,把手机熄屏(也可以用杀掉app来模拟)。这时候ChatGPT会继续在后台调研,打开屏幕,重新打开app会发现调研已经做好了,最新的结果就显示在屏幕上。但这个场景Claude会100%失败,这个聊天还能找到,但标题是Untitled,内容为空。Gemini app会大概率失败,整个聊天完全消失,但有小概率这个聊天对话过了一个小时莫名其妙又出现了,里面的内容是正确的。这其实是产品设计思路的区别,只有OpenAI把ChatGPT定位成了一个能在后台帮用户长时间处理任务的工具。Claude虽然在API上强调了这一点,但在消费级产品上并没有贯彻。Gemini的思路也是类似的。
- iPhone拍照分析照片:如果用户启用了iPhone的Raw拍照的话,拍出来的照片是一个dng文件而不是jpeg或者heic文件。不论是故意的还是无意误触的,这其实是一个非常常见的场景,而且在iphone的相册里面很难看出来差别。如果我们直接上传这个图片的话,Gemini会报错与服务器的连接断开(什么鬼),Claude会报错这个文件类型不支持。虽然不完美,但报错信息至少是对的。但OpenAI就知道先转成jpg,然后上传。这个处理其实非常简单,工程成本很低,做不做完全看产品力,有没有真的去用这个app,踩常见的坑,把细节抠好。
- 巨量文本输入:选中大量文本(比如15万字),粘贴进AI app或者网页。Gemini在按了发送以后会直接卡死,如果你有耐心等个一两分钟可能会恢复。如果没有耐心把手机app放到后台的话,整个聊天像前面测试的一样就消失了。Claude和ChatGPT都会报错说太长了,拒绝处理,但是稍微降低一点文本长度的话可以正常处理。
此外还有很多其他细节,比如能不能在手机端设置system prompt,deep research会不会有live activity的进度更新,个性化的程度有多深等等,就不一一分析了。
不过OpenAI也不是没有问题。比如Web端功能和App端的功能还是有差异,像基于github和sharepoint的deep research,只在Web端支持。此外截止目前还没有MCP支持等等。但从整体上讲,OpenAI是目前唯一把产品设计和模型能力同等重视的公司。体验上没有大的槽点。
会不会只是产品还在迭代?
当然,我也不是不理解有些产品会做得克制一点。可能有人会说,Gemini App 没有加视频分析、Claude App 任务中断后不做提示,是因为还在MVP阶段,产品还没来得及做完,战略上选择先把模型上线、用户先跑一跑。这种解释乍一听有道理,但问题是,如果MVP一直持续一年多,核心功能迟迟不上线,连最基础的system prompt、任务不中断、文件上传报正确的错都做不好,那就不是MVP了,而是产品没有被认真对待。战略性克制和资源性敷衍之间,用户是分得清的。
另一个说法是:复杂的功能多数人也用不到,做太多反而压垮产品节奏,保持简洁才是对的。这其实恰好低估了AI产品的本质。AI真正的价值,不在于替代一个搜索引擎或者知识问答工具,而是能够帮用户处理他们自己处理不了或者没时间处理的任务——比如长文档、跨模态素材、复杂规划。如果产品连这些任务都无法承接,那就注定会被用户视为没啥特别的,甚至是鸡肋。
总之,不管任务简单还是复杂,用户都不希望自己的输入白费,更不希望App无声挂掉。这不是高阶功能问题,而是基本的可靠性问题。而现在很多App,连这一点都做不到。
原因与机遇
回头来看,AI模型本身的能力在今天广泛支持不同的生活场景已经不是问题。问题是,类似的模型,被装进了不同的公司、不同的部门、甚至不同的预算流程里之后,最终呈现给用户的样子差别大得离谱。这也是为什么同一个Gemini模型,在AI Studio里表现出了惊人的视频理解和instruction following,但App里笨了很多。这不是技术问题,是组织问题。
我们很可能面对的是不同org做出的两个产品,分别report给不同的VP [来源]。在这种结构下,Gemini App的产品经理很可能压根不知道模型最大的亮点是什么。他调研了一圈发现ChatGPT和Claude都支持上传图片,但没有支持视频,于是得出结论:那我们也不需要。殊不知视频理解本来就是Gemini最大的优势。(纯猜测,未必真实)
更诡异的是,AI Studio反而做得更好。为什么?因为它是给开发者用的,很多是工程师自己做的,反而离模型更近。你说它是产品,不如说是调试工具。这种没有设计的设计,却比有产品经理但没资源支撑的App版本更好地释放了模型能力。
Claude的问题是另外一种结构问题。它本质是一个To B导向的公司,API才是主营业务,占了85%的收入 [来源],To C客户端只是一个“别人有我也得有”的feature parity性质的展示窗口。所以我们看到Claude App就非常随缘:能跑就行,用户断线不提醒,任务跑挂不保存,iOS输出一长直接发烫。没人真正在意用户用它干活,只要能让人做个测试知道它的模型不错就够了。
反过来看OpenAI,它是唯一一家To C 和 To B 两条腿都必须站稳的公司。ChatGPT是它的旗舰产品,占收入的73% [来源]。更关键的是,它公司小、report chain简单、产品和模型团队捆得紧。你很难想象一个OpenAI产品经理会不知道自己家模型可以识别视频。它能把这套能力接好,只是因为它的组织结构允许它接好。
所以回到我们这篇文章讨论的主题——为什么AI模型变强了,用户却没觉得好用?一个最扎心的答案可能是:不是产品本身难做,而是公司结构的限制。但这也意味着,机会其实还在。
眼下几大模型厂商都在比谁的模型更大、更多模态、更低成本,但真正拼产品体验的,几乎没有。这背后有结构性的障碍,也有路线上的盲点。他们默认模型强了,产品体验自然就会提升;只要能力高,用户就会留下来。这个假设,其实已经被ChatGPT和Gemini App之间的体验落差一定程度上证伪了。
不是所有团队都能把一个能力接好,也不是所有能力都会自动长出好体验。这是一个行业还没被充分讨论的结构性误区,反而给了第三方团队一个非常现实的切入口。
- 如果我们知道Claude 4的模型很稳,但App挂得厉害,那是不是可以接API做一个更稳定的异步任务App?
- 如果我们知道Gemini 2.5在视频分析上吊打全场,但App连视频上传都不支持,那是不是可以干脆用AI Studio的示例代码来包一个轻量客户端,切进垂直市场?
- 如果我们知道所有App都还是聊天框思维,那是不是可以直接跳出对话范式,基于Multi-hour的任务编排来设计一个新的前端结构?
这些都是不靠做模型也能跑通的创新路径。而且它们不是可能有前景的产品,而是现在就存在的用户需求,只是还没人认真做出来。
所以我们回到文章的开头,AI不是不好用,只是大多数人遇到的AI,被封装成了一个错误的形状。模型很聪明,App没跟上。这种体验上的落差,不是技术差距,而是产品设计和组织决策之间长期脱节的结果。
我们今天已经进入了模型不稀缺,体验才稀缺的时代。下一个AI产品的分水岭,也许就藏在你有没有发现这些断层之间的机会。
Comments