Agentic AI的鸡肋危机:如何破解落地难题?

Agentic AI的鸡肋危机

在之前的一系列文章里,我们介绍了Agentic AI的基本概念和用法。通过一系列惊艳的Demo,让大家认识了Agentic AI这种革命性的AI范式。但如果你像我一样,尝试把Agentic AI用到生活和工作中的各种场景里,就会发现:虽然它看上去有很多惊艳的应用场景,也确实能处理很多任务,但很多任务只能做到七八成的完成度。要想真的把结果做到可用的程度,还是需要大量的人工交互。

比如我们确实可以给Cursor一些基本信息,让它去写一篇新品介绍。然而,它写出来的内容缺乏深度、品牌调性、目标客户等都不清晰,语言风格也非常AI化,需要大量的后期人工润色。

我们确实可以用Realtime GPT或者Cursor去做语音识别或者翻译,但对于特定的人名或术语往往还是会犯错,需要手工纠正。

我们确实可以通过Cursor调用Blender的Python API来生成一段3D的演示视频,但里面会出各种奇怪的错误,比如摄像机角度不对,对着空的地方拍了半天。

我们确实可以让Cursor写一段代码来调用OpenAI的API,但每次我们跟它说需要GPT-4o这个模型的时候,它总是默默地把模型的名字改成GPT-4,程序虽然能运行,但费用就高了很多。

我们确实可以用Cursor调用Mermaid之类的工具来画一个流程图,但画出来的图往往结构混乱、样式错乱,和我们想要的效果相差甚远,还是得来回prompt它很多次,才能达到理想的结果。

在这些例子里面,我的感受是,很多应用场景中Agentic AI是比较鸡肋的。它做出的粗糙的产出确实让我们需要投入的精力少了很多,但仍然需要花大量的时间来反复prompt,来实现我们最终想要的结果。而且,如果仔细想一想的话,你会发现这不是AI不完美的微小缺陷,恰恰相反,这是决定Agentic AI是否实用的根本危机。

这里的深层原因是,Agentic AI之所以这么诱人、给我们的生产力带来成倍的提升,主要是因为它让我们可以专注于最终的deliverable,让我们只需要定义what,描述我们想要什么,而不用具体地交代how,在实现细节上浪费时间。这样,通过把实际的执行的细节完全委托给AI,我们可以真的set and forget,多线并行,实现scalability。可是如果对很多场景,在AI交付一个结果之后,我们还是需要花费大量的时间去跟它商讨、进行打磨,这其实完全丧失了Agentic AI的优势和价值。

换言之,Agentic AI确实有很多场景非常惊艳,能够把以前我们觉得不可能完成的任务在短时间内以非常高的标准交付出来。但是对于更多的其他场景,它的完成度还是在七八成左右,仍然需要大量的人工介入。这种局限往往导致企业在尝试落地Agentic AI时,最终陷入大量手工补救,让项目迟迟无法规模化。这给Agentic AI的优势带来了一个根本的危机。这是否意味着在他擅长的特定场景之外,对于大多数场景,它对生产力的提升还是水中月镜中花呢?

需要注意的一点是,我们在这里讨论的问题跟上一篇文章不一样。上一篇文章的着重点在于,当AI没有办法做到一件事情,比如进行网络搜索的时候,我们可以通过构建一个工具来解决这个问题。那是一种"从0到1"的跃迁;但这次,我们讨论的是,AI明明可以做,却只能做到70分,剩下30分需要我们事无巨细地进行收尾。这个痛点要更常见也更棘手——往往更能决定Agentic AI能否在大范围内落地。

在这篇文章里,我们就要进一步探讨:为什么Agentic AI看上去只能交付"七八成的完成度",剩下的部分非得人力打磨?这是不是意味着 Agentic AI 是另一个做demo简单,落地困难的hype呢?

深层原因:自我迭代能力的破坏

Agentic AI的这个问题乍看上去很合理,但如果想深一层的话,就会发现一个看似矛盾的地方:Agentic AI 的核心优势不就是"自我迭代"吗?既然如此,为什么在这些应用场景里,反而会需要那么多人工打磨呢?

观察一下我们在直播里展示的成功案例:下载CVPR 2024 的paper、把amazon和google股价可视化、生成表情包……这些任务有一个共同特征:AI迭代的标准是程序能跑通。只要跑通了,通常就能得到一个还不错的结果。所以Agentic AI能成功,一方面是因为它的确有自我迭代,让程序能跑通的能力,另一方面也是因为这些任务本身不复杂,跑通程序就差不多等同于达到目标。

可当我们基于这些成功,想把Agentic AI延伸到更广阔的场景时,问题就出现了。对于某些更复杂的任务,程序跑通仅仅意味着脚本能执行,未必能生成我们想要的结果。就像上面提到的Blender视频渲染,程序可以把渲染过程跑下来,可渲染出的画面是不是空镜头?AI自己看不到。对于画流程图也是一样,程序不会报错,但结构混乱、主题不对,这些都不是Agentic AI能通过是否报错来判断的。

因此,我们遇到的根本难题是:Agentic AI本身的自我迭代环节出了问题。它虽然能让程序执行完,但在没有额外反馈机制或对成品质量进行客观评估的情况下,没法构建一个完整的迭代大循环,让它不断修正自己产出的瑕疵。换句话说,它看上去还在跑循环,但由于"成品好不好"这件事它无法感知,也没有现成的成功标准,那个最关键的"迭代反馈"环节就彻底失灵了。

具体来说,之所以"自我迭代"的feedback loop 被破坏,主要有两大原因:

  1. 产品/AI能力的缺失

    有些Agentic AI(比如Cursor)并不具备视觉或多模态能力,导致它无法"看到"自己的产出是否符合期望。它可以把Blender的脚本跑完,可对渲染的视频的内容一无所知,更谈不上根据画面来纠正摄像机角度。对于网页渲染也一样,如果AI只拿到裸数据或HTML源码,却无法理解网页的实际布局,它也不知道页面排版乱不乱。因为看不见或不理解画面,Cursor只能被动等待我们人工来指出问题,从而失去自动迭代的能力。

  2. 主观标准过强,属于开放式问题

    有些任务虽然Cursor在文本层面能读取和生成,但成功标准非常主观,不是一个程序正确执行就能搞定的范畴。例如翻译里的文风、写文案时的风格调性,它可以碰运气写,但并不知道客户想要的是正式一点还是俏皮一点。在这种场景中,Agentic AI就只能反复地等我们说"不够幽默"或"太口语化",再一步步修改。它缺乏一套明确机制来衡量自己是否达到了理想文风,无法像"测试用例跑通过了就OK"那么简单。

当这两种情况发生时,Agentic AI就会退化成"传统AI"——需要我们不断地给它注入反馈和指令,才能勉强把成果修好。这种循环一旦被迫变得高度依赖人工,就失去了Agentic AI本该带来的那种"解放人力、并行处理"的效率。这也是为什么很多厂商或研究者都会极度关注如何给Agentic AI赋予更丰富的感知能力,以及如何为某些主观性强的任务设立客观或半客观的准则。把这两个问题解决好,Agentic AI才可能真正跳出"七八成完成度"。

补足自我迭代的机制:感知通路与评价标准

但是,如果我们换个角度去想,其实这并不意味着Agentic AI没戏了。反而,它提醒了我们:在更复杂的场景里,Agentic AI依然需要人机协作,只不过协作的层面更高级。

  1. 如何补足AI的感知缺陷?

    如果第一类缺失(没有视觉、无法知道渲染结果)是主要瓶颈,那么我们可以给AI做一个小工具,帮它把渲染好的画面截图下来,用别的视觉模型处理,或者至少先把图片转成文本描述,让AI知道视频里有没有明显的空镜头。

    从技术实现上看,"给AI加多模态能力"也许只需要(让Cursor)写一个脚本调用Claude之类的Vision API,就能给Cursor额外的一双"眼睛"。可真要把每个场景都做得无缝衔接,还是得考虑复杂的耦合度和调试成本。它没有想象的那么难,但也并不简单——每个真实业务场景都可能出现意想不到的坑。如果场景频率特别高、ROI也大,那无疑值得去做这条路;如果只是一次性需求,可能还不如用人工指点几下更划算。

  2. 如何定义更清晰的成功标准?

    如果第二类问题(主观性强)是主要障碍,那么在翻译、写文案、画流程图这些场景里,我们需要把"什么是好"的标准更明确地告诉AI。举个例子,做公司内部的翻译时,常见专业术语或人名就固定好,或者写文案时,必须用"轻松幽默但不低俗"的口吻。我们不再仅仅说"给我翻译"或"给我写篇稿子",而是把那些"隐性规则"固化到Prompt文件或自定义脚本里。

    与此同时,我们甚至可以引入一个裁判Agent来判断成品质量是否达标。这个Agent可以访问公司内部文库来了解更多的内部标准,比如配色、品牌调性,然后给出评分或修改建议。如此,AI就能形成一个新的内部反馈回路,不用每个小瑕疵都由人来指正。

与AI的高维度协作:甩手掌柜还是超级员工经理?

其实,Agentic AI目前还没办法全自动地处理各种"带有主观性和不确定性"的场景,这并不说明它能力不足。相反,这或许恰恰证明了它的能力相比普通AI更强——因为我们带着更高的期望,把它推向更复杂的任务,让它直面那些过去我们根本不会指望AI来搞定的棘手问题。所以当我们说"它做到70%,还需要大量人工打磨",往往并不是Agentic AI在退步,而是我们给它的要求变得更广、更深。

就像一辆车看起来很可靠,是因为我们在路上给它屏蔽了很多ambiguity:遇到红绿灯时,人类来判断是否左拐或右拐;遇到交警拦车或逆行电动车,人类承担了那些更难的决策。车子只要专心做"油门、刹车、打方向盘"就好,于是我们会觉得传统的汽车是很可靠的。但现在有自动驾驶功能的车,虽然它的能力其实比传统汽车是要更强的,但是因为它开始接触到这些以前接触不到的不确定的问题,所以它给人的感知反而更笨了。

Agentic AI也是类似的道理。正因为它比普通的AI能力更强,因此它也被用到更加复杂的实际问题中,开始碰到风格审美、视觉判断、数据噪声、上下文歧义等各种坑。此时它就会频繁把我们拉进来。这并不是AI变笨了,而是它所处的问题难度大幅上升。正因为它本身能力够强,才被赋予了更多工作,也自然更容易暴露短板。这种实际的智能程度和我们感受到的智能程度之间的差距也是我们在分析AI的时候要尤其注意的一点。

因此,尽可能让Agentic AI如何建立更完善的"感知通路"和"评价标准",就成了我们在Agentic AI应用中能否取得突破的关键。这大概也是 2025 年各家产品形态竞争的焦点:

  1. 让AI有效地自我迭代(方向对): 只有通过公司的长期积累和对商业问题的透彻认知,我们才能给 AI 明确的评价标准。在此基础上,才能够让 AI 有效地进行自我迭代。
  2. 让AI高效地自我迭代(跑得快): 与此同时,对于纯文本之外的评价标准,我们也需要给AI更多维度的认知,通过多模态的接口或工具来获取外部信息,从而高效地进行后续迭代。

这两条路结合到一起,就能帮AI在更复杂的场景里保持effective and efficient的自我迭代——既看得到结果,又知道对错,才称得上真正的Agentic范式。

回过头看,这种趋势恰好对应了我们对新员工的培育方式。对一个普通工人,你需要把任务切成最简单的步骤,然后用SOP一条条列明,告诉他"先这样,再那样";对一个具备高学习能力的新员工,你则更注重告诉他"你要完成这个业务目标,同时别违背公司文化",让他自己去摸索细节。Agentic AI正是那个更高潜力的员工,不用我们一点点去分割问题——它可以自发地调度工具,自动填补大段中间逻辑。但它也需要我们在一开始就明确好最终的目标和标准。如果公司内部没有足够丰富的文档,没有标准的配色方案或翻译规范,AI就会在中间反复问你"我这样写行吗?""这个翻译过激吗?"—— 就像一个新入职的小白,不断需要你纠正他对公司风格的理解。

从这个角度讲,Agentic AI更像是一个能力越来越强、却仍需要我们高层管理和培训的超级员工——只要你善于梳理需求、定义标准、为它打开必要的感知渠道,它就能把以前看似繁琐甚至不可能的任务迅速推到70%、80%,甚至在不少领域里上探到90%或更高。

因此,决定 AI 能否真正落地并发挥价值的关键,从来都不在于技术本身是否多强大。更核心的往往是:你对业务流程的理解够不够深入?你能不能把那些"存在于团队脑海中、藏在内部文档里"的想法提炼成清晰的指令和目标?如果你连自己企业的市场定位、品牌风格或者客户真正需要什么都没搞清楚,再先进的 Agentic AI 也只能漫无目的地自我迭代。说到底,AI 只是一个辅助,它不可能替代你去洞察商业本质、定义成功标准。它越强,你越得把精力放在更高层面,去描绘对产品和用户的深刻见解,才能让它"知其所往"。

后记: 这篇文章的观点是如何逐步深化的

点击展开

之前有一些同学对我写作的时候,怎样迭代观点、发掘一个话题的深度比较感兴趣。今天正好用一个例子来解释一下我是怎么挖掘一个项目,让它的论点变得越来越深入的。

事情的背景是,我最近在试着用 Cursor 这样的 Agentic AI 画流程图。这样我就只要跟它打嘴炮描述一下我想画什么,就能拿到一张图了,而不用去 PowerPoint 里面画形状、拖光标、设置字体。但问题是,Cursor 虽然能输出一个粗糙的流程图,但是跟它慢慢磨各种细节,其实比用 PPT 画快不了多少。

最终我用了 Prompt Engineering 的方法解决了这个问题。通过积累一个 Markdown 文件,我在里面详细记录了我的各种喜好和细节要求。在 @ 这个 Markdown 文件的情况下,Cursor 就可以大概率一遍把图画对了。所以我就想写一篇文章来介绍这个发现。

这个文章的第一个版本就是对这个问题的自然介绍。我先介绍 AI 的能力限制(画图细节画不对),然后介绍用工具拓展 AI 的能力可以解决这个问题。接下来探讨更多的技术展开,比如什么时候使用工具、怎么创建一个工具,以及工具多了怎么管理。

但你可以看到这个版本毫无吸引力,我为什么要care你用cursor画流程图这种非主流需求?所以在第二个版本里,我们主要针对故事的展开和读者的观感,对结构做了一些调整。我首先介绍了面临的一个抽象问题,试图唤起读者的共鸣。这个问题是,即使对于 Agentic AI 这样的先进范式,我们也在会某些场景下遇到,"做个70分的粗糙作品简单,但剩下30分还是需要人工花大量精力去收尾"的问题。 接着介绍解决方法:我们可以构建工具(在这里是 prompt) 去解决这个问题。接着详细介绍何时、如何去构建工具,以及如何管理大量工具。 最后对这个技术问题进行深化:这种技术方案的意义不仅在于解决了画流程图这个问题本身,更在于这种积累和复用工具的心态,会帮你最终沉淀出一个工具库。而这些工具库的复用和组合会让 AI 的能力随着时间的流逝指数级地更加强大。

通过这样的深化,我们深化了观点的深度。

而在第三个版本里面,我们进一步拓展了我们的论点。之前的论点是一个纯技术的论点,但其实这个论点的另一面是心态。为什么当我们发现 AI 只能做70分以后,我们没有觉得这个任务可能就不适合 AI 就放弃AI回归手工,或者被动接受这个事实——剩下的30分我就手工去补?为什么我们会想着去努力改变现状,通过工具让 AI 能一次成功呢?这是一种 Builder's Mindset。

所以在文章的组织上我们可以使用明暗两条线,明线是技术,暗线是心态。通过设置伏笔的方式,让读者在看技术的过程中潜移默化意识到心态很重要。在文章的末尾,我们抛出 Builder's Mindset 对主题进行深化,让读者意识到这篇文章其实有两方面的 Learning,从而增加文章的戏剧性和张力。

第三个版本主要着重于"AI从70分到100分"这个问题的解决方法,并没有纠结于成因。但其实如果你仔细想一下为什么的话,会发现这件事很奇怪。Agentic AI的核心优势就是它可以自我迭代,一次性交付我们想要的东西。为什么它迭代以后出来是个70分的结果呢?在第四个版本中,我们进一步在"为什么"这个地方深化了观点。

经过仔细思考之后我们会发现,这是因为AI自我迭代的feedback loop被打破了。AI要不然没有能力去验证结果,比如Cursor没有视觉能力;要不然结果主观性太强,比如流程图好不好看,合不合我的口味,Cursor很难判断。所以,前者的解决方法是我们可以直接引入视觉模型,来打通AI的feedback loop,从根本上解决这个问题。但它牵扯到产品和模型的很多改动,太重量级了。因此,另一种方法是我们采用累积-迭代的思路,通过构建工具,在短时间内对具体场景进行切实可行的改进。接下来像上一个版本一样介绍具体的技术方案和builder's mindset。这种论点和组织的方法进一步挖掘了这个技术问题内部的原因,从而对深度进行了深化。

第五个版本中间,我们又把Agentic AI和传统AI做了一些对比,从而更进一步深化了观点。Agentic AI看起来,它的核心特征是能够自我迭代,完全独立自主地进行工作,而且确实在很多场景上可以实现效果很好的独立工作。但我们的argument是,这是一种假象。它为什么能在这些场景下自我迭代,是因为这些场景相对简单,比如它的成功的标准就是单纯的程序能跑通。

如果想要把Agentic AI用到更复杂的实际生活中,不可避免的还是要回归到人机协作这个主题,否则就会撞墙。传统AI的人机协作主要是分解任务和手把手的指导,非常artificial。但Agentic AI的人机协作则主要指的是人类负责定义问题和提供领域知识,AI负责提高通用的理解和决策能力。这其实和人类社会的结构非常相似,比如公司招聘员工,一方面它为员工提供培训和SOP,帮助员工照葫芦画瓢完成任务,另一方面也要求员工足够聪明,能够举一反三,自我学习。所以,从这个视角来看,AI在很多场景下只能做到70分,非但不是Agentic AI的缺陷,反而是因为它终于触摸到了世界主观和充满歧义的特质。接下来再介绍从feedback loop的角度来看如何解决这个问题。

所以我们通过这五个不同的版本,一步一步挖掘了用Cursor画流程图这件事情背后的深层含义。这时候在我们有了第五个版本之后,再对比第一个版本,会感觉差别真的好大。

但其实这些发掘不是我一个人干的事情,很多核心的观点都来自于o1 Pro。这也是我想分享的一点。o1 Pro一方面给我的感受是它的能力和别的AI模型完全不同。如果说我对GPT-4p的态度是"你去帮我把这个活儿干了",对普通o1的态度是"哎哟,这个AI还知道这件事,不错嘛!"我对o1 Pro的态度或者说期待往往是"大哥,教教我。"在适当的提示下,它真的可以带来非常有深度,甚至比我的思想要更深的洞察。如果说别的AI往往是查漏补缺,告诉我一些我不知道的东西的话,o1 Pro则是真的突破我的能力边界,让我能到达以前到不了的境界。我现在非常期待能够试用o3模型,而且也决定续订200美元一个月的ChatGPT Pro Plan了。

Comments