前几天,我发了一篇文章,是由AI帮我完成的。内容说的是AI在创意工作中的角色变化——从模仿到结构性生成,用穷举来代替创意。我当时看完其实挺满意的,甚至有点得意,觉得这可能是我们最近AI协作写作流程的又一次成熟体现。
但发出之后,收到了朋友的私信。他们说,这篇文章看上去像是你写的,但读起来总觉得有点空中楼阁。GPT对此的批评辛辣而深刻:
- 将已有AI能力(生成变体、快速迭代试验)伪装为结构性转折和颠覆式变革。
- 故意混淆创造与优化的本质差别。
- 用大量哲学化语言、隐喻和文学表达方式制造深刻性的假象。
- 刻意忽略实际实现过程中的困难与复杂性,夸大技术效果。
因此,尽管文章看似前瞻且深刻,本质上仍是一种巧妙的包装、夸张的推理和刻意的误导,并未真正提供对AI创意能力的严肃、客观、深入的分析。
在继续深挖和复盘了写作和决策过程以后,我逐渐意识到,问题不是观点不对,而是内容假大空:它缺乏支撑,也缺乏沉淀。 换句话说,不是AI写得不够好,而是我没尽到我该尽的那份责任——接下来我想从这两个维度仔细说说,我哪里做错了。
AI没错,是我的错
AI并没做错。文章的逻辑没问题,文字也挺流畅,很多观点甚至和我自己多年来的认知是对得上的。比如创意可以是结构演化的结果、遍历和反馈机制能替代部分人类直觉……这些本来就是我长期以来的观点。它只是沿着我熟悉的思路,自动生成了一份结构清晰的内容。
但问题也正在这里。
因为方向对了,我就默认了这篇文章也是对的。我没有去深挖它缺的那些东西:实证、沉淀、我自己的判断链和支撑材料。 它像是机械地复述了我常讲的一些话,但不是我在写我熟悉的事和逻辑链。它的语言结构是我的,但逻辑密度和支撑系统是空的。
说到底,我犯了两个错:
- 一是作为一个AI写作的把关人,我放松了警惕,看它写得通顺就默认它说得对;没有严肃审稿、没有举反例、没有补论据;
- 二是作为一个AI的合作者,我没给它我真正该给的东西。我有很多材料、很多年积累下来的经验和例子可以补进去,但我没有喂进去。我只给了它最近一周的录音,而这些内容并不足以承载这个议题的深度。
结果就是:观点虽然是我的,文章却如同空中楼阁,缺乏深度。
这也解释了为什么那位朋友第一反应是联想到 icon.com——一个做AI广告创意的公司,看起来和文章描述的范式完美契合,但实际上公司本身业务很浅,甚至没有明确的成功案例。这让文章显得像是被一个流行案例牵着走,炮制出来的一篇快消标题党,而不是出自一个长期反思者的系统推演。不是AI误导了我,而是我没有管好AI,也没有好好喂养它。
而我也想趁这个机会解释一下,我为什么认同这种结构性生成的创意机制:这是基于我在一个非常强调创新的领域——科研领域——的长期观察。
不是为了实用的科研,怎么反而推动了实用?
我搞了十几年的科研,也算是长期活在那种创新先于实用的系统里。科研这个行业有个很特别的规则:你发一篇paper,最重要的不是这个方法有多实用,而是它有没有novelty。你是不是第一个这么做的人?你的思路有没有和前人不同?你解决的问题有没有换一种方式提出?这些才是重中之重。
但这就带来一个看起来很矛盾的地方:如果大家都只想着怎么和别人不一样,不想着有什么用,那这个系统最后怎么会推动整个人类社会的技术进步? 比如,你很难说哪一篇paper直接催生了发电机、固态器件、深度学习或者今天用的LLM。可你又不得不承认:这些系统级别的生产力飞跃,都和科研系统密不可分。
这就需要我们换一种尺度来看科研的逻辑。 科研是一个典型的系统性协作结构。它看起来是分散的,每个人都有自己的选题、目标和领域。但它的运行逻辑其实非常像一个间接最优化系统: 每个人的直接目标是拓展边界,而整个系统的隐含目标是收敛到更有用。
什么意思?
比如说,你发paper,最关键的是得有创新点,这是写在明面上的规则。但你也通常需要加实验,要比较效果,要讲这个方法在某种条件下比之前好。这些不是硬性指标,不像工程项目那样对实用性提出严格要求,但它们构成了一个次级但始终存在的反馈机制。 大家都在跑自己的方向,换个正则项、用个新损失函数、从别的领域搬个方法过来用……看上去每个人都只是为了做点不一样的事。但你稍微往系统级别拉远一点看,就会发现这些局部的差异化探索,其实都在不断向一个隐含目标靠拢:找到那些既新颖又可能work得更好的结构。
科研之所以有效,不是因为每个人都很实用主义,而是因为整个系统通过结构设计,让每个人在追求创新的过程中,也间接在为what works better提供素材和筛选。这是一种典型的系统通过显性目标(创新)去优化隐性目标(实用)的方式。
这就是我当时为什么会对AI那篇文章觉得方向对。它提出AI可以通过遍历、反馈、筛选来形成创意生成系统,这在我看来就是科研系统运作逻辑的一种映射。 但文章之所以后来看起来空,就是因为它没有把这层机制说出来。它没有解释,为什么一个只追求novelty的系统,最终却能带来impact;为什么好创意不能只靠遍历,更需要结构性的反馈机制来引导;更没有说明我为什么会长期相信这种结构能够work。
AI可以总结出我的观点,但它没说出我是怎么相信它的。这就是我没喂给它的那部分 context,也正是它写出来之后空洞感最强的部分。
创意领域也可以系统化吗?
我们讲科研是系统性的,很多人点头。但一讲到广告、写作、作曲,大家第一反应就是:这些事情太主观、太感性,系统化可能走不通。但我们换个角度看,其实这些领域都有一个类似的结构框架。
科研探索的是一个problem space:新的假设、新的结构、新的视角;它有套路(比如优化器设计、网络结构、变分推理)、有反馈(peer review、实验结果),长期迭代中自组织出结构性进步。
广告其实也一样:它探索的是一种说服空间或者情绪空间,什么风格能吸引人、什么节奏能提升转化。它也有模板(比如倒金字塔结构、先痛点后方案),也有反馈(CTR、ROI),并且现在的创意产出高度可量化——你可以A/B测试、按周迭代。
作曲更典型:流行音乐中大量曲式、和声、节奏设计都高度程式化,乃至可工程化;而YouTube、Spotify、抖音等平台的播放量和完播率,也已经变成了一种实时反馈机制。
所以我们也许可以提出一个粗略但启发性的类比。这些看起来不同的创意工作,在结构上其实共享一个通用框架:
- 有一个待探索的空间;
- 有一组基本定型的模板;
- 有一套生成与组合的机制;
- 有一个反馈回路作为外部选择机制。
只要具备这些结构,就有可能搭建一个以系统结构去演化创意变体的平台。这也是为什么我们有理由相信,科研那套机制不止属于科研本身。
当然,创意系统的反馈信号更嘈杂、更滞后、更难量化。而且什么是好的评价标准常常是流动的、文化驱动的。 但这也并不意味着我们就必须止步不前。关键是要对系统结构中的反馈回路特别敏感。 我们在另一篇文章中分析过,很多Agentic AI系统之所以落不了地,不是因为它不能行动,而是它看不见行动的结果。举个例子,它执行一个浏览器操作,但没有视觉系统,读不懂网页内容,就没法知道点击按钮之后发生了什么。这个feedback loop断了,它就无法真正自主决策。 所以如果真的想要让这个系统落地,能跑起来,关键还是得设计一个有领域知识,结构化的反馈回路。
判断界限,才是协作的开始
这次的写作滑坡,让我意识到,在AI协作中,人至少有两个关键角色:
第一个是Manager。你要对AI的输出负责,你要检查它有没有逻辑漏洞、论据缺失;你要知道什么时候它只是写得像你,但不代表它真的代表你;你要在它交出一稿之后,用自己写的文章的判断标准去评估能不能发出去。
但这还不够。你还得是它的Enabler。 Manager关注结果,Enabler关注起点。 Enabler要做的事情是让AI真正走进来。不是只把prompt写清楚,而是把你长期的积累、风格、敏感点、判断链路都喂进去。否则你就只是雇了一个没有见过你作品的代笔枪手。
这两者都重要。
我后来也做过一些对比实验,来看看AI到底能不能一个人完成一篇像样的内容。有一次,一个朋友在群里提到C/2025 F2彗星,说很多公众号还在讲它是肉眼可见的大彗星,完全没提它其实已经在近日点前就解体了。我心血来潮,干脆用ChatGPT做了个完整流程:让它自己找最新数据、梳理脉络、确认时间线,再写成一篇适合公众号的科普文。结果出乎意料地不错。知识点准确,表达顺畅,结构也清晰,比我平时刷到的很多人写的科普文都要靠谱。[聊天记录]
当然,这个彗星的例子有它的局限性。它之所以能成功,很大程度上是因为任务足够明确,反馈标准清晰。说到底,它更像是一项信息重组工作,而不是那种真正需要重新定义问题的创造性任务。 这有点像塑料袋和奢侈品包包。塑料袋便宜、能装,改变了现代商业和物流的基本逻辑。它不是最好用的物件,但它够用、可量产,可以嵌入每一个系统。但包包也没有被取代,但它承载的,是美学、辨识度、和个体表达的功用。
AI内容也许一样。它真正改变的,未必是诗人笔下的比喻,而是那些日常的、规模化的、原本就高度程式化的表达方式。它会先重塑内容工业的基础层,而不是替代人类的创造巅峰。
所以我们真正该问的,或许不是AI能不能创意,而是:什么样的创意,它已经可以胜任?而什么样的创意,我们还必须亲自参与? 在这个逐渐成型的新协作系统中,我们要做的,不只是用它、管它,更是时刻判断:它做的是哪一类任务,我们又愿意交出哪一部分自己。
Comments