关于AI知识引擎的随想

(来自我在AI生产力训练营群聊中的发言)

有人提到用AI做会议纪要。会议纪要其实是一个特别粗浅，然而很困难的领域，具体为什么困难我们下面说。我设想的是一个knowledge engine，它一方面可以通过语音识别和录入的方式，把我们生活和工作中不同来源的信息收集和存储起来；另一方面要能从这些原始资料中提取出抽象的知识；还要能在我们进行输出的时候及时地提醒我们。

举个例子，比如我们在公司开会的时候提了一嘴，说产品A需要考虑personalization这个问题。同时还讲了其他可能不是特别insightful的内容，或者影响的时间范围很短的决策，比如今天前我们要把某项action item做完。那AI在里面就会干两件事情：

分辨出来前者是一个有长久时间影响的方向，战略方向性质的内容，后者是一个短期的可以迅速丢弃的内容。
把前者作为知识库的一部分索引起来，而将后者丢弃。

然后未来当我们在写一个文档或者在我们开会讲话的时候提到，说B产品也需要personalization，这时候AI就应当有能力跳出来提醒我们说，你在某年某日说过A也需要personalization，A和B既然都需要做这个项目，那需不需要把两边进行统筹规划，在设计架构的时候就要考虑到复用性。

我觉得像这样的AI知识助手就不再是一个秘书性质的角色，而可以帮助我们完成更有深度的思考，承担起更加复杂的责任，也能为公司创造更多的价值。但这也是一个非常困难的问题。主要有以下几个挑战：

巧妇难为无米之炊，document不足在很多公司是一个老大难问题。公司里面很多tribal knowledge不会在任何document上出现，同时我们会议上有时候有一些非常好的想法，但是因为不牵扯action item也不会出现在会议记录上，就这么永久地丢失了，非常可惜。我对它的解决方法是：
- 对于参加的所有非one-on-one的会议，我会在Mac上做一些hack，让电脑能同时录下我的声音和参会人的声音，然后扔给本地的语音识别模型，对所有的会议都进行识别和存档。
- 我广泛使用自己做的语音识别平台来作为高效的输入手段，在这个过程中把我所讲的话，平时的一些insights，包括正在说的这段话都存档起来，作为AI knowledge engine的基石。
- 我没有这样做，但是我有同事这么做了，他在家里做了一个麦克风阵列，把办公室里说的所有话，包括扬声器放出来的参会人的声音，包括他自己在思考时候thinking out loud都记录下来，然后扔给语音识别。通过这三种方式，也许是一条可行的解决数据问题的基石。
知识的提取。我个人觉得这是目前AI的一个弱点。比如大家可以做一个最简单的尝试，找一个你觉得很有收获的会议的录像或者录音，然后把它扔给AI，让它提取中间最重要的部分，或者最有insights的部分，最有启发的部分。你可以试试去tweak它的prompt，来看它能不能得到让你惊喜的结果。

我的经验是在很多情况下，它看的更多是形式，它会给出特别漂亮、规整的会议纪要。先说与会者是谁，时间，然后记流水账，大家讨论了什么问题，然后再说action item，然后再说会议结论。形式很漂亮，内容很空洞，很多insights它根本就放不进去。我试过各种prompt engineering，到现在都没有成功，效果都特别差。

有一个我发现有用的小技巧是，你可以先让它针对这段会议提出可能有insights的问题，然后再让它去回答这些问题。这种先inspire它，然后再引导它回答的模式，会比直接让它得出结论要好很多。我管它叫inspire, not command，但即便是这样，它所提取出来的知识仍然是相当缺乏深度的。
怎么让它在我们输出的时候，能够及时地参与我们的对话，及时地提醒。这不仅是一个modeling的问题，同时也是infrastructure的问题，因为当我们输入的时候，它是需要不断地去检查我们输入的内容，然后可能去做RAG的。这个过程如果调用公开的API的话，可能会造成巨大的费用，延时也是一个问题，所以可能在infrastructure上面也有一些挑战。另外，如何合理地construct prompt，利用context window来让它有效地支持我们的写作，拿到相关的知识，做出合理的推断，都是相当大的挑战。

因此总体来说，我觉得知识管理是一条可能可行的，让AI为人类的工作创造巨大价值的道路，但是到目前为止，这并不是一个trivial的问题。以上我们谈到的三个挑战，只有第一个挑战大概解决了，但是二和三还都是相当困难和开放的问题。我也很期待看看大家有没有相关的讨论和建议。

Computing Life

关于AI知识引擎的随想

Comments

Categories

Tags

Recent Comments