# 什么是 AGI
AGI,全称 Artificial General Intelligence,中文翻译为通用人工智能。
其中 Artificial 为人工,争议不大,所以不再此节展开。
剩下的两个关键词,将是本文尝试解释的重点:
- General (通用)
- Intelligence (智能)
# 通用
这里存在比较常见的误解,认为 “通用” 是某个系统 “什么都能做,人能做的它都能做”。
这里我给出自己的理解:
通用,代表一个系统当中只有一套解决方案,而不是多套解决方案。
系统使用一套方案,应对所有问题,尽管每一次应对都不见得完美,但系统可以在后续进行自我优化。
举个正向的例子:
大脑皮层的结构,绝大部分情况下是同构的,但不妨碍这些结构衍生出不同的“功能”,比如视觉识别、语言沟通、运动控制等等。
举个负面的例子:
Html 被发明后,觉得不够用,于是在其上加了另一套解决方案,即 CSS,然后又觉得不够,于是又加了一个解决方案,即 JavaScript。
总之,不断打补丁的系统,或者组合了各种专用模块的系统,都不是通用系统,因为它们整合了太多的解决方案,而不是一套解决方案。
# 智能
智能,就是在前面提到的解决方案中,写入三个维度的代码:
- 要什么?
- 有什么?
- 放弃什么?
所谓的 “要什么” ,大模型作对了一部分,即:有没有 a,a 之后有没有 b,b出现后有没有 c,c 出现的概率是多少。
大模型做错了什么?
没有把 “要什么” 和 “放弃什么” 写到核心代码中。
也就是说,缺失了下面两个维度的逻辑,没有写入神经元的核心代码中:
要什么:价值、目标、情感、欲望、动机。
放弃什么:遗忘、对资源有限的适应性、选择性、取舍。
这就导致大模型的研究者经常被一些问题所困扰:
- 价值难以对齐(因为你根本没把价值或目标相关的代码写进去)
- 灾难式遗忘(因为你也没有把遗忘的相关逻辑写进去,导致经常遗忘关键的数据)
最后,即便是大模型勉强作对的地方,也就是 “有什么”,也存在问题。
由于大模型底层理论基于 “概率统计” ,而概率统计存在一些致命性问题 1 (opens new window) 2 (opens new window) ,最显著的一个问题是:
无法细颗粒度地更新某个概念节点,都混成一锅粥了,难以区分。
即便是更新哪怕一句问答,也需要同时更新所有权重,把所有海量训练资料都重新过一遍。
所以大模型的更新经常伴随着海量的电力消耗和显卡占用。
时时刻刻在烧钱,如果不是在烧钱,那就是在烧钱的路上。
且由于存在这些致命性缺陷,很多人开始在大模型生态的外层插入各种各样的专用解决方案,比如:
- 蒸馏(大模型本身不具备遗忘功能,所以只能耗费更多的电力来进行“遗忘”,以便压缩运行成本)
- 强化学习(大模型不具备“价值对齐”能力,只能依赖强化学习,这也进一步耗费大量电力)
- 向量记忆库(大模型在部署时“细胞失去活性”,缺失了长期记忆能力,只能依赖外部的向量记忆库进行“记忆”)
- 提示词工程(大模型本身没有交互能力来自主挖掘细节,只能依赖用户主动提供“联想”提示)
- 流程图系统(由于大模型的会话上下文空间有限,只能利用流程节点来分割任务)
- MCP操作层(大模型本身没有实体交互层,只能外置各种执行器)
不是说这些专用模块没有用,但不能解决根本问题。
而且这么多专用模块加上去,系统逐渐从声称的 “通用”,转变为 “专用”,背离了 AGI 的初衷。
换句话说,大模型不是通用智能,仅仅是通用的统计程序。
# 如何解决上述问题?
要解决上述提到的所有的问题,必须从系统的核心(即概率统计)动手术,而不是从外部打补丁,
这样才能用有限的能量,撬动近乎无限的收益。
# 总结
模块多的系统,不是 AGI。 高耗能的系统,也不是 AGI。
什么才是 AGI?
只有一套解决方案(元方案),且兼顾了三个维度的系统,即要什么(目标衍生)、有什么(逻辑频率)、放弃什么(资源限制),才有可能成为 AGI。