从大语言模型到幻觉现象，一文读懂常见AI术语

微资讯

04.1315:20

关注

人工智能是一个庞杂而深奥的领域，从事这一领域研究的科学家们通常依赖专业术语来描述自己的工作。因此，在报道人工智能行业时，我们也不可避免地需要频繁使用这些技术词汇。为此，我们整理了一份常见术语词汇表，希望帮助读者更好地理解相关文章中出现的重要概念。随着研究人员不断探索人工智能的新边界、发现新兴安全风险，我们也将持续更新这份词汇表，补充更多新词条。

AGI（通用人工智能）

通用人工智能（AGI）是一个定义相对模糊的概念，但通常指在大多数任务上超越普通人类水平的人工智能。OpenAI首席执行官Sam Altman曾将AGI描述为"相当于你可以雇用的一名普通水平同事"。OpenAI的章程则将AGI定义为"在大多数具有经济价值的工作中超越人类的高度自主系统"。谷歌DeepMind的理解略有不同，该机构认为AGI是"在大多数认知任务上至少与人类同等能力的AI"。对于这些不同的定义感到困惑？不必担心——就连人工智能研究前沿的专家们也同样存在分歧。

AI智能体

AI智能体是指利用人工智能技术代替用户执行一系列任务的工具，其能力远超普通AI聊天机器人，例如可以帮你报销费用、预订机票或餐厅座位，甚至编写和维护代码。不过，这一领域仍处于发展初期，各方对"AI智能体"的理解可能不尽相同，相关基础设施也在持续建设中。但其核心理念在于：这是一种自主系统，能够调用多个AI系统来完成多步骤任务。

思维链

面对简单问题，人类大脑无需过多思考便能作出回答，比如"长颈鹿和猫哪个更高？"但遇到复杂问题时，往往需要借助纸笔来梳理中间步骤。例如，一个农场主养了鸡和牛，共有40个头、120条腿，要算出鸡和牛各有多少只，就需要列方程来求解（答案是各20只）。

在人工智能领域，大语言模型的思维链推理是指将问题拆解为若干较小的中间步骤，以提升最终答案的质量。这种方式通常需要更长的处理时间，但得出的答案更为准确，尤其在逻辑推理和代码编写方面表现突出。推理模型是在传统大语言模型基础上，通过强化学习对思维链思维方式进行优化后得到的。

算力

算力通常指支撑AI模型运行所需的关键计算能力，是驱动整个人工智能行业进行模型训练与部署的核心资源。这一术语有时也作为提供计算能力的硬件设备的简称，涵盖GPU、CPU、TPU等各类构成现代AI行业基础设施的硬件形式。

深度学习

深度学习是机器学习的一个子领域，其算法采用多层人工神经网络（ANN）结构设计，能够建立比线性模型或决策树等简单机器学习系统更为复杂的关联关系。深度学习算法的结构设计灵感来源于人脑神经元之间相互连接的传导路径。

深度学习AI模型能够自主识别数据中的重要特征，无需人工工程师手动定义这些特征。这种结构还支持算法从错误中学习，并通过反复迭代和调整来优化自身输出。然而，深度学习系统需要海量数据（通常达到数百万条以上）才能取得良好效果，且与简单机器学习算法相比，训练时间更长，开发成本也相对更高。

扩散模型

扩散模型是许多图像、音乐和文本生成类AI模型的核心技术。受物理学启发，扩散系统通过持续向数据（如图片、音频等）中添加噪声，逐步"破坏"数据结构，直至数据完全消失。在物理学中，扩散过程是自发且不可逆的——溶入咖啡中的糖无法还原为方糖。而AI中的扩散系统则致力于学习一种"逆向扩散"过程，从噪声中还原被破坏的数据，从而具备从噪声生成内容的能力。

蒸馏

蒸馏是一种从大型AI模型中提取知识的技术，采用"教师-学生"模型的方式实现。开发者向教师模型发送请求并记录其输出结果，有时会将这些答案与数据集进行比对以评估准确性，随后将这些输出用于训练学生模型，使其学会近似模拟教师模型的行为。

蒸馏技术可以在蒸馏损失极小的情况下，基于大型模型创建出更小、更高效的模型。OpenAI的GPT-4 Turbo（GPT-4的加速版本）很可能就是通过这一方式开发的。

虽然所有AI公司都会在内部使用蒸馏技术，但也有一些公司可能借助蒸馏对手的模型来追赶前沿水平。对竞争对手的模型进行蒸馏通常违反AI API及聊天助手的服务条款。

微调

微调是指对已有AI模型进行进一步训练，以优化其在特定任务或领域上的表现——通常通过输入新的专业化（即面向特定任务的）数据来实现。

许多AI初创公司以大语言模型为基础开发商业产品，并通过基于自身领域知识和专业经验的微调来提升产品在目标行业或任务上的实用价值。

GAN（生成对抗网络）

GAN，即生成对抗网络，是一种机器学习框架，是生成式AI在生成逼真数据（包括但不限于深度伪造工具）方面的重要技术基础。GAN由一对神经网络组成：一个网络根据训练数据生成输出，并将结果传递给另一个网络进行评估；后者作为判别器，对生成器的输出进行分类判断，从而推动其不断改进。

GAN的结构建立在"对抗"竞争机制之上——两个模型相互博弈：生成器努力让自己的输出通过判别器的审查，而判别器则持续识别人工生成的数据。这种竞争机制无需额外人工干预，就能优化AI输出，使其更加逼真。不过，GAN更适合较为垂直的应用场景（如生成逼真的图片或视频），而非通用型AI任务。

幻觉

幻觉是AI行业对模型"凭空捏造"信息这一现象的专业术语，即模型生成了错误的信息内容，这显然是影响AI质量的重大问题。

幻觉现象会导致生成式AI输出具有误导性的内容，甚至可能引发现实风险——例如，对健康问题的查询返回了有害的医疗建议。正因如此，大多数生成式AI工具的使用条款中都会提示用户核实AI生成的答案，尽管这类免责声明往往远不如AI输出内容本身显眼。

AI凭空捏造信息的问题，被认为是训练数据存在缺口所导致的。对于通用型生成式AI（也称为基础模型）而言，这一问题尤为难以解决——现有数据量根本不足以训练AI模型来全面应对人类可能提出的所有问题。简言之，我们尚未创造出"全知全能"的系统。

幻觉现象正在推动越来越多的垂直化、专业化AI模型的涌现——即聚焦于特定领域的AI，以减少知识盲区、降低错误信息风险。

推理（Inference）

推理是运行AI模型的过程，即让模型基于已学习的数据做出预测或得出结论。需要注意的是，推理必须建立在训练的基础之上——模型必须先从数据中学习规律，才能有效地进行推断。

许多类型的硬件都可以执行推理任务，从智能手机处理器到高性能GPU，再到专为AI设计的加速芯片，不一而足。但不同硬件的推理能力差异显著——在笔记本电脑上运行超大模型可能极为缓慢，而在配备高端AI芯片的云服务器上则能流畅运行。

大语言模型（LLM）

大语言模型是ChatGPT、Claude、谷歌Gemini、Meta的Llama、微软Copilot、Mistral的Le Chat等主流AI助手所采用的核心AI模型。当你与AI助手对话时，实际上是在与一个大语言模型交互，它会直接处理你的请求，或借助网页浏览、代码解释器等工具来响应。

AI助手与大语言模型可能有不同的名称，例如GPT是OpenAI的大语言模型，而ChatGPT则是面向用户的AI助手产品。

大语言模型是由数十亿数值参数（即权重）构成的深度神经网络，能够学习词汇和短语之间的关系，构建出一种语言的多维度表征——类似于词语的多维地图。

这些模型通过对数十亿本书籍、文章和文字记录中的规律进行编码来构建而成。当你向大语言模型发出提示时，模型会生成最符合该提示的模式，并基于上下文不断预测下一个最可能出现的词语，如此循环往复。

内存缓存

内存缓存是一种重要的优化机制，用于提升推理效率（即AI生成用户查询响应的过程）。AI运算本质上依赖大量数学计算，每次计算都会消耗计算资源。缓存技术通过保存特定计算结果以供后续查询复用，减少模型重复运算的次数。常见的缓存方式之一是KV缓存（键值缓存），它适用于基于Transformer的模型，通过减少生成答案所需的计算量和时间，显著提升推理效率。

神经网络

神经网络是深度学习的多层算法结构基础，也是大语言模型兴起后整个生成式AI浪潮的技术根基。

受人脑密集互联神经通路的启发，将其作为数据处理算法设计结构的构想最早可追溯至20世纪40年代。然而，真正释放这一理论潜力的，是通过游戏产业发展成熟的图形处理单元（GPU）的兴起。这类芯片非常适合训练层数远超以往的算法，使基于神经网络的AI系统在语音识别、自动驾驶、药物研发等众多领域取得了显著的性能提升。

RAMageddon（内存危机）

RAMageddon是业界为一个严峻趋势新创的词汇——随机存取存储器（RAM）芯片的持续短缺正席卷整个科技行业。随着人工智能产业的蓬勃发展，各大科技公司和AI实验室为了打造更强大、更高效的AI，争相大量采购RAM用于数据中心建设，导致市场上剩余供应严重不足，价格也随之节节攀升。

这一短缺波及多个行业：游戏领域的主要厂商不得不提高游戏主机售价；消费电子领域的内存短缺可能引发十余年来最大规模的智能手机出货量下滑；企业计算领域的公司也因无法获得足够的RAM而面临数据中心扩容难题。预计只有当短缺问题得到缓解，价格上涨才会停止——但目前来看，这一局面短期内难以改变。

训练

开发机器学习AI涉及一个称为"训练"的过程——简单来说，就是向模型输入数据，让它从中学习规律并生成有用的输出。

在这一阶段，事情往往变得有些耐人寻味：训练之前，用于构建学习系统的数学结构不过是一堆层次和随机数字，真正赋予AI模型形态和能力的，正是训练过程本身。本质上，这是一个系统响应数据特征、不断调整输出以趋近目标的过程——无论目标是识别猫的图片，还是按需生成一首俳句。

需要注意的是，并非所有AI都需要训练。基于规则、依照人工预定义指令运行的AI系统（如线性聊天机器人）无需训练，但这类系统的能力通常不及经过充分训练的自学习系统。

训练的成本往往较高，因为需要大量输入数据，且模型所需的数据量总体呈上升趋势。有时可以采用混合方法来加速模型开发并控制成本，例如对基于规则的AI进行数据驱动的微调——与从零开始构建相比，这种方式所需的数据量、算力、能耗和算法复杂度都更低。

Token

在人机交流中，存在一些显而易见的挑战：人类使用自然语言沟通，而AI程序则通过由数据驱动的复杂算法流程来执行任务和响应查询。简而言之，Token是人机交互的基本构建单元，代表大语言模型已处理或生成的离散数据片段。

Token通过"分词"（tokenization）过程生成——该过程将原始数据拆分并细化为大语言模型可消化的独立单元。这与软件编译器将人类语言转换为计算机可读二进制代码的原理类似，分词过程将用户查询中的自然语言转化为AI程序可理解的形式，以便生成响应。

Token主要分为几种类型：输入Token（响应用户查询时生成的Token）、输出Token（大语言模型回复用户请求时生成的Token）以及推理Token（涉及用户请求中更复杂、更耗时任务和流程的Token）。

在企业AI应用中，Token用量直接决定使用成本。由于Token等同于模型处理的数据量，它已成为AI行业服务变现的计量单位——大多数AI公司按Token数量收取大语言模型的使用费用。因此，企业使用AI程序（如ChatGPT）消耗的Token越多，需要向AI服务提供商（如OpenAI）支付的费用也就越高。

迁移学习

迁移学习是一种以已训练好的AI模型为起点，针对不同但通常相关的任务开发新模型的技术，使此前训练周期中积累的知识得以复用。

迁移学习能够通过缩短模型开发流程来提升效率，在目标任务的可用数据较为有限时尤为实用。但需要注意的是，这一方法也存在局限性——依赖迁移学习获取通用能力的模型，通常还需要针对其专注领域进行额外的数据训练，才能在该领域取得良好表现。

权重

权重是AI训练的核心要素，决定了训练数据中不同特征（输入变量）所被赋予的重要程度，从而影响AI模型的输出结果。

换句话说，权重是一组数值参数，定义了数据集中哪些内容对于给定训练任务最为关键，并通过与输入值相乘来实现其功能。模型训练通常从随机分配的权重开始，随着训练过程的推进，权重会不断调整，引导模型输出越来越接近目标结果。

以预测房价的AI模型为例：基于目标地区历史房地产数据进行训练时，模型会为卧室数量、卫生间数量、是否为独立住宅、是否有停车位和车库等特征赋予相应权重——这些权重反映了各项因素对房产价值的影响程度。

本文将持续更新，不断补充新内容。

Q&A

Q1：什么是AI幻觉？为什么会出现这个问题？

A：AI幻觉是指AI模型生成错误或虚假信息的现象。这一问题被认为源于训练数据的缺口——现有数据量不足以覆盖人类可能提出的所有问题。幻觉现象可能导致生成式AI输出具有误导性的内容，甚至带来现实风险，例如对健康查询返回有害的医疗建议。目前大多数生成式AI工具都会在使用条款中提示用户核实AI生成的内容。

Q2：大语言模型的Token是怎么计费的？

A：Token是大语言模型处理和生成内容的基本单位，相当于模型处理的数据量。大多数AI公司按Token数量收取服务费用，分为输入Token（用户发送的查询内容）和输出Token（模型生成的回复内容）两类。企业使用AI程序消耗的Token越多，需要支付的费用也就越高，因此Token用量是企业控制AI使用成本的重要指标。

Q3：AGI和普通AI有什么区别？

A：普通AI通常只能在特定任务上表现出色，而AGI（通用人工智能）则指在大多数任务上达到或超越人类水平的AI系统。目前各方对AGI的定义不尽相同：OpenAI将其描述为"相当于可雇用的普通水平同事"，谷歌DeepMind则认为AGI是"在大多数认知任务上至少与人类同等能力的AI"。目前AGI尚未真正实现，连AI研究前沿的专家们对其定义也存在分歧。