期号: #1
阅读时间: 约8分钟
难度: 无需 AI 背景知识
AI 贡献: 本文最初由本人提供思路与方向,由 Claude 用英文起草。本文由 Claude 翻译,经作者校对。


“模型”、“LLM”、“AI”——我经常混着用这几个词。我周围的人也一样,包括那些在这个领域深耕多年的人。在会议或微信消息的语境里,这种混用通常无伤大雅。但偶尔我会听到自己说"这个 AI 不知道那件事"或者"模型在这种情况下会出错",然后意识到自己在指向某个模糊的东西。有个概念我一直在绕,却没有真正落地过。

这期内容就是要把它落地。不是因为术语精确是什么美德——它不是——而是因为对 LLM 究竟是什么有更清晰的认识,会改变你想到的问题。对于一个评估 AI 工具、或者考量 AI 如何融入公司工作流程的金融从业者来说,问对问题才是核心。

那么:什么是大型语言模型?2026年人们说的"AI"究竟是什么意思?这两个是同一回事吗?简短的答案是否定的。详细的答案就是这期剩下的内容。


“AI"在2026年基本上只有一个意思

“人工智能"这个词已经存在了几十年,在不同时代有不同的含义——1980年代的专家系统、2000年代的机器学习分类器、2010年代的图像识别。但如今人们说"AI”,几乎无一例外地指向同一件事:生成式 AI。根据输入(提示词)生成输出——文字、图像、音频、代码、视频——的 AI。

把这一点讲清楚很重要,因为它明确了大多数对话的真正指向。当合规团队担忧"AI 风险”、当技术同事提议"AI 解决方案"、当供应商推介"AI 驱动的分析工具"——他们说的几乎都是生成式 AI。那个能写备忘录、总结文件、回答问题、或产出初步分析的技术。

生成式 AI 之所以有趣、之所以真正区别于早期 AI 系统,在于它生成的内容:用人类语言产出的开放式输出。早期 AI 系统通常更准确地被描述为分类器或优化器——它能告诉你一封邮件是否是垃圾邮件、哪条路线最快、或者一份信贷申请是否达到门槛。生成式 AI 则针对每个输入生成全新的内容。这一转变,正是这项技术如此广泛地进入公众视野的原因。


模型就是引擎

每一个生成式 AI 应用——ChatGPT、Claude、Copilot、Gemini,或者你公司内部搭建的工具——内部都有一个模型。模型在做核心的工作。

我一直想到的类比是汽车引擎。汽车是一个复杂的系统:车身、变速箱、电子系统、燃油供给、用户界面。但引擎是它的核心组件。汽车的每一项重要性能——动力输出、燃油效率、对油门的响应——从根本上都由引擎决定。其余部分同样重要,一台好引擎装在设计糟糕的车里仍然是辆差车。但不了解引擎,你就无法真正评价这辆车。

AI 应用的道理相同。应用是一套软件:聊天界面、网络连接、文档处理、内存管理、安全过滤,以及其他无数组件。这些都是真实的工程,都很重要。但模型是引擎。输出的质量、系统能做什么、失效模式和局限性——这些主要都取决于模型。

这个区别有实际意义。当一家公司宣布"升级了 AI",背后往往是更换了底层模型——尽管不总是如此,应用层面的改进同样可以显著改变使用体验。当两款产品声称运行相同的模型,它们的输出通常大致相当,无论界面看起来多么不同——不过围绕模型搭建的应用同样会影响你实际接触到的体验。无论如何,养成习惯去问一个工具运行的是哪个模型,往往是比问它"AI 好不好"更有用的出发点。

这里值得延伸一下这个类比。法拉利超跑和你爸的老桑塔纳都是有引擎的车——但开过桑塔纳并不能告诉你多少关于法拉利的事,除了汽车的基本原理。AI 模型也有同样的逻辑。大多数人最先接触到的模型往往是免费版本:更轻量、能力更弱、为可及性而非峰值性能而设计。前沿模型则需要付费才能使用,在复杂分析和推理任务上的能力确实更强——而这恰恰是金融从业者可能真正想要测试的类型。因为免费版体验不佳就否定某类能力,有点像因为只试驾过桑塔纳就断定车不快。


模型究竟是什么

那么,技术层面上,模型是什么?它的核心是一个非常庞大的数学函数——一套复杂的方程,接收输入,产生输出。

如果你从事量化研究或风险管理,你会立刻认出这个基本思路。多因子模型接收一组输入——宏观经济变量、行业敞口、风格因子——并输出预期收益或风险的估计值。模型归根结底是一组带有系数的方程:这些权重决定了每个输入对输出的贡献程度。

大型语言模型是这个概念的近亲。它接收输入——你的提示词、一个问题、一份文件——并输出:模型认为最合理的文本延续。

核心直觉是概率性的。当你对另一个人说某些话,他们可能的回应存在一个合理范围。你无法精确预测他们会说什么,但如果他们的回应与你说的话毫无关联,你会感到惊讶。合理回应的空间受到输入的约束。大型语言模型正是学会了建模这种关系——给定这个输入,哪些输出是合理的?——并据此生成内容。

这里正是与金融模型的对比变得有趣的地方,也是语言模型与你可能预期的产生分歧的地方。

在传统多因子模型中,因子由分析师选定。你决定规模、价值、动量和质量因子是相关的,精确定义它们,并从历史数据中估计系数。模型结构由人类定义;系数由数据拟合。

语言的复杂程度使得早期将其编码为明确规则的尝试——语法解析器、手动定义的语义结构——遭遇了显著的局限。大型语言模型不是这样运作的。内部表示——相当于"因子"——并不是给定的,而是在训练过程中被发现的。模型接触到海量文本,通过优化过程,发展出自己的内部结构:语法模式、语义关系、上下文依存关系,这些让它能够预测接下来应该出现什么。没有人指定这些表示,是模型自己找到了它们。

这正是让大型语言模型如此强大的原因,也是让它们不透明的原因。模型发展出的内部结构效果出色,但我们无法像检视回归系数那样完整地检视或描述它。我们不能像知道因子模型为何给出某个估计那样,精确地知道模型为何产生某个输出。这种不透明性对可靠性、可审计性,以及在金融机构中至关重要的治理问题,都有深远影响。

这也是为什么我们说 AI 可能犯下难以预料的错误。当模型产生错误的输出,我们能观察到它说了什么,却无法完整地追溯产生这个输出的过程。我们只能从输出反向推导过程,而这作为发现错误或解释错误的基础,是不完善的。幻觉——模型生成形式上合理但事实上错误的文本这一现象——正是这种结构的直接后果,值得单独用一期来讲。

参数与权重
大型语言模型在训练过程中发展出的内部表示,被编码在其参数中,也称为权重——一组庞大的数值,决定了模型如何处理任何给定的输入。现代大型语言模型拥有数千亿个参数。当你听到"700亿参数模型"时,指的就是这些参数。参数越多,通常意味着学习复杂模式的能力越强,尽管规模与能力之间的关系并不简单。

理清术语

有了这些背景,术语就更容易厘清了。

生成式 AI 是大类:生成内容的 AI 系统。文字、图像、音频和视频的生成都属于生成式 AI。这个术语描述的是输出的类型,而非生成方式。

模型是执行生成工作的数学引擎。每个生成式 AI 应用都运行在一个模型之上。当有人说"这个模型",他们特指这个组件——处理输入并产生输出的已训练参数集合。

大型语言模型(LLM) 是模型的一个特定类型:在大规模文本上训练、用于理解和生成语言的模型。“大型"指的是训练规模——海量文本、海量参数。“语言"表明主要媒介是文字,尽管现代大型语言模型越来越多地兼容图像、音频和其他输入。“模型"与上文含义相同。

三者的关系:大型语言模型是模型的一个类别;模型是生成式 AI 应用内部的引擎;生成式 AI 是2026年人们说"AI"时通常所指的东西。

这些术语之所以被混用,是因为在大多数实际对话中,它们从不同角度指向同一个系统。“我让 AI 帮我总结了这个"和"我用模型处理了这个"通常可以互换,因为两者指向的是同一个底层事物。但当你开始追问系统的哪个部分对什么负责——而这恰恰是技术评估、供应商评审和风险治理对话中出现的问题——这种区别就变得重要了。


模型不负责的——以及真正负责的

引擎类比还有最后一个用处:当出问题时,它能帮助我们厘清问题属于哪一层。答案很少是简单的。

当聊天机器人就你公司的内部政策给出一个自信但错误的答复,问题可能出在模型——真实地生成了听起来合理却恰好错误的内容。也可能出在应用:模型从一开始就没有获取你的政策文件。或者出在输入:用户假设系统了解相关背景,而实际上并没有提供。比如要求模型给出昨天的纳斯达克收盘价,就是在向它索要一个它在结构上无法知道的东西——实时市场数据需要一个独立的数据连接层,而大多数通用 AI 应用并不默认具备。这三种失败从外部看起来相似,但原因不同,解决方案也不同。

模型是必要条件,但不是充分条件。理解它能决定什么、不能决定什么,是清晰评估这些系统的起点——也是在它们失效时问对问题的前提。


总结

大型语言模型是一个非常庞大的数学函数——在海量文本上训练,规模之大使它能够发现自己对语言的内部表示——根据输入生成合理的文本。它不是数据库,不是搜索引擎,也不是人类思维。它是一个强大的统计模型,学会了语言的模式,足以生成连贯、符合语境的文本。

“AI"这个词在今天的用法,通常指建立在这类模型之上的应用。模型是引擎,应用是整辆车。两者都重要,但它们是不同的东西,混淆两者会导致问题问错方向。

对任何 AI 工具更有用的追问方式不是"这个 AI 好不好?“而是:它运行的是哪个模型?应用在上面构建了什么?这对系统能做什么、不能可靠地做什么,意味着什么?

这些问题有可以作答的答案。从这里出发,比另一种方式更有成效。


参考阅读

以下资料均为英文。

  • Introduction to Large Language Models — Google(机器学习速成课程)。Google 官方对大型语言模型的解释,配有清晰的示例。部分内容略有技术性,但对非专业读者应基本可读。适合希望深入了解机制的读者作为入门起点。

  • How Large Language Models Work — Andreas Stöffelbauer(微软,via Medium)。从机器学习和深度学习讲起,自底向上解释大型语言模型的完整说明。内容较长,但是现有讲解中较为清晰的一篇。适合希望理解架构而非仅了解概念的读者。

  • AI Can’t Explain How AI Works — CGP Grey(YouTube)。在当前 AI 热潮兴起数年前制作的通俗易懂的 AI 学习原理介绍。核心洞见——这些系统无需被明确编程规则即可学习——以该作者标志性的清晰风格呈现。适合初次接触这一概念的读者观看。


AI Weekender 每周发布。如果这篇文章对你有用,不妨分享给可能受益的同事。