The AI Weekender

期号： #1 阅读时间：约8分钟难度：无需 AI 背景知识 AI 贡献：本文最初由本人提供思路与方向，由 Claude 用英文起草。本文由 Claude 翻译，经作者校对。 “模型”、“LLM”、“AI”——我经常混着用这几个词。我周围的人也一样，包括那些在这个领域深耕多年的人。在会议或微信消息的语境里，这种混用通常无伤大雅。但偶尔我会听到自己说"这个 AI 不知道那件事"或者"模型在这种情况下会出错"，然后意识到自己在指向某个模糊的东西。有个概念我一直在绕，却没有真正落地过。这期内容就是要把它落地。不是因为术语精确是什么美德——它不是——而是因为对 LLM 究竟是什么有更清晰的认识，会改变你想到的问题。对于一个评估 AI 工具、或者考量 AI 如何融入公司工作流程的金融从业者来说，问对问题才是核心。那么：什么是大型语言模型？2026年人们说的"AI"究竟是什么意思？这两个是同一回事吗？简短的答案是否定的。详细的答案就是这期剩下的内容。 “AI"在2026年基本上只有一个意思 “人工智能"这个词已经存在了几十年，在不同时代有不同的含义——1980年代的专家系统、2000年代的机器学习分类器、2010年代的图像识别。但如今人们说"AI”，几乎无一例外地指向同一件事：生成式 AI。根据输入（提示词）生成输出——文字、图像、音频、代码、视频——的 AI。把这一点讲清楚很重要，因为它明确了大多数对话的真正指向。当合规团队担忧"AI 风险”、当技术同事提议"AI 解决方案"、当供应商推介"AI 驱动的分析工具"——他们说的几乎都是生成式 AI。那个能写备忘录、总结文件、回答问题、或产出初步分析的技术。生成式 AI 之所以有趣、之所以真正区别于早期 AI 系统，在于它生成的内容：用人类语言产出的开放式输出。早期 AI 系统通常更准确地被描述为分类器或优化器——它能告诉你一封邮件是否是垃圾邮件、哪条路线最快、或者一份信贷申请是否达到门槛。生成式 AI 则针对每个输入生成全新的内容。这一转变，正是这项技术如此广泛地进入公众视野的原因。模型就是引擎每一个生成式 AI 应用——ChatGPT、Claude、Copilot、Gemini，或者你公司内部搭建的工具——内部都有一个模型。模型在做核心的工作。我一直想到的类比是汽车引擎。汽车是一个复杂的系统：车身、变速箱、电子系统、燃油供给、用户界面。但引擎是它的核心组件。汽车的每一项重要性能——动力输出、燃油效率、对油门的响应——从根本上都由引擎决定。其余部分同样重要，一台好引擎装在设计糟糕的车里仍然是辆差车。但不了解引擎，你就无法真正评价这辆车。 AI 应用的道理相同。应用是一套软件：聊天界面、网络连接、文档处理、内存管理、安全过滤，以及其他无数组件。这些都是真实的工程，都很重要。但模型是引擎。输出的质量、系统能做什么、失效模式和局限性——这些主要都取决于模型。这个区别有实际意义。当一家公司宣布"升级了 AI"，背后往往是更换了底层模型——尽管不总是如此，应用层面的改进同样可以显著改变使用体验。当两款产品声称运行相同的模型，它们的输出通常大致相当，无论界面看起来多么不同——不过围绕模型搭建的应用同样会影响你实际接触到的体验。无论如何，养成习惯去问一个工具运行的是哪个模型，往往是比问它"AI 好不好"更有用的出发点。这里值得延伸一下这个类比。法拉利超跑和你爸的老桑塔纳都是有引擎的车——但开过桑塔纳并不能告诉你多少关于法拉利的事，除了汽车的基本原理。AI 模型也有同样的逻辑。大多数人最先接触到的模型往往是免费版本：更轻量、能力更弱、为可及性而非峰值性能而设计。前沿模型则需要付费才能使用，在复杂分析和推理任务上的能力确实更强——而这恰恰是金融从业者可能真正想要测试的类型。因为免费版体验不佳就否定某类能力，有点像因为只试驾过桑塔纳就断定车不快。模型究竟是什么那么，技术层面上，模型是什么？它的核心是一个非常庞大的数学函数——一套复杂的方程，接收输入，产生输出。如果你从事量化研究或风险管理，你会立刻认出这个基本思路。多因子模型接收一组输入——宏观经济变量、行业敞口、风格因子——并输出预期收益或风险的估计值。模型归根结底是一组带有系数的方程：这些权重决定了每个输入对输出的贡献程度。大型语言模型是这个概念的近亲。它接收输入——你的提示词、一个问题、一份文件——并输出：模型认为最合理的文本延续。核心直觉是概率性的。当你对另一个人说某些话，他们可能的回应存在一个合理范围。你无法精确预测他们会说什么，但如果他们的回应与你说的话毫无关联，你会感到惊讶。合理回应的空间受到输入的约束。大型语言模型正是学会了建模这种关系——给定这个输入，哪些输出是合理的？——并据此生成内容。这里正是与金融模型的对比变得有趣的地方，也是语言模型与你可能预期的产生分歧的地方。在传统多因子模型中，因子由分析师选定。你决定规模、价值、动量和质量因子是相关的，精确定义它们，并从历史数据中估计系数。模型结构由人类定义；系数由数据拟合。语言的复杂程度使得早期将其编码为明确规则的尝试——语法解析器、手动定义的语义结构——遭遇了显著的局限。大型语言模型不是这样运作的。内部表示——相当于"因子"——并不是给定的，而是在训练过程中被发现的。模型接触到海量文本，通过优化过程，发展出自己的内部结构：语法模式、语义关系、上下文依存关系，这些让它能够预测接下来应该出现什么。没有人指定这些表示，是模型自己找到了它们。这正是让大型语言模型如此强大的原因，也是让它们不透明的原因。模型发展出的内部结构效果出色，但我们无法像检视回归系数那样完整地检视或描述它。我们不能像知道因子模型为何给出某个估计那样，精确地知道模型为何产生某个输出。这种不透明性对可靠性、可审计性，以及在金融机构中至关重要的治理问题，都有深远影响。这也是为什么我们说 AI 可能犯下难以预料的错误。当模型产生错误的输出，我们能观察到它说了什么，却无法完整地追溯产生这个输出的过程。我们只能从输出反向推导过程，而这作为发现错误或解释错误的基础，是不完善的。幻觉——模型生成形式上合理但事实上错误的文本这一现象——正是这种结构的直接后果，值得单独用一期来讲。参数与权重大型语言模型在训练过程中发展出的内部表示，被编码在其参数中，也称为权重——一组庞大的数值，决定了模型如何处理任何给定的输入。现代大型语言模型拥有数千亿个参数。当你听到"700亿参数模型"时，指的就是这些参数。参数越多，通常意味着学习复杂模式的能力越强，尽管规模与能力之间的关系并不简单。理清术语有了这些背景，术语就更容易厘清了。 ...