今年,你的公司已经启动了第三个 AI 项目。手机里装着 ChatGPT、Claude 和 DeepSeek——还没完全搞懂怎么用。实习生利用业余时间做了个 AI agent,逢人便讲。周围的人好像都已经流利地说着一门你还没学会的语言。
你并不孤单。
AI Weekender 的目标,是为像你一样聪明却忙碌的职场人,讲清楚 AI 的基本逻辑。每个周末抽出三十分钟,读一篇,多懂一点。
关于我: 我在商业与技术的交叉地带工作了十年。AI 是新鲜事物——但技术如何真正落地于组织内部、是什么让人接受它或抗拒它、摩擦究竟出在哪里:这些问题并不新鲜。我创办这个专栏,是为了把我所了解的东西分享给最需要它的人:那些没有时间自己去找答案的聪明职场人。
我想把我对技术的理解——以及对什么真正对商业和职场人重要的判断——写在这里,与你分享。
本文原文为英文,由 Claude 翻译,Si Hang 校对。
期号: #1
阅读时间: 约8分钟
难度: 无需 AI 背景知识
AI 贡献: 本文最初由本人提供思路与方向,由 Claude 用英文起草。本文由 Claude 翻译,经作者校对。
“模型”、“LLM”、“AI”——我经常混着用这几个词。我周围的人也一样,包括那些在这个领域深耕多年的人。在会议或微信消息的语境里,这种混用通常无伤大雅。但偶尔我会听到自己说"这个 AI 不知道那件事"或者"模型在这种情况下会出错",然后意识到自己在指向某个模糊的东西。有个概念我一直在绕,却没有真正落地过。
这期内容就是要把它落地。不是因为术语精确是什么美德——它不是——而是因为对 LLM 究竟是什么有更清晰的认识,会改变你想到的问题。对于一个评估 AI 工具、或者考量 AI 如何融入公司工作流程的金融从业者来说,问对问题才是核心。
那么:什么是大型语言模型?2026年人们说的"AI"究竟是什么意思?这两个是同一回事吗?简短的答案是否定的。详细的答案就是这期剩下的内容。
“AI"在2026年基本上只有一个意思 “人工智能"这个词已经存在了几十年,在不同时代有不同的含义——1980年代的专家系统、2000年代的机器学习分类器、2010年代的图像识别。但如今人们说"AI”,几乎无一例外地指向同一件事:生成式 AI。根据输入(提示词)生成输出——文字、图像、音频、代码、视频——的 AI。
把这一点讲清楚很重要,因为它明确了大多数对话的真正指向。当合规团队担忧"AI 风险”、当技术同事提议"AI 解决方案"、当供应商推介"AI 驱动的分析工具"——他们说的几乎都是生成式 AI。那个能写备忘录、总结文件、回答问题、或产出初步分析的技术。
生成式 AI 之所以有趣、之所以真正区别于早期 AI 系统,在于它生成的内容:用人类语言产出的开放式输出。早期 AI 系统通常更准确地被描述为分类器或优化器——它能告诉你一封邮件是否是垃圾邮件、哪条路线最快、或者一份信贷申请是否达到门槛。生成式 AI 则针对每个输入生成全新的内容。这一转变,正是这项技术如此广泛地进入公众视野的原因。
模型就是引擎 每一个生成式 AI 应用——ChatGPT、Claude、Copilot、Gemini,或者你公司内部搭建的工具——内部都有一个模型。模型在做核心的工作。
我一直想到的类比是汽车引擎。汽车是一个复杂的系统:车身、变速箱、电子系统、燃油供给、用户界面。但引擎是它的核心组件。汽车的每一项重要性能——动力输出、燃油效率、对油门的响应——从根本上都由引擎决定。其余部分同样重要,一台好引擎装在设计糟糕的车里仍然是辆差车。但不了解引擎,你就无法真正评价这辆车。
AI 应用的道理相同。应用是一套软件:聊天界面、网络连接、文档处理、内存管理、安全过滤,以及其他无数组件。这些都是真实的工程,都很重要。但模型是引擎。输出的质量、系统能做什么、失效模式和局限性——这些主要都取决于模型。
这个区别有实际意义。当一家公司宣布"升级了 AI",背后往往是更换了底层模型——尽管不总是如此,应用层面的改进同样可以显著改变使用体验。当两款产品声称运行相同的模型,它们的输出通常大致相当,无论界面看起来多么不同——不过围绕模型搭建的应用同样会影响你实际接触到的体验。无论如何,养成习惯去问一个工具运行的是哪个模型,往往是比问它"AI 好不好"更有用的出发点。
这里值得延伸一下这个类比。法拉利超跑和你爸的老桑塔纳都是有引擎的车——但开过桑塔纳并不能告诉你多少关于法拉利的事,除了汽车的基本原理。AI 模型也有同样的逻辑。大多数人最先接触到的模型往往是免费版本:更轻量、能力更弱、为可及性而非峰值性能而设计。前沿模型则需要付费才能使用,在复杂分析和推理任务上的能力确实更强——而这恰恰是金融从业者可能真正想要测试的类型。因为免费版体验不佳就否定某类能力,有点像因为只试驾过桑塔纳就断定车不快。
模型究竟是什么 那么,技术层面上,模型是什么?它的核心是一个非常庞大的数学函数——一套复杂的方程,接收输入,产生输出。
如果你从事量化研究或风险管理,你会立刻认出这个基本思路。多因子模型接收一组输入——宏观经济变量、行业敞口、风格因子——并输出预期收益或风险的估计值。模型归根结底是一组带有系数的方程:这些权重决定了每个输入对输出的贡献程度。
大型语言模型是这个概念的近亲。它接收输入——你的提示词、一个问题、一份文件——并输出:模型认为最合理的文本延续。
核心直觉是概率性的。当你对另一个人说某些话,他们可能的回应存在一个合理范围。你无法精确预测他们会说什么,但如果他们的回应与你说的话毫无关联,你会感到惊讶。合理回应的空间受到输入的约束。大型语言模型正是学会了建模这种关系——给定这个输入,哪些输出是合理的?——并据此生成内容。
这里正是与金融模型的对比变得有趣的地方,也是语言模型与你可能预期的产生分歧的地方。
在传统多因子模型中,因子由分析师选定。你决定规模、价值、动量和质量因子是相关的,精确定义它们,并从历史数据中估计系数。模型结构由人类定义;系数由数据拟合。
语言的复杂程度使得早期将其编码为明确规则的尝试——语法解析器、手动定义的语义结构——遭遇了显著的局限。大型语言模型不是这样运作的。内部表示——相当于"因子"——并不是给定的,而是在训练过程中被发现的。模型接触到海量文本,通过优化过程,发展出自己的内部结构:语法模式、语义关系、上下文依存关系,这些让它能够预测接下来应该出现什么。没有人指定这些表示,是模型自己找到了它们。
这正是让大型语言模型如此强大的原因,也是让它们不透明的原因。模型发展出的内部结构效果出色,但我们无法像检视回归系数那样完整地检视或描述它。我们不能像知道因子模型为何给出某个估计那样,精确地知道模型为何产生某个输出。这种不透明性对可靠性、可审计性,以及在金融机构中至关重要的治理问题,都有深远影响。
这也是为什么我们说 AI 可能犯下难以预料的错误。当模型产生错误的输出,我们能观察到它说了什么,却无法完整地追溯产生这个输出的过程。我们只能从输出反向推导过程,而这作为发现错误或解释错误的基础,是不完善的。幻觉——模型生成形式上合理但事实上错误的文本这一现象——正是这种结构的直接后果,值得单独用一期来讲。
参数与权重 大型语言模型在训练过程中发展出的内部表示,被编码在其参数中,也称为权重——一组庞大的数值,决定了模型如何处理任何给定的输入。现代大型语言模型拥有数千亿个参数。当你听到"700亿参数模型"时,指的就是这些参数。参数越多,通常意味着学习复杂模式的能力越强,尽管规模与能力之间的关系并不简单。 理清术语 有了这些背景,术语就更容易厘清了。
...