图解:资管行业「大模型」50个核心名词(首篇)

0 评论 97 浏览 0 收藏 44 分钟

大模型技术正深刻重塑资管行业的智能投研与合规生态。本文以10个核心概念为脉络,系统拆解LLM在金融领域的垂直应用——从Transformer架构的底层原理,到行业大模型的知识蒸馏;从Token计费机制的成本控制,到多模态处理的财报分析实战。这是一份面向金融科技从业者的AI认知升级指南。

烦请大家看一张:大模型技术发展历程图(如下图1)

图1:大模型技术发展历程,图源于智能投研技术联盟公众号

既然聊得是资管行业的大模型名词,那请看大家先看大模型工作流程图开始,搞清楚它是什么,为下面的学习作铺垫。

图2:LLM (大语言模型) 工作流程图

1、大模型(通用)

官方定义:大模型(Large Language Model,LLM) 指基于 Transformer 架构,通过在海量文本语料上进行自监督预训练得到的、参数规模通常在数十亿至数万亿的语言模型。它能够捕获复杂的语言模式和世界知识,并展现出上下文学习、指令遵循和逻辑推理等涌现能力,无需针对特定任务重新训练即可处理多种自然语言任务。

通俗理解:可把大模型想象成一个阅读了互联网上几乎所有公开文字(书籍、文章、网页、视频、代码等)的“超级通才”。在资管领域,这相当于一位读过海量研报、财报、公告、资讯等数据,永远不知疲倦的助理分析师装进了服务器。

特点:参数规模巨大、能力超强、上下文学习、多任务通才、泛化与零样本、指令遵循。

场景(资管视角):智能投研与内容生成、智能客户服务与投顾、内部知识管理与效率工具、因子挖掘辅助、实时数据解读、合规预审等(如下图3)

图3:大模型内部概念结构

本质:超大规模的概率生成器,通过“读书破亿卷”学会了语言的统计规律,并以“词语接龙”的方式生成有逻辑、有知识的回答。在资产管理中,它充当了理解指令、融合知识、生成洞察的通用智能基座,其他所有技术(RAG、Agent、微调)都是围绕它构建的增强层(如下图4)

图4:大模型赋能业务的流程

常用模型架构:常见的大模型架构包括Transformer、Mixture of Experts (MOE) 和Diffusion等,大模型应用建设过程中,合理选择模型架构是确保模型性能和应用效果的关键(如下图5)

图5:常见的大模型架构

选择模型架构原则:应根据具体应用场景和业务需求,综合考虑模型的性能、计算资源和开发周期等因素。

  • 需处理长文本的任务,可选择Transformer架构;
  • 需高效扩展和并行处理的任务,可选择MOE架构;
  • 生成高质量图像和音频的任务,可选择Diffusion架构

2、行业大模型(垂直)

官方定义:(垂直领域大模型 / Domain-Specific LLM) 是指在通用大语言模型基座之上,通过注入海量特定行业数据(如研报、公告、合同、合规文件等)进行继续预训练和指令微调,使其深度内化该领域的术语、知识图谱、业务流程和监管规则,并能在该领域任务上显著超越通用基座,提供更准确、更合规、更专业的智能服务。

通俗理解:把通用大模型好比一个“天赋极高通才型大学生”(什么都懂一点,但不够精深),那么行业大模型就是一个“资深行业专家”(如下图6)

图6:通用大模型 vs. 行业大模型:能力对比示意图

特点(资管视角):领域知识深度内化、术语与行话准确率极高、合规与价值观对齐、任务专精,幻觉更低、整合非结构化与半结构化数据。

场景(资管视角):核心覆盖资管投研、风控、合规、运营、客户服务五大核心场景,如智能财务分析与报告生成、实时监管合规监控、专业级智能投顾对话等(如下图7)

图7:在资管业务中的整合应用流程(以智能投研平台为例)

本质:对通用模型进行“知识蒸馏+行为规训”的垂直化改造——把资管行业几十年积累的显性知识(法规、数据)与隐性经验(投资判断、合规直觉)编码进模型参数,让AI从“知道金融”变成“会做金融”。

小结:资管行业大模型不是通用模型套个壳,而是通过海量行业语料灌注 + 业务流程指令化训练 + 合规偏好深度对齐,将金融从业者的专业直觉和风控意识编码进模型,使其从“能聊投资”进化到“能辅助做投资决策与合规判断”的专用智能引擎。

3、Transformer 变换器

官方定义:一种基于自注意力机制的深度学习模型架构,最早由Google在2017年的论文《Attention Is All You Need》中提出。它摒弃了传统的循环神经网络和卷积神经网络结构,完全依赖注意力机制来捕捉数据中的全局依赖关系。在资管领域,它被视为处理时间序列预测、多因子建模和非结构化数据(如研报、新闻)分析的最先进工具。

通俗理解:传统模型是“逐字读研报、逐点看行情”,容易遗漏关键关联;Transformer像是一个拥有“天眼”的超级交易员,一眼扫完所有内容,自动抓重点、理关联,效率和精准度大幅提升,就像资管分析师快速梳理海量信息、提炼核心逻辑的过程,(如下图8)

图8:Transformer 核心架构(简)

特点:全局并行处理、直接长程依赖、多头注意力、位置编码、高度可扩展、多场景适配性好。

场景(资管视角)多因子选股与收益预测、金融合同条款关联分析、多源舆情关联推理、长文本研报复述、研报核心观点提取、合规文案审核、基金净值波动预判、波动率曲面建模与风险管理等(如下图9)

图9:多因子选股与收益预测

本质:一个纯粹基于注意力交互的全局上下文融合器。它不靠“顺序记忆”,而是通过计算序列中所有元素两两之间的相关性权重,直接对全局信息进行加权聚合。在资产管理中,它是将非结构化的金融文本,转化为结构化逻辑网络的底层引擎。

小结:Transformer架构凭借其强大的并行处理能力和对长距离依赖的有效捕捉,已成为自然语言处理领域的主流架构,广泛应用于文本生成、机器翻译等任务。它的革命性在于,用“全局注意力”取代了“顺序递归”,用“并行计算”换来了“规模扩展”。对于资产管理行业,理解它有助于理解大模型为何能如此高效地处理海量、复杂的非结构化文本(如财报、新闻、研报),并从中挖掘出深层次的关联和洞察。它是将AI从“模式识别”推向“语境理解”的关键技术基石。

4、Token 词元

官方定义:根据2026年3月国家数据局的正式定名,Token的中文标准名称为“词元”。在人工智能领域,词元是大模型处理信息的最小单元。无论是文本、代码,还是图像、音频,在被大模型理解和生成之前,都会被拆解成一个个离散的、可计量的基本单元,这些单元就是词元。它是智能时代连接技术供给与商业需求的“结算单位”

通俗理解:把一句话、一篇研报,像切面包一样切成一小块一小块最小碎片,每一小块就是1个Token,另外也可把Token想象成处理文字的“标准积木块”。这里有两场景:英文和中文场景(如下图10)

图10:Token处理文字的标准积木块

大模型在处理中文文字所消耗Token,远比处理英文更费Token,原因如下,(如下图11)24年初1000亿一26年3月140万亿+,两年增长1000倍+,单季环比增长40%,中国市场领跑全球Token增量需求,Token成为衡量AI经济规模的核心指标。

图11:大模型处理中文字更费Token

Token分类:Token≠单词/汉字。AI仅能理解数字,文本、图像、音/视频等需先切分为Token,再转为数字序列,(如下图12)

图12:Token分类,图源于架构师技术联盟公众号

特点:非对齐性、离散与数字化、决定上下文长度、直接关联成本与性能、影响生成质量。

场景(资管视角)智能投研报告生成、量化因子挖掘、智能客服与合规等,下面以智能投研报告生成场景为例子,来说明资产管理行业,词元贯穿了从数据输入到策略输出的全过程。(如下图13)

图13:智能投研报告生成——“按量计费”的成本核算

本质:离散文本与连续数学空间之间的转换接口。它把千变万化的人类语言,映射到模型词表中一个有限的、可计算的ID序列上,使得语言问题能够转化为数学运算,也是大模型一切成本和能力的“度量衡”。(如下图14)

图14:Tokens 本质图

精简为:Token 是大模型将连续人类语言做离散化、标准化、数字化拆解后的最小原子单元,是人类自然语言通往模型数学计算空间的唯一桥梁。

小结:Token是大模型世界的“最小计量单位”。它不仅是分词器切分文本的语义“积木”,更是模型运算的原子、计费的基础和上下文窗口的度量衡,深刻影响着资管AI产品的成本结构、性能边界和交互设计。以资产管理行业从文本到模型理解的完整Token流程,为例(如下图15)

图15:从文本到模型理解的完整Token流程图

5、Embedding 向量嵌入

官方定义:一种将离散的、非结构化的数据(如文本、图像、用户ID)映射到连续的、低维的实数向量空间中的技术。在这个向量空间中,语义上相似的对象彼此距离更近。在自然语言处理中,它通过将Token(词元)或整段文本转换为固定长度的稠密向量,使计算机能够进行高效的语义计算

关键字:输入- 离散对象(词、句、文档等);过程-通过模型(如Word2Vec, BERT)学习映射;输出一个固定长度的数字向量(一组浮点数);目标-让语义相似的物体在向量空间中位置接近。

你可以这样理解:每个文本经过 Embedding模型处理后,会变成一个固定长度的浮点数数组(向量)。比如一段话经过OpenAI 的 text-embedding-3-small 模型处理后,会变成一个 1536 维的向量。

“LangChain 是一个 AI 应用开发框架”

Embedding 模型[0.0123, -0.0456, 0.0789, …, 0.0321] // 1536 个浮点数

通俗理解:可把Embedding想象成为每一段文本(词、句、文档)生成一个独一无二的“语义身份证”或“数字坐标”(如下图16)

图16:Embedding生成数字坐标图

特点:将非结构化数据向量化、语义相似度可计算、降维与信息压缩、作为模型的基础特征。

场景(资管视角):智能投研文档检索与去重、风险事件自动聚类与预警、客户问句匹配与标准答案推荐。下面以智能投研文档检索与去重场景为例子,来说明资产管理行业使用Embedding的过程(如下图17)

1、场景:从海量研报中快速找到与“光伏技术路线迭代”最相关的内容,并剔除内容重复的报告。

2、传统方式:关键词搜索“光伏”、“技术”,会漏掉“异质结(HJT)”、“钙钛矿”等技术术语的深度报告,且无法识别内容高度重复的文档。

3、使用Embedding

  • 向量化:将所有研报的摘要和标题转化为Embedding向量;
  • 语义搜索:将查询“光伏技术路线迭代”也转化为向量,并在向量数据库中计算与所有文档向量的余弦相似度;
  • 结果:不仅找到了明确提及“光伏技术”的报告,还找到了主要讨论“TOPCon与HJT成本对比”、“钙钛矿叠层电池效率突破”等高度相关的深度报告;
  • 去重:计算所有文档向量两两之间的相似度,将相似度超过阈值(如95%)的报告标记为疑似重复。

图17:智能投研文档检索与去重示意图

本质:通过机器学习模型,学习从人类创造的符号系统(语言)到一个连续的、蕴含语义的数学空间(向量空间)的映射函数。它是对“含义”的一种数学表示,让语义关系变得可计算。

小结:Embedding是将文本含义转化为机器可计算、可比较的数字坐标的核心技术,它让AI从“匹配文字”进化到了“理解意思”。对于资产管理行业,Embedding是解锁非结构化数据价值(如海量文本)的钥匙,它使得资管RAG、风险检索、智能投研从概念走向高效落地,是构建下一代智能投研与风控系统的基石(如下图18)

图18:Embedding解锁非结构化数据价值图

6、上下文窗口(Context Window)

官方定义:上下文窗口(Context Window)是指大型语言模型(LLM)在单次推理过程中,能够接收并处理的输入Token(词元)序列的最大长度限制。它定义了模型在生成每一个新Token时,所能“看到”和“考虑”的先前Token(包括用户输入、系统指令、历史对话和模型自身已生成内容)的总量上限

要点拆解:

  • 核心对象:Token序列的总长度;
  • 作用范围:单次推理/对话轮次;
  • 包含内容:系统提示 + 用户输入 + 历史对话 + 模型输出;
  • 关键限制:硬性技术上限,超出部分将被截断或遗忘。

通俗理解:可把上下文窗口想象成模型处理任务时面前的一张“固定大小的草稿纸”或“工作台”。Token = “写在纸上的字”、上下文窗口大小 = “草稿纸的总面积”、超出窗口 = “字写到了纸外,看不见了”。在资产管理中:就像一位分析师,他一次只能同时摊开并参考有限份研究报告和图表(窗口内内容),而不能把整个资料库都堆在桌上。(如下图19)

图19:上下文窗口示意图

特点:硬性技术限制、影响理解连贯性、决定单次处理成本与能力、“滚动”或“滑动”机制、窗口越大越贵越耗算力。

场景(资管视角):超长金融文档分析、多轮深度投顾对话、实时市场信息流监控、多轮合规对话、多文档交叉分析、基金合同审查。下面以多轮深度投顾对话场景为例子,来说明资产管理行业使用上下文窗口的过程(如下图20)

场景:多轮深度投顾对话

任务:客户与智能投顾进行长达20轮的复杂对话,涉及资产回顾、市场分析、新建议等。

问题:对话轮次增多,总Token数很快接近或超过窗口限制(如32K)。模型可能“忘记”对话早期的关键约束(如客户的风险偏好是“保守型”)。

解决方案(上下文管理)

  • 关键信息固化:在系统提示(System Prompt)中永久写入客户的核心画像信息(如“客户风险等级:保守型”),这部分通常被优先保留在窗口内。
  • 历史对话摘要:当对话轮次累积到一定长度时,触发一个过程:将除最近几轮外的早期对话历史,交给模型自己生成一个简短的“对话历史摘要”。
  • 窗口滚动更新:用这个“摘要”替换掉窗口中原有的冗长早期历史记录,从而腾出空间容纳新的对话。这样,模型既保留了早期对话的“精髓”,又不会超窗。

图20:多轮深度投顾对话场景示意图

本质:上下文窗口的本质,是大模型因其注意力机制的计算复杂度和硬件内存限制,而在单次前向传播推理中所能容纳的输入序列长度的技术边界。它本质上是模型“工作记忆”的物理容量上限(如下图21)

图21:模型“工作记忆”示意图

小结:上下文窗口是大模型单次处理信息的“内存容量”上限,它直接决定了AI能同时“思考”多长的内容,是产品设计中处理长文本、进行深度对话时必须规划和管理的核心资源边界。对于资产管理AI产品而言,理解并巧妙管理上下文窗口(通过分段、摘要、关键信息固化等策略),是让模型在有限“工作记忆”内发挥最大效能、处理复杂金融任务的关键。

7、多模态模型

官方定义:能够同时处理、理解和关联两种或两种以上不同模态信息(如本、图像、音频、视频、表格、代码)的人工智能模型。它通过将不同模态的数据映射到统一的语义表示空间,实现跨模态的对齐、推理与生成能力,从而更接近人类综合运用多种感官进行认知的方式

要点拆解:

1.处理对象:两种或以上模态的数据(文本、图像、音频、视频等);

2.核心能力:跨模态理解、对齐、推理与生成;

3.架构特点:通常包含各模态的专用编码器、一个对齐与融合模块,以及一个共享的核心大模型(如Transformer解码器)(如下图22)

图22:多模态大模型核心架构图

通俗理解(资管视角):多模态模型为AI装上了“眼睛”,使其能像顶尖基金经理一样,同步解析文档中的文字、图表、表格等多形式信息,并融合形成整体判断。而传统文本模型只能读取文字,无法处理其他视觉内容,导致关键信息丢失(如下图23)

图23:多模态模型就是给AI装上了眼睛示意图

特点:信息融合与互补、跨模态检索与生成、对现实世界更强的理解力、交互更自然、更接近人类阅读习惯等。

场景(资管视角):智能财报分析、实时舆情与市场情绪监控、沉浸式投教与客户服务、研报深度解析、基金合规审查、合同/协议影像件处理、上市公司现场调研。下面以智能财报分析场景为例子,来说明资产管理行业使用多模态的过程(如下图24)

1、场景:智能财报分析,任务:深度分析一家公司的季度财报PDF文件

2、多模态模型工作流

  • 输入:上传完整的财报PDF。
  • 理解与提取:模型同时处理: 文本:提取“本季度营收XX亿元,同比增长YY%”等关键语句。 图像:识别并解读“营收构成饼图”、“季度现金流趋势图”中的数据与趋势。
  • 关联与推理:将文本中的定性描述(如“云服务增长强劲”)与图表中的定量数据(云服务在饼图中的占比变化、趋势线斜率)进行关联验证。
  • 输出:生成一份图文关联的分析摘要,例如:“财报显示云服务增长强劲,这与图3中该业务营收占比从15%提升至22%的趋势相符。但图4显示经营现金流增速放缓,需关注回款情况。”

图24:智能财报分析示意图

本质:通过一个统一的、可学习的表征空间,将不同模态的异构数据映射到具有语义一致性的向量中,从而在AI内部建立一个能够贯通“视觉、听觉”、语言”等概念的联合认知系统。它旨在模拟人类大脑跨感官整合信息的能力。

小结:多模态模型就是让AI拥有了“眼、耳、口、脑”协同工作的能力,它不再只是处理数据的工具,而是能够像人类一样感知真实世界、理解复杂因果的“数字投资专家”。对于资管投资经理而言,多模态模型意味着我们可以处理的数据边界被无限拓宽了。从单纯的“读文本”,进化到“看懂K线”、“听懂情绪”、“看透实体”,这将极大地提升投研的颗粒度和风控的敏锐度(如下图25)

图25:资管行投资智能进化示意图

8、推理 (Inference)

官方定义:在人工智能与大模型领域,推理是指训练完成的模型,接收输入数据(文本/Token/向量),不进行参数更新训练,仅通过模型前向计算,输出语义理解、逻辑判断、答案生成、预测结果的过程;是模型从已有知识 + 输入信息,经过逻辑演算得到新结论的运行过程

要点拆解:

1、基础:基于给定的输入和内部知识;

2、过程:涉及逻辑推导、因果分析、多步计算等心智操作;

3、目标:产生新的、非直接复现的结论或输出;

4、体现:模型智能的核心高级能力。

图26:资管行大模型推理的通用过程图

通俗理解(资管视角):把AI的推理过程想象成一个学生解答一道复杂的应用题,或者一个侦探根据线索破案在资产管理中:就像一位分析师,看到“美联储加息”和“公司高负债”两条信息,不是简单罗列,而是推导出“该公司融资成本可能上升,利润空间受压”的结论。(如下图27)

图26:资管行业AI推理示意图

特点:逐步性与链式思考、依赖高质量知识、可解释性的挑战、计算成本高、涌现能力等。

场景(资管视角):宏观事件影响推理、财务异常侦测与归因推理、合规审查中的逻辑、合同条款冲突检测、信用风险评估、业绩归因下面以宏观事件影响推理场景为例子,来说明资产管理行业AI推理的过程(如下图28)

1、场景:宏观事件影响推理(思维链推理示例)

任务:分析“主要产油国宣布意外减产”这一事件对全球市场和特定资产的可能影响。

2、AI推理过程(显式思维链)

第一步(直接影响):事件→原油供应减少→如果需求不变,则原油价格可能上涨

第二步(传导至宏观):油价上涨→推高全球能源成本→加剧通货膨胀压力→可能导致各国央行维持更高利率更长时间

第三步(对资产类别的传导):

  • 股票:利率预期上升打压估值,尤其是成长股;但能源板块直接受益。推断:股市整体承压,结构分化;
  • 债券:通胀和利率预期上升→债券价格下跌,收益率上行;
  • 外汇:产油国货币(如加元)可能因贸易条件改善而走强;
  • 另类:通胀环境可能利好黄金等抗通胀资产。

第四步(具体投资建议推理):对于持有大量科技股(成长股)的投资组合,此事件构成风险;应考虑对冲(如增配能源股、减仓长久期债券)。

图28:资管行业宏观事件影响推理示意图

本质:大模型在接收到输入后,通过其神经网络中复杂的非线性变换和注意力机制,激活并组合相关的知识片段,沿着隐式的逻辑路径,对信息进行重组、推断和深化,从而模拟人类从已知到未知的思维飞跃过程。它是信息从“存储”到“运用”的关键一跃(如下图29)

图28:资管行业非线性变换和注意力机制推理示意图

小结:推理让大模型从“复读机”进化为“分析师”,它把隐性的知识关联显性化为可追溯、可审计的逻辑链;在资产管理中,这是AI从“信息摘要”跨越到“风险推演、业绩归因、冲突检测”等专业高阶研判的认知分水岭(如下图30)

图30:大模型推理主要方式意图

9、Prompt 提示词

官方定义:用户输入给大语言模型(LLM)的文本指令或上下文信息,用于引导、约束和塑造模型的输出。它本质上是一种人机交互的接口设计,通过精心构造的文本,将用户的意图、任务要求、背景知识、输出格式等传达给模型,从而激发模型产生符合期望的响应

要点拆解:

1.角色:人机交互的核心接口,是用户控制模型行为的主要手段;

2.内容:可以是问题、指令、对话历史、示例、知识片段等任意文本;

3.目的:引导模型激活相关知识、遵循特定逻辑、采用指定风格或格式进行生成;

4.重要性:Prompt的质量直接决定模型输出的准确性、相关性和可用性。

Prompt 提示词工程的核心:在于通过精心设计和预先调试的提示词,引导大语言模型(LLM)在回答用户问题时产生更加精确和符合预期的回复。这一技术通过在用户提问时,将预设的提示词与用户的具体问题相结合,构建出一个完整的查询语句提交给大模型。这些提示词中包含了明确的指令和约束条件,旨在限制和导向大模型的内容生成过程,使其输出能够紧密贴合用户的实际需求或特定的业务逻辑。简而言之,提示词工程就像是为大模型提供了一个“答题模板”,教会它如何按照既定的规则来回答问题(如下图31)

值得注意的是,Prompt提示词工程通常不会单独使用,而是会与其他高级应用框架(如RAG检索增强生成、Agent智能体等)相结合,共同发挥作用。这些框架能够进一步增强大模型的理解能力、信息检索能力和交互能力,从而在资产管理和财富管理领域实现更加智能化和个性化的服务体验。通过不断优化提示词设计和应用框架的整合,资产管理和财富管理领域可以为用户提供更加精准、高效和贴心的服务体验。

图31:Prompt 提示词工程架构示意图

通俗理解(资管视角):可把Prompt想象成给一位极其聪明但需要明确指引的实习生下达的工作指令单。在资产管理中:就像给研究助理的任务简报。模糊的指令是:“分析一下特斯拉”,而精准的Prompt是:“请以买方分析师视角,从竞争优势、财务健康度、估值水平和主要风险四个维度,用500字摘要分析特斯拉(TSLA)股票,要求引用最新季度财报数据,并避免使用未来时态的预测(如下图32)

图32:Prompt 提示词生成报告示意图

特点:模型行为的首要控制器、成本与性能的调节器、“垃圾进,垃圾出”、高度依赖技巧与经验、可迭代与优化等。

场景(资管视角):宏观事件结构化分析(少样本+结构化提示)、公司财务异常侦测(思维链提示)、生成合规的投资建议话术(角色扮演+系统提示)下面以宏观事件结构化分析场景为例子,来说明资管行业使用Prompt提示词的过程

1、场景:宏观事件结构化分析(少样本+结构化提示)(如下图33)

2、任务:每日快速生成重大宏观事件的结构化分析卡片。

3、低效Prompt:“分析一下美国非农就业数据。”

4、高效Prompt设计: 请根据以下示例的格式….,分析最新发布的【美国非农就业数据】。

5、模型严格遵循给定结构,输出信息完整、格式统一的分析卡片,可直接用于内部晨报。

图33:宏观事件结构化分析(少样本+结构化提示)示意图

本质:Prompt是将非结构化的用户意图,编译为模型可精确执行的条件指令。它是大模型时代的新“编程语言”,只不过代码变成了自然语言。

原理:Prompt通过激活模型内部的特定知识通路,来左右下一个Token的预测。简单说,模型内部的知识图谱错综复杂,Prompt就是一束探照灯,只照亮你需要的那条逻辑路径。你给的提示越具体,被点亮的通路就越窄、越精准,输出也就越可控(如下图34)

图34:Prompt是将非结构化的用户意图示意图

小结:Prompt 提示词就是给大模型下达的标准化工作指令,通过设定角色、任务、规则和输出格式,不用训练模型就能精准控制 AI 的身份、口径和输出质量,是资管行业低成本落地大模型应用最基础、最高效的手段(如下图35)

图35:Prompt工程核心方式示意图

10、参数量

官方定义:构成深度学习模型中可学习权重的总数。这些参数包括神经网络各层之间的权重矩阵、偏置项等,是模型存储和处理信息的基本载体。参数量通常以“亿”或“十亿”为单位,直接决定了模型的表达能力、资源消耗和部署成本。

要点拆解:

1.构成:主要是权重和偏置;

2.位置:存在于模型的各个层(如Transformer块中的注意力层和前馈层);

3.作用:存储模型学到的知识,决定模型如何处理输入并产生输出;

4.训练:通过海量数据训练,不断调整这些参数的值,使模型的预测误差最小化(如下图36)

图36:参数量与模型能力关系图谱

通俗理解(资管视角):可把模型的参数量想象成它大脑中“神经元连接”的数量,或者一本“百科全书”的详细程度和词汇量。在资产管理中:一个拥有少量参数的模型,可能只能理解“股价上涨”和“财报利好”之间的简单关联。而一个拥有海量参数的模型,则能理解“某地区地缘政治紧张→大宗商品供应链扰动→特定行业成本上升→影响公司利润率→最终传导至估值模型调整”这一长串复杂、非线性的逻辑链条(如下图37)

图37:模型参数量和资产管理逻辑关联示意图

特点:衡量模型规模与容量的核心指标、与计算成本强相关、“涌现能力”的触发点、并非唯一决定因素等。

场景(资管视角):合规规则引擎、标准合同条款提取、客服意图识别、研报摘要、舆情情感分析、中等复杂度的报表生成、深度研报复述、多文档交叉分析、复杂合规逻辑判断等(如下图38)

图38:使用场景与举例(资产管理)

本质:参数量是模型“记忆”和“规律”的物理载体容量。它衡量的是模型能从数据中编码多少模式、关系、概念和推理路径。

原理:模型训练的过程,本质就是不断调整这数十亿、数千亿个参数的值。每个参数像一个微小的“调光旋钮”,影响着两个虚拟神经元之间的连接强度。当所有旋钮被调整到恰当的数值,模型就能“理解”和“生成”语言。在资管领域,这些参数中编码了金融术语的语义、市场历史规律、合规条款的逻辑关系等。

小结:参数量就是大模型的大脑脑细胞总数,决定模型知识储备、专业理解和逻辑推理上限;参数越大能力越强、成本越高,资管业务按场景选小、中 、 大参数模型,够用不浪费(如下图39)

图39:参数量如何影响结果示意图

以张大模型服务务即:大模型选型图来结束本文(如下图40)

图40:大模型选型图

好了,就写到这里了,欢迎私信、评论和留言一起交流、一起进步

本文由人人都是产品经理作者【围炉喝茶聊产品】,微信公众号:【围炉喝茶聊产品】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!