现代社会最先进的人工智能模型:LLM(大型语言模型)
作者:人工智能团队负责人 Donghwan Lee 和人工智能专家 Scarlett Bae
纵观人工智能模型的历史发展,从早期基于规则的系统到今天像 GPT-3 和 GPT-4 这样高度先进的模型,其演变过程确实令人瞩目。人工智能从简单的基于规则的方法开始,通过机器学习不断进步,并发展到深度学习,这一切都要归功于技术的进步和大规模数据访问的改善。如今,人工智能已成为许多行业的重要组成部分。
在人工智能的最新进展中,最突出的技术无疑是大型语言模型(LLM)。LLM 是在海量文本数据集上训练的深度神经网络模型,使其能够理解和生成人类语言。这些模型能够从包含数十亿甚至数万亿单词的数据集中学习,从而掌握文本中的复杂关系和上下文。
虽然 LLM 通常被视为人工智能的一个分支,但它们仍然会给人抽象和难以理解的感觉。从数学上讲,它们可以被视为 "由无数非线性回归模型组成的复杂系统"--这本质上就是深度学习模型。当与擅长捕捉文本中长距离依赖关系的转换器架构相结合时,这些系统就会演变成能够进行类似人类自然对话的大型语言模型。
[图 1. 神经网络模型和非线性回归模型]
法律硕士的局限性以及如何克服这些局限性
大型语言模型 (LLM) 的优势显而易见。大型语言模型具有卓越的自然语言处理能力,可应用于从文档分析、客户支持到内容创建等广泛领域。在大量学习数据的支持下,它们的灵活性和可扩展性首屈一指。
然而,尽管有这些优势,LLM 也有明显的局限性。其中一个问题是幻觉--产生错误或捏造的信息。其他问题包括缺乏特定领域的专业知识,以及在进行复杂推理时面临挑战。在精算学等对准确性和可靠性要求极高的领域应用 LLM 时,这些局限性会带来巨大风险。基于不准确信息的结果可能会损害财务稳健性,导致违反监管规定,并破坏信任。
为了解决这些问题,在高风险环境中采用 LLM 之前,必须对能够清晰呈现基于事实的知识和逻辑结构的方法进行研究。
解决方案 1:RAG(检索-增强生成)
克服 LLM 局限性的最有前途的方法之一是检索-增强生成(RAG)。RAG 允许 LLM 实时从外部知识源检索信息(检索),利用这些数据增强其响应(增强),最后生成更准确的输出(生成)。与完全依赖预先训练参数的传统 LLM 不同,RAG 通过引用可信的外部来源,大大提高了准确性和可信度。
下面我们来详细了解一下 RAG 的工作原理:
查询:用户输入问题或请求。
检索:系统根据查询搜索知识库中与语义相关的信息。
增强:检索数据与原始查询相结合,作为答案生成模型的输入。
生成:模型利用丰富的输入信息生成最终响应。
总之,RAG 提供了一种减少幻觉的结构化方法,是一种高效而现实的框架。它不仅是 LLM 弱点的补丁,还是构建可信人工智能系统的基础技术。这使得 RAG 特别适用于精算工作,因为在精算工作中,精确度和可信度是最重要的。
[图 2:RAG 流程和检索方法]
解决方案 2:数据集--文档格式化
最重要的是,数据集是任何人工智能项目取得成功的最关键因素。数据的质量直接决定了人工智能系统的性能。在保险行业,已经有公司在人工智能系统上投入巨资,但却未能达到预期效果的案例。
其中一个关键原因是文件格式。许多包含保险公司数据的文档并不是以机器可读的格式创建的。这不仅仅是指错别字或语法错误,而是指文档的结构往往没有经过优化,人工智能无法理解。由于文档质量对于通过人工智能提高精算生产力至关重要,因此解决需要改革的三种过时的文档做法至关重要。
首先:摒弃基于 PDF 的文档
PDF 是为印刷而设计的,而不是为机器解读而设计的。虽然对于人类读者来说,PDF 的视觉效果是清晰的,但对于机器来说,PDF 的结构往往是模糊的。人们曾尝试使用 OCR(光学字符识别)和视觉转换器等技术来分析 PDF,但这些方法在准确性方面仍然存在局限性,而且需要花费大量时间和成本进行前处理和后处理。
相比之下,.docx、.tex、.html 和 .md(Markdown)等格式都是基于文本的全球公认标准,人工智能可以准确解析。值得注意的是,微软的开源 "Markitdown "项目正由一个全球贡献者社区积极开发,因此非常适合各种保险文档需求。
如果您的企业仍在使用非标准或特定国家的文字处理器,就很有可能在向人工智能集成转变的过程中落后。必须开发内部工具,将这些文档转换为机器可读格式,或者在全公司范围内尽快过渡到标准格式。
第二:使用 LaTeX 或 KaTeX 代替基于图像的方程式
在精算工作中,经常会出现复杂的数学公式。然而,许多文件仍然将这些公式嵌入图像中。问题出在哪里?人工智能系统无法读取基于图像的公式。虽然 OCR 技术可以提供一定的识别率,但往往缺乏准确性,而且会增加处理成本。
明确的解决方案是使用基于 TeX 的语法(如 LaTeX 或 KaTeX)来书写公式。即使一个公式在视觉上看起来是正确的,但如果它缺乏正确的内部语法,人工智能也无法解释它--这是典型的 "垃圾进,垃圾出 "的情况。KaTeX尤其值得推荐。它能在网页浏览器中快速渲染,即使是非技术用户也能轻松学会,因此非常适合在整个组织范围内采用。
第三:避免用表格格式化整个文档
有些文档使用表格来管理布局。虽然这在人类读者看来可能很整洁,但对于人工智能来说,这几乎等同于加密文件。表格掩盖了文档的语义结构,如标题、段落和章节,这使得人工智能很难掌握上下文。
特别是当标题、副标题和说明都放在表格单元格中时,人工智能就很难区分和理解文档的核心信息。相反,应使用文字处理器内置的语义格式工具,如标题样式、段落和要点。这不仅能提高人工智能的可读性,还能增强文档的可搜索性和长期可维护性。
保险公司拥有庞大的数据资产。但是,除非这些数据以机器可读的格式呈现,否则其价值就无法实现。
向人工智能的转变不仅仅是采用新技术的问题。它需要战略转型--规范信息结构,创建人类和机器都能理解的文件。
现在是审查内部文档做法的时候了。取消 PDF 和基于图像的公式,采用人工智能友好的文档结构。人工智能实施的真正起点不是算法,而是文档。
解决方案 3:本体论
在精算科学中,建立本体论是至关重要的一步。本体涉及明确定义和构建关键概念和术语,使人工智能系统能够更好地理解和处理信息。在精算领域,本体能显著提高数据互操作性和结构理解能力,从而做出更准确、更及时的决策。
本体系统地定义了特定领域内的概念和关系,例如保险产品结构、精算/统计/财务技术、法律和会计法规以及公司内部规则和手册。将这些结构化知识嵌入知识图谱后,大型语言模型(LLM)就能以更高的精度、更好的上下文理解和改进的推理能力对相关信息做出响应。
例如,如果用户询问如何计算特定保险产品的准备金,法律知识管理器可以利用知识图谱综合相关法规、数学方法和类似产品案例,从而生成可靠的回复。与此同时,它还能直观地展示答复所依据的概念和数据点,从而提高透明度和用户信任度。
[图 3.假设癌症保险产品的知识图谱示例]
要在实践中应用这些技术,精算师、数据科学家和人工智能工程师之间的密切合作至关重要。采用分阶段的方法来构建本体和知识图谱至关重要。同样重要的是开发提取和更新关系的自动化技术,以及设计连接大型语言模型(LLM)和知识图谱的集成系统。
RNA Analytics 公司人工智能实验室负责人 Donghwan Lee 强调说:"LLMs 有潜力大幅提高精算工作的效率和可及性,但确保其可靠性对于安全采用至关重要。他补充说:"高质量的数据、标准化的文档结构、本体论和知识图谱是克服人工智能当前局限性并推动精算流程真正转型的关键要素。"
人工智能在精算学中的应用不再仅仅是试验性的。它正在演变为一种战略转变,通过结构合理的知识框架和集成系统设计,实现真正的自动化和更高的信息准确性。