技术· 论 | 大语言模型金融领域落地的问题与实践

2023-06-01

图片


导语

近日,iWudao吾道科技首席架构师向俊夫受邀参与了由华为昇思和杭州人工智能计算中心联合主办的MSG企业行暨杭州开发者日活动,并发布主题为《大语言模型金融领域落地的问题与实践》的演说,受到了参会者的广泛关注。


演说大纲--

l 大语言模型的常见限制

l 大语言模型落地金融领域的挑战及问题

l 大语言模型落地的可行性方案

l 大语言模型金融领域落地实践


1686815485623615.jpg



最近,随着ChatGPT的推出及出圈,大语言模型像是横空出世般占据了大家的视野,并且几乎统一了NLP任务,在各项任务上都表现优异,而自其公布后,国内外多家公司都相继推出了自己的大语言模型产品,每一天相关的应用层出不穷,都在不断刷新大家的认知。但今天,我们聚焦的不是大语言模型出色的智能性,而是如何准确看待大语言模型并让其更合理地落地金融领域。


以下是此次演讲的重点内容:


大语言模型的常见限制


一是一本正经的胡说八道,拿ChatGPT来说,它的回答总会出现一些事实性错误,如让其介绍吾道科技这家公司,它给的答案几乎找不到正确的句子。二是时效性问题,当你问它一些时效性强的问题,比如2022年有一些什么重大的金融新闻,它的回答可能就因为数据量不充足而无法令人信服了。三是复杂推理能力不足,就拿下面简单的放水进水问题来说,它的回答也是不尽如人意。


1.png


大语言模型的落地挑战及问题


如何确保模型生成的答案可靠,将是ChatGPT这类生成式大语言模型落地金融领域的巨大挑战,毕竟金融行业涉及太多的信息与数据,对模型的准确性和可解释性要求严格,而大语言模型背后的现有技术都有太多不确定性,这便导致当下想要在金融领域全盘落地大语言模成了一种妄想。


除此之外,还有一些问题需要引起我们的注意:

 

一是数据安全性。最近三星机密资料外泄一事闹得沸沸扬扬,起因是员工将数据私自上传到了ChatGPT,而随着事件的发酵,多国因数据安全问题限制或暂时“封杀”了ChatGPT。另一方面,金融领域对于自有数据的保护是很缜密的,一旦需要公开或者交给第三方使用,这就要牵扯出太多的问题了。


二是训练、调用成本太高。大语言模型的训练成本是很高的,此前GPT-3的训练成本已达数百万美元,而GPT-4的训练成本还要更甚,高达数亿美元,这样的价格让无数中小企业望而却步。那调用别人已经推出的产品呢?下面是GPT-4的调用成本及使用成本:


2.png


从图上我们可以看出,虽然单个模型一次的使用价格就几美分,但是放到现实使用场景里,例如处理上百份长达数百数千页的投资报告,这笔花费就不菲了。


三是版权问题。首先是与大语言模型相关的代码,这个是最好解决的,因为我们可以根据框架自己写;其次是预训练模型的权重,这也是在使用过程中最难处理的;最后是训练模型所使用的数据,解决这个问题的方法最好的便是使用自有数据。


大语言模型落地的可行性方案


在这里,我将介绍三种可行的落地方案:


一是Retrieval-Augmented LLM。当我们拥有经过校对和历史累计的精准数据库时,基于大语言模型强大的语言理解能力,可以利用它将用户的指令翻译成“需对接数据库中的哪些数据源”,再依此将用户的需求与自有数据库相链接,这样就很便利的让用户与系统做出交互,也提高了系统匹配用户需求的精确性。


二是本地化训练部署。基于开源的小规模且license允许的大模型,利用自己领域内的数据对其进行微调。本地化部署微调后的模型,无需联网,也无需发送私有数据到公共服务平台,让数据完全在可控范围内。这一举措实际是用有限的资源获得并使用领域能力更强的模型。


三是辅助数据标注。垂直领域往往有大量历史累积数据,我们可以利用公开大模型生成部分标注,之后再通过专人精校,便可得到高质量的领域训练数据。


大语言模型金融领域落地实践


一是把大模型的能力融合进数据处理工作流,不执着于对话类场景和一站式傻瓜式解决方案,而是发挥大语言模型出色的语言理解优势去融入既有流程,把其看作流程中的一环,让其助力识别意图并完善prompt的上下文从而获得足够的精确性。为什么要这么做呢?因为大语言模型本身并不能提供可靠的信息查询,所以需要利用外部的工具来获取可靠的数据,但我们可以利用大语言模型来协助生成外部数据的查询接口。


3.png

创投新闻解析实践


4.png

Text2API实践

5.png

知识图谱构建实践


二是应用落地,利用大语言模型,在金融领域我们可以设计“智能投资工具”,因其优秀的语言理解能力和生成能力,可轻松通读案头上的所有BP,对标同行的投资事件,提炼并比对投资价值;也可设计“投行智能备忘录”,结合同行案例、历史同类型项目的监管问题,以及手头项目的质地,提供潜在的监管问询,甚至提供答案,大语言模型还能轻松归纳要点或摘要,整合成列表或表格形式。

以上便是此次演讲的全部内容。