爱奇飞网

网站首页数码科技 >正文

BloombergGPT500亿参数金融语言AI模型

开心的月饼 2023-10-25 08:58:36 数码科技

今年早些时候,全球领先的金融新闻和信息提供商彭博社推出了其新的金融语言模型,其名称恰如其分:BloombergGPT。一个500亿参数的语言模型,专为金融而构建,并在标准通用数据集和彭博档案中的各种金融文档的独特平衡组合上进行训练。

BloombergGPT500亿参数金融语言AI模型

BloombergGPT的设计和培训是一个复杂且资源密集的过程。该模型旨在预测单词序列中的下一个单词,这是一种用于生成文本的功能。在模型的设计和训练过程中必须做出几个关键决策,包括模型的大小、要使用的数据集和计算基础设施。尽管缺乏关于克服训练大型语言模型挑战的详细信息,但该项目极大地受益于2022年两个项目共享的经验和培训日志。

BloombergGPT的独特之处之一是它使用金融领域的大型数据集。该人工智能模型是根据彭博社的公共和私人数据进行训练的,其中私人数据约占训练数据集的一半。这种对财务数据的关注是有意为之的,因为该模型旨在在一般任务上与其他模型一样执行,但在特定于财务的任务上表现出色。

BloombergGPT金融语言AI​​模型是如何构建的

BloombergGPT金融语言AI​​模型基于约5700亿个代币的训练数据进行训练,其中一半来自金融领域。尽管训练BloombergGPT并非没有挑战。该团队面临训练不稳定和梯度范数问题等问题。此外,该团队选择在更大的数据集上训练模型,而不是在更大的模型上训练,这与2022年一篇论文的发现一致,即在更多数据上训练的较小模型表现更好。这一决定给训练过程增加了另一层复杂性。

“彭博社的ML产品和研究小组与该公司的AI工程团队合作,利用该公司现有的数据创建、收集和管理资源,构建了迄今为止最大的特定领​​域数据集之一。作为一家金融数据公司,彭博社的数据分析师在四十年的时间里收集并维护了金融语言文档。该团队从庞大的金融数据档案中提取数据,创建了一个由英文金融文档组成的包含3630亿个代币的综合数据集。

该数据通过3450亿个代币公共数据集进行了扩充,创建了一个包含超过7000亿个代币的大型训练语料库。该团队使用该训练语料库的一部分训练了一个包含500亿个参数的仅解码器因果语言模型。由此产生的模型在现有的金融特定NLP基准、一套Bloomberg内部基准以及来自流行基准的广泛通用NLP任务(例如BIG-benchHard、知识评估、阅读理解和语言任务)上进行了验证。值得注意的是,BloombergGPT模型在金融任务上的表现远远优于现有的类似规模的开放模型,同时在一般NLP基准上的表现仍然相当或更好。”

评价及结果

对金融语言人工智能模型性能的评估显示出有希望的结果。BloombergGPT在一般任务上表现良好,在公共金融任务上表现明显更好。它还对情感分析和命名实体识别等内部挑战进行了测试,结果好坏参半。其显着用途之一是将自然语言翻译为彭博查询语言(BQL),这是一种复杂的语言,用于收集和分析彭博终端上的数据,展示了其在金融特定应用程序中的潜在实用性。

尽管在BloombergGPT的训练过程中遇到了挑战,该团队还是建议从较小的模型开始,逐渐发展到更大的模型,以降低风险。他们还建议在开始更大的模型之前先进行较小规模的实验,以更好地了解变化的影响。

展望未来,该团队正在考虑改进BloombergGPT的几个方向。其中包括调查他们在训练过程中是否对稳定性过于谨慎,是否可以微调开源模型而不是从头开始训练新模型,以及如何弥合生成文本的模型和直接生成文本的模型之间的差距回答问题。

BloombergGPT的发展代表了大语言模型在金融领域应用的一个重要里程碑。尽管在训练过程中遇到了挑战,但该模型在金融特定任务上的表现凸显了其改变金融数据处理和分析方式的潜力。随着团队不断完善和改进模型,我们预计未来将看到BloombergGPT的更多创新用途。要了解有关专门为金融研究和分析创建的大型语言模型的开发的更多信息,请跳转到官方论文。


版权说明:本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们


标签:

站长推荐
栏目推荐
阅读排行