爱奇飞网

网站首页数码科技 >正文

语言模型的发展和演变一直是人工智能领域的一个重要领域

开心的月饼 2023-10-13 09:11:05 数码科技

语言模型的发展和演变一直是人工智能领域的一个重要领域。Llama2就是其中一个引起关注的AI模型,它是原始Llama模型的更新版本。Llama2背后的开发团队Meta在改进模型功能方面取得了重大进展,重点关注开源工具和社区反馈。本指南提供了有关Meta如何创建Llama2的更多详细信息,深入研究了Llama2的开发、功能和潜在应用,深入介绍了大型语言模型的进步。感谢巴黎MetaAIResearch专注于机器翻译的研究科学家AngelaFan的演讲。

语言模型的发展和演变一直是人工智能领域的一个重要领域

Llama2是在社区的反馈和鼓励下开发的。该模型背后的团队对开发过程保持透明,强调开源工具的重要性。这种方法允许更具协作性和包容性的开发过程,培养围绕项目的社区意识。

Meta如何开发Llama2

Llama2的架构与原版类似,使用标准的基于Transformer的架构。然而,新模型具有三种不同的参数大小:70亿、130亿和700亿个参数。700亿参数模型提供最高的质量,但70亿参数模型速度最快、体积最小,因此在实际应用中很受欢迎。参数大小的这种灵活性允许针对不同的用例采用更定制的方法。

Llama2的预训练数据集使用了在互联网上找到的2万亿个文本标记,主要是英语,而Llama1中的文本标记为1.4万亿。数据集大小的增加允许更全面和多样化的语言模式以及要合并到模型中的结构。Llama2中的上下文长度也从Llama1中的2,000个令牌扩展到大约4,000个令牌,从而增强了模型处理更长、更复杂对话的能力。

Llama2的训练过程涉及三个核心步骤:预训练、微调以使其成为聊天模型,以及人类反馈循环以针对有益和无害产生不同的奖励模型。该团队发现高质量的数据集注释对于实现高质量的监督微调示例至关重要。他们还使用拒绝采样和近端策略优化技术来通过人类反馈进行强化学习。这种迭代改进过程显示了安全性和有用性指标的线性改进,表明可以同时改进这两个方面。

Llama2背后的团队还进行了自动和人工评估,对大约4,000个不同的提示进行了有用性评估,对2,000个提示进行了无害性评估。然而,他们承认,人类的评估可能是主观的,尤其是当对提示有许多可能有价值的反应时。他们还强调,用于评估的提示的分布会严重影响评估的质量,因为人们关心各种各样的主题。

人工智能模型

Llama2是作为竞争模型推出的,其性能明显优于Falcon或Llama1等开源模型,与GPT3.5或Palm等模型具有相当的竞争力。该团队还讨论了“时间感知”的概念,即为模型提供其知识的截止日期,然后询问有关该日期之后事件的问题。此功能使模型能够提供更准确且与上下文相关的响应。

尽管Llama2取得了进步,但该团队承认该领域仍有许多悬而未决的问题有待解决。其中包括有关模型幻觉行为的问题、模型更加真实和精确的需求,以及有关可扩展性和所使用数据类型的问题。他们还讨论了使用Llama2作为评估其他模型性能的评判者,以及使用该模型评估自身的挑战。

微调

该团队还提到,他们尚未发布监督微调数据集,并且模型对API的访问是模拟的而不是真实的。他们指出,该模型的工具使用不是特别稳健,在这方面需要做更多的工作。然而,他们还讨论了语言模型作为写作助手的潜在用途,建议根据模型的预期用途来调整微调策略和数据域。

Llama2代表了大型语言模型开发的重要一步。其改进的功能,加上团队对开源工具和社区反馈的承诺,使其成为适用于各种应用程序的有前途的工具。然而,与任何技术一样,继续完善和改进模型、解决仍然存在的挑战和悬而未决的问题非常重要。像Llama2这样的大型语言模型的未来是光明的,看到它们如何继续发展和塑造人工智能领域将是令人兴奋的。


版权说明:本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们


标签:

站长推荐
栏目推荐
阅读排行