爱奇飞网

网站首页数码科技 >正文

新的Zephyr-7BLLM微调Mistral-7BAI模型击败Llama270B

开心的月饼 2023-10-31 09:03:10 数码科技

HuggingFace上发布了新的Zephyr-7B人工智能模型,人工智能世界见证了另一个非凡的里程碑。这种创新模型是原始Mistral7B的微调后继者,即使在未经审查的情况下,它也成功地超越了更大的700亿参数模型。该公司还发布了一份全面的技术报告,详细概述了该模型的训练过程。在这里尝试新的Zephyr7BBeta。

新的Zephyr-7BLLM微调Mistral-7BAI模型击败Llama270B

直接偏好优化(DPO)

Zephyr-7B模型采用三步策略进行训练。第一步涉及使用UltraChat数据集进行蒸馏监督微调。该数据集包含由GPT3.5Turbo生成的147万个多重对话,经过严格的清洗和过滤过程,仅留下20万个示例。蒸馏监督微调过程涉及师生模型动态,其中GPT3.5等较大模型扮演教师角色,Zephyr-7B充当学生角色。教师模型根据提示生成对话,然后用于微调学生模型Zephyr-7B。

Zephyr-7B击败Llama-270B

训练策略的第二步是AI反馈。此步骤利用UltraFeedback数据集,其中包含64,000个不同的提示。四种不同的模型会生成对每个提示的响应,然后由GP4根据诚实度和帮助性对其进行评级。此过程有助于完善模型的响应,从而提高其整体性能。

训练策略的最后一步是使用由获胜者和失败者创建的数据集来训练另一个模型。这一步骤进一步巩固了Zephyr-7B模型的学习,确保其能够生成高质量、可靠的响应。

Zephyr-7B模型的性能令人印象深刻,优于所有其他70亿模型,甚至更大的模型,如Falcon400亿和Llama2700亿模型。但是,需要注意的是,模型的性能会根据特定任务的不同而有所不同。例如,它在编码和数学等任务上落后。因此,用户应根据自己的具体需求选择模型,因为Zephyr-7B模型可能并不最适合所有任务。

Zephyr-7B法学硕士

Zephyr-7B模型的一个独特之处是其未经审查的性质。虽然它在一定程度上未经审查,但它的目的是在出现提示时建议反对非法活动,确保其响应中遵循道德准则。这方面对于保持模型的完整性和负责任的使用至关重要。

可以使用LMStudio或UABA文本生成WebUI在本地运行Zephyr-7B模型。这为用户提供了在其首选环境中使用模型的灵活性,从而增强了其可访问性和可用性。

Zephyr-7B模型是人工智能领域的重要补充。其独特的训练策略、令人印象深刻的性能和未经审查的性质使其有别于其他模型。然而,其性能因手头的任务而异,因此用户应选择最适合其特定需求的模型。该公司活跃的Discord服务器提供了一个与生成人工智能相关的讨论平台,培育了一个学习和成长的社区。随着人工智能领域的不断发展,Zephyr-7B等模型的未来迭代将会带来什么,这将是令人兴奋的。


版权说明:本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们


标签:

站长推荐
栏目推荐
阅读排行