Meta 如约发布 Llama3.1 405B 模型
Meta 上周如约正式发布了 Llama3.1 版本模型,与泄露的内容一致包含8B、70B、405B 三个型号。
提供了更好的推理能力、更大的 128K token 上下文窗口,并改进了对8种语言的支持等其他改进。
405B 可以在多项任务上可以与领先的闭源模型竞争。还更新了许可证,允许开发者用 Llama 模型的输出,包括 405B 来改进其他模型。
405B对Meta确实很重要,以至于小扎还发布了一个对应的声明来介绍Meta的开源优势。
他认为开源人工智能(如 Llama 3.1)是未来发展的正确道路,它能够促进 AI 技术的更广泛的应用和创新,同时也有助于 Meta 保持技术领先地位和商业模式的可持续性。
Llama 3.1 405B 的第三方评估结果也都出来了:
SEAL 和 Allen AI 的 ZeroEval 两个独立评估机构给出了自己的结果,405B 确实。
SEAL 上405B指令遵循第一、代码第四、数学第二。ZeroEval 测试它整体性能介于 Sonnet 3.5 和 GPT4o 之间。
同时从技术报告论文来看,Llama 使用了非常多的合成数据来帮助训练模型:
- 代码的监督微调 (SFT for Code):405B 模型采用了 3 种合成数据方法来提升自身的代码能力,包括代码执行反馈、编程语言翻译和文档反向翻译。
- 数学的监督微调 (SFT for Math):使用了多种方法包括从数学背景中获取相关的预训练数据,并将其转换为问答格式,以用于监督微调;使用Llama 3来生成一组提示的逐步解决方案;训练结果和逐步奖励模型,以过滤其中间推理步骤错误的训练数据;提示Llama 3通过结合文本推理和相关的Python代码来解决推理问题;为了模拟人类反馈,我们利用不正确的生成进行训练,并进一步通过提示Llama 3来消除这些错误。
- 多语言能力的监督微调 (SFT for Multilinguality):”为了收集更高质量的非英语语言人工标注,我们从预训练过程中分出一个分支,继续在由 90% 多语言标记 (tokens) 组成的数据混合集上进行预训练,以此来培养一个多语言专家模型。”
- 长文本处理能力的监督微调 (SFT for Long Context):主要依靠合成数据来解决超长上下文训练的需求。长上下文预训练使用了8000亿(B)个Token,分为6个阶段,并有一个退火阶段。**使用早期版本的 Llama 3 来生成基于关键长文本处理场景的合成数据,包括多轮问答、长文档摘要和代码库推理。”
- 工具使用能力的监督微调 (SFT for Tool Use):针对 Brave Search、Wolfram Alpha 和 Python 解释器(一个特殊的新 ipython 角色)进行了训练,以实现单一、嵌套、并行和多轮函数调用的能力。
- 基于人类反馈的强化学习 (RLHF):大量使用了基于 Llama 2 生成结果的直接偏好优化 (DPO) 数据。

Win 11系统之家