700 亿参数 LLaMA2 磨炼减速 195%，根基大模子最佳实际再降级-のうにんじゅんな(能仁纯菜)网

ChatGPT 激发的亿参大模子热潮愈演愈烈，全天下科技巨头以及明星独创争相入局，数L实际打造以 AI 大模子为中间的磨炼相助力以及多样化商业运用需要。其中 LLaMA 系列模子，减速级因精采的根基根基能耐以及凋谢生态，已经积攒了海量的大模用户以及实际运用案例，成为有数开源模子其后者的最佳再降模拟以及相助的标杆工具。

但若何飞腾类 LLaMA2 大模子预磨炼老本，亿参若何基于 LLaMA2 经由不断预磨炼以及微调，数L实际低老本构建 AI 大模籽实际运用，磨炼仍是减速级 AIGC 相关企业面临的关键瓶颈。

作为全天下规模最大、根基最沉闷的大模大模子开拓工具与社区，Colossal-AI 再次迭代，最佳再降提供开箱即用的亿参 8 到 512 卡 LLaMA2 磨炼、微调、推理妄想，对于 700 亿参数磨炼减速 195% ，并提供一站式云平台处置妄想，极大飞腾大模子开拓以及落地运用老本。

开源地址：https://github.com/hpcaitech/ColossalAI

LLaMA2 磨炼减速 195%

Meta 开源的 LLaMA 系列大模子进一步激发了打造类 ChatGPT 的激情，并由此衍生出了诸多名目以及运用。

最新的 7B~70B LLaMA2 大模子，则进一步后退了语言模子的根基能耐。但由于 LLaMA2 的预磨炼预料大部份来自英文通用知识，而仅用微调可能提升以及注入的规模知识以及多语言能耐也相对于有限。此外，高品质的业余知识以及数据集个别被视为各个行业以及公司的中间资产，仅能以私有化方式保存。因此，以低老本预磨炼 / 不断预磨炼 / 微调 LLaMA2 系列大模子，散漫高品质私有化营业数据积攒，辅助营业降本增效是泛滥行业与企业的急切需要与瓶颈。但 LLaMA2 大模子仅宣告了原始模子权重与推理剧本，不反对于磨炼 / 微调，也未提供数据集。

针对于上述空缺与需要，Colossal-AI 开源了针对于 LLaMA2 的全流程妄想，并具备高可扩展性，反对于从 70 亿到 700 亿参数的模子，从 8 卡到 512 卡均可坚持精采的功能。

在运用 8 卡磨炼 / 微调 LLaMA2-7B 时，Colossal-AI 能抵达约 54% 的硬件运用率（MFU），处于业界争先水平。而对于预磨炼使命，以运用 512 张 A100 40GB 预磨炼 LLaMA2-70B 为例，DeepSpeed ZeRO3 策略因显存缺少而无奈启动，仅能经由速率衰减较大的 ZeRO3-offload 策略启动。而 Colossal-AI 则因卓越的零星优化以及扩展性，仍能坚持精采功能，磨炼提速 195%。

Colossal-AI LLaMA-2 磨炼 / 微调妄想的高功能源头于新的异构内存规画零星 Gemini 以及高功能算子（搜罗 Flash attention 2）等零星优化。新 Gemini 提供了高可扩展性，高鲁棒性，高易用性的接口。其 Checkpoint 格式与 HuggingFace 残缺兼容，减小了运用以及转换老本。其对于切分、offload 等的配置愈加锐敏且易用，可能拆穿困绕更多硬件配置装备部署下的 LLaMA-2 磨炼 / 微调使命。仅需数行代码即可运用：

from colossalai.booster import Boosterfrom colossalai.booster.plugin import GeminiPluginplugin = GeminiPlugin ()booster = Booster (plugin=plugin)model, optimizer, train_dataloader, criterion = booster.boost (model, optimizer, train_dataloader, criterion)

ShardFormer 多维细粒度并行

尽管对于主流硬件条件以及大少数模子，Colossal-AI 的新 Gemini 已经可能提供精采的功能。可是对于一些极其硬件条件，概况黑白凡模子，可能依然需要多维并行的细粒度优化。现有其余妄想个别需要扩散式零星资深专家，手动对于代码妨碍大规模重谈判调优，Colossal-AI 的 ShardFormer 提供了开箱即用的多维并行以及算子优化的能耐，仅需数行代码即可运用，在单机 / 大规模集群上都能提供精采的功能。

from colossalai.booster import Boosterfrom colossalai.booster.plugin import HybridParallelPluginfrom transformers.models.llama import LlamaForCausalLM, LlamaConfigplugin = HybridParallelPlugin (tp_size=2, pp_size=2, num_microbatches=4, zero_stage=1)booster = Booster (plugin=plugin)model = LlamaForCausalLM (LlamaConfig ())model, optimizer, train_dataloader, criterion = booster.boost (model, optimizer, train_dataloader, criterion)

Colossal-AI ShardFormer 反对于搜罗 LLaMA1/二、BLOOM、OPT、T五、GPT-二、BERT 、GLM 在内的主流开源模子，也可能直接运用 Huggingface/transformers 模子导入，Checkpoint 格式也与 HuggingFace 残缺兼容，比力 Megatron-LM 等需重写大批代码的妄想，大大提升了易用性。

对于并行策略，已经反对于如下多种并行方式：张量并行、流水线并行、序列并行、数据并行、Zero 数据并行等，并可将多种并行方式组合运用，惟独经由重大的配置装备部署命令，即可适配种种重大的硬件情景 / 模子。同时，其内置了种种高功能算子，免去了啰嗦的兼容 / 配置装备部署历程。其中搜罗：

Flash attention 2
Memory efficient attention (xformers)
Fused Normalization Layer
JIT kernels

云平台大模子一站式处置

为了进一步提升开拓以及部署功能，Colossal-AI 团队还将上述零星优势与算力散漫，提供 Colossal-AI 云平台，提供重价算力以及开箱即用的 AI 主流运用，搜罗对于话大模子，多模态模子，生物医药等，现已经开启内测。

经由屏障大模子底层的扩散式并行合计、内存、通讯规画与优化等，AI 开拓者可能不断专一于 AI 模子与算法妄想，以更低老本更快捷率实现 AI 大模子助力营业降本增效。

用户惟独要上传相关数据，即可无代码磨炼特色化私有模子，并将磨炼好的模子一键部署。相关的运用都经由 Colossal-AI 团队精心优化，患上益于算法以及零星的双面优化，能大大飞腾模子磨炼以及部署的老本。

Colossal-AI 云平台：platform.luchentech.com

Colossal-AI 开源地址：https://github.com/hpcaitech/ColossalAI

参考链接：https://www.hpc-ai.tech/blog/70b-llama2-training