2024 年 1 月 8 日,Mistral AI——一群从 Meta、DeepMind 出走的法国研究者——发布 Mixtral 8x7B。它是第一个流行的开源 Sparse MoE 大语言模型——架构和他们之前的 Mistral 7B 相同,区别是每层 8 个前馈块(专家),路由网络每个 token 选 2 个。47B 总参数、13B 激活。32k 上下文、多语言预训练。击败 Llama 2 70B 和 GPT-3.5——尤其在数学、代码、多语言上"大幅超过"。Instruct 版本击败 GPT-3.5 Turbo、Claude-2.1、Gemini Pro。最关键的——Apache 2.0 开源——所有人都能下载、商业使用。MoE 从研究论文变成所有人都能用的工业产品。
2024 年 1 月 8 日,Mistral AI——一家成立于 2023 年 4 月的法国 AI 公司——发布 Mixtral 8x7B。Mistral 的创始人来自 Meta(AI 团队)和 DeepMind,包括 Arthur Mensch(CEO,前 DeepMind)、Guillaume Lample(前 Meta AI)、Timothée Lacroix(前 Meta AI)。Mistral 立志做"欧洲的 OpenAI"——以开源为核心战略。Mixtral 8x7B 是他们第一个 MoE 模型——所有人都能下载、商业使用。这是 MoE 从"前沿公司专属"变成"开源工业品"的转折。
2024 年 1 月 8 日,Mistral AI——一家 2023 年 4 月才在巴黎成立的法国 AI 公司——发布Mixtral 8x7B。arXiv 编号 2401.04088,26 位共同作者。
论文摘要的措辞非常自信——
我们引入 Mixtral 8x7B——
一个 Sparse Mixture of Experts (SMoE) 语言模型。
Mixtral 和 Mistral 7B 架构相同,
区别是每层由 8 个前馈块(即专家)组成。
对每个 token、在每一层——
一个路由网络选 2 个专家处理当前状态
并组合它们的输出。
尽管每个 token 只看 2 个专家——
所选专家在每个时间步可以不同。
结果——每个 token 可访问 47B 参数,
但推理时只用 13B 激活参数。
Mistral 公司的核心人物——
· Arthur Mensch(CEO) — 前 DeepMind 研究员
· Guillaume Lample(CSO) — 前 Meta AI,Llama 系列核心作者
· Timothée Lacroix(CTO) — 前 Meta AI,Llama 核心作者
"从 Meta 走出来去做 Llama 的开源替代品"——这是 Mistral 的叙事。Llama 系列虽然权重公开但不是真正的开源协议(Llama 2 有商业使用限制)。Mistral 选择Apache 2.0——真正的、对所有人开放的开源。
Mixtral 8x7B 训练时用32k tokens 上下文、多语言数据——在多个基准上达到或超过 Llama 2 70B 和 GPT-3.5。特别在数学、代码生成、多语言上"大幅超过 Llama 2 70B"。
Mistral 还发布了Mixtral 8x7B Instruct——SFT + DPO 微调——超过 GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B-chat在人类评估基准上。
"基础模型和指令模型都在 Apache 2.0 协议下发布"——这一句让 Mixtral 不仅是技术突破,更是政治声明。
Mixtral 基于Transformer 架构,用Mistral 7B 同样的修改——但支持密集 32k tokens 上下文,前馈块被 MoE 层替换。架构参数——dim=4096、n_layers=32、n_heads=32、n_kv_heads=8(GQA)、context_len=32768、vocab=32000、num_experts=8、top_k_experts=2。"每层 8 个专家、每个 token 选 2 个"——这就是"8x7B"的字面意思。注意——不是 8 × 7B = 56B——参数共享让实际总参数 = 47B。
Mixtral 基于 Transformer 架构——用和 Mistral 7B 同样的修改——两个值得注意的例外——
· Mixtral 支持密集 32k tokens 上下文长度
· 前馈块被 Mixture-of-Experts 层替换
架构参数 (Table 1)——
| 参数 | 值 |
|---|---|
dim | 4096 |
n_layers | 32 |
head_dim | 128 |
hidden_dim (FFN) | 14336 |
n_heads | 32 |
n_kv_heads (GQA) | 8 |
context_len | 32,768 |
vocab_size | 32,000 |
num_experts | 8 |
top_k_experts | 2 |
核心 MoE 设置——每层 8 个专家、每个 token 选 2 个。这就是"8x7B"的字面意思——8 个 7B 量级的专家组合成一个。
但"8 × 7B = 56B"是错的——参数共享让实际总参数 = 47B。原因——注意力层、嵌入、layer norm 等大部分非 FFN 参数所有专家共享。只有 FFN 部分被 8 倍化。所以 56B 是"如果每个专家独立有完整模型"的虚拟数字,真实总参数 47B。
每个 token 推理时——只激活 2 个专家,所以实际激活参数 ≈ 13B。
Mixtral 用Shazeer 2017 同样的 Top-K + Softmax 门控——给定输入 $x$ 和 $n$ 个专家网络 $\{E_0, \ldots, E_{n-1}\}$,MoE 层输出 = "门控网络输出"加权"专家输出"。具体——$G(x) := \text{Softmax}(\text{TopK}(x \cdot W_g))$——其中 $\text{TopK}(\ell)_i = \ell_i$ 如果 $\ell_i$ 是 top-$K$,否则 $-\infty$。$K$ 是每 token 激活的专家数——调节每 token 用的计算量。Mixtral 用 $K=2$。如果 $K$ 固定、$n$ 增大——总参数增加但每 token 算力不变——这就是稀疏激活的本质。
Mixtral 论文给出 SMoE 的标准数学——给定 $n$ 个专家网络 $\{E_0, E_1, \ldots, E_{n-1}\}$,MoE 层对输入 $x$ 的输出——
其中 $G(x)_i$ 是门控网络对专家 $i$ 的 $n$ 维输出。如果门控向量稀疏,门是 0 的专家不需要算——节省计算。
$G(x)$ 的实现——Mixtral 用Shazeer 2017 同样的"Top-K softmax"——
$K$ 是每 token 用的专家数——调节每 token 计算量的超参。Mixtral 用 $K=2$。Switch 用 $K=1$。Shazeer 2017 通常用 $K=4$。
关键性质——如果 $K$ 固定、$n$ 增大——总参数增加,但每 token 算力不变。这就是稀疏激活的核心——把"总参数容量"和"每 token 算力"解耦。
Mixtral 论文还做了一个关键架构选择——每个专家是标准前馈块——和 vanilla Transformer 的 FFN 一模一样。这意味着 Mixtral 可以从一个 dense 模型(Mistral 7B)的 FFN复制成 8 份作为初始化——大幅加速训练。
Mixtral 的实现还专门提交了 vLLM 项目的改动,集成Megablocks CUDA kernels做高效推理。SkyPilot 允许在任何云实例上部署 vLLM endpoints。"完整开源栈"——这是 Mistral 的政治宣言。
"47B 总参数 / 13B 激活"这件事产品上有深远含义——(1) 推理吞吐量——每 token 只用 13B,所以推理速度接近 13B dense 模型;(2) 内存占用——47B 都要装进显存(模型必须完整加载);(3) 质量——击败 Llama 2 70B——所以 13B 激活就有了 ≥70B dense 的能力。这是稀疏激活的"经济学胜利"——用"13B 的推理成本 + 47B 的内存"换 "70B 的质量"。
"47B 总参数 / 13B 激活"这件事在产品上有深远含义。让我们看每一个含义——
这个 trade-off 让 Mixtral 在某些应用场景上经济得不可思议——尤其是"内存可控、追求推理速度"的场景。后来 DeepSeek MoE、DBRX、Grok 等都走了类似路线。
Mixtral 论文还展示——模型能在 32k tokens 上下文内成功检索信息,无论序列长度和信息位置。这意味着 MoE 不损失长上下文能力——这是关键。
Mixtral 8x7B 在多个基准上"击败或匹配 Llama 2 70B 和 GPT-3.5"。论文说——尤其在数学、代码生成、需要多语言理解的任务上,"显著超过 Llama 2 70B"。需要意识到——Mixtral 总参数 47B(Llama 2 的 67%)、激活参数 13B(Llama 2 的 19%)。这意味着——Mixtral 在更少参数 + 更少推理算力下击败 Llama 2 70B。这是稀疏激活的胜利证明——也证明了 1991 → 2024 路上每一步都对了。
Mixtral 在多个基准上击败 Llama 2 70B 和 GPT-3.5。论文写道——
Mixtral 展示了在数学、代码生成、需要多语言理解的任务上优越的能力——
在这些领域显著超过 Llama 2 70B。
实验显示——
Mixtral 能从 32k tokens 上下文窗口里成功检索信息,
无论序列长度和信息位置。
这件事的意义——
· Llama 2 70B 是 67B 个参数全部激活——每 token 算 67B
· Mixtral 47B 总参数,但每 token 只激活 13B——是 Llama 2 70B 的 19%
Mixtral 在更少参数 + 更少推理算力下击败 Llama 2 70B——这是稀疏激活的胜利证明。也是1991 Jacobs/Jordan/Hinton 的预言被 33 年后的实证完全证实。
Mistral 还发布Mixtral 8x7B Instruct——chat 模型——用SFT(监督微调)+ DPO(直接偏好优化)训练。"在人类评估基准上明显超过 GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B-chat 模型"。Instruct 模型还展现"减少的偏见"和BBQ、BOLD 基准上更平衡的情感画像。BBQ 测量 LLM 的社会群体偏见,BOLD 测量开放生成的情感公平性。Mixtral Instruct 在这两个上都比同代模型更平衡。
除了基础模型——Mistral 还发布Mixtral 8x7B Instruct——一个chat 模型——通过SFT(监督微调)+ DPO(直接偏好优化)训练。
结果——
它的表现明显超过——
GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B 聊天模型——
在人类评估基准上。
Mixtral Instruct 还展示"减少的偏见"和"在 BBQ、BOLD 基准上更平衡的情感画像"——
· BBQ——衡量 LLM 在不同社会群体相关问题上的偏见
· BOLD——衡量开放生成的情感公平性
这是 Mixtral 的关键政治成就——开源模型不仅能力强,社会属性也好。这反驳了"开源模型必然质量差"的论调。
"我们以 Apache 2.0 许可证发布 Mixtral 8x7B 和 Mixtral 8x7B Instruct——学术和商业使用都免费"。这是关键政治选择。OpenAI 没开源 GPT-3.5/4;Anthropic 没开源 Claude;Google 没开源 Gemini;Meta 的 Llama 2 名义开源但有商业使用限制。Mistral 选 Apache 2.0——真正完全开放。这让 Mixtral 第一时间被HuggingFace、Replicate、Together AI、vLLM等所有平台支持。"所有人都可以下载、使用、商业化、修改、重新分发"——这是对 AI 商业模型的根本挑战。
论文里有一句让我读完后停了很久的话——
我们以 Apache 2.0 许可证发布
Mixtral 8x7B 和 Mixtral 8x7B Instruct——
对学术和商业使用都免费——
保证广泛可访问性和多样应用潜力。
这是关键政治选择。让我对比——
· OpenAI——GPT-3.5、GPT-4 不开源,只能通过 API 用
· Anthropic——Claude 不开源
· Google——Gemini 不开源
· Meta——Llama 2 名义开源但有商业使用限制(月活超过 7 亿用户的公司必须申请专用许可)
· Mistral——Mixtral Apache 2.0——真正完全开放
Apache 2.0 意味着——
· 所有人都可下载——HuggingFace 上立刻 百万次下载
· 所有人都可商业化——你可以用它建商业产品
· 所有人都可修改——你可以微调、改架构、做继任
· 所有人都可重新分发——你可以打包卖给客户
这是对 AI 商业模型的根本挑战。Mixtral 上线后——HuggingFace、Replicate、Together AI、Anyscale、vLLM、Fireworks 等所有平台第一时间集成。开源 MoE 生态系统立刻爆发。
后来——DeepSeek MoE、DBRX、Grok-1、Snowflake Arctic、Qwen MoE 等其他开源 MoE 相继出现——它们都是踩在 Mixtral 的肩膀上。
从 1991 年 Jacobs/Jordan/Nowlan/Hinton 到 2024 年 Mixtral——33 年的演化路径完整闭环。1991 定下数学骨架(专家、门控、softmax、竞争误差)。2017 Shazeer 第一次大规模化(Noisy Top-K + 负载平衡)。2021 Switch 简化到 top-1 + bfloat16 + 万亿参数。2024 Mixtral 用 top-2 + Apache 2.0 把 MoE 变成所有人都能用的工业产品。同一个核心想法——专家、门控、稀疏激活——33 年里规模化了 10 个数量级。这是深度学习史上最美的进化之一。
读完 Mixtral 8x7B 论文,再回看 1991 年 Jacobs/Jordan/Nowlan/Hinton 那篇 9 页的论文——33 年的演化路径清晰地展开在眼前。
· 1991——Jacobs/Jordan/Nowlan/Hinton——定下数学骨架——专家、门控、softmax、独立竞争误差。元音区分任务。几个专家。
· 1994——Jordan & Jacobs——Hierarchical MoE——分层专家结构。
· 2017——Shazeer/Hinton/Dean 等——第一次大规模化——Noisy Top-K + 负载平衡损失。65,536 个专家、137B 参数。LSTM 时代的 MoE 高峰。
· 2020——Lepikhin 等——GShard——MoE 首次进入 Transformer。
· 2021——Fedus/Zoph/Shazeer——Switch Transformer——简化到 top-1 + bfloat16 + 万亿参数。
· 2021——Du 等——GLaM——1.2T MoE LLM,比 GPT-3 强还更便宜。
· 2022——Zoph/Bello 等——ST-MoE——更多稳定训练技巧。
· 2023——GPT-4(被广泛认为是 MoE)。
· 2024——Mistral AI——Mixtral 8x7B——第一个流行的开源 MoE LLM。Apache 2.0。
同一个核心想法——专家、门控、稀疏激活——33 年里规模化了 10 个数量级(从几个专家到 65,536 个,从几千参数到万亿)。这是深度学习史上最美的进化之一。
1991 年 Jacobs 和 Hinton 在1988 年匹兹堡 Connectionist Summer School 上首次提出这个想法时——他们不可能想到 36 年后法国巴黎一家成立 9 个月的初创公司会用同样的数学骨架做出全世界都能下载的开源 LLM,击败硅谷的所有专有模型。
但他们把对的想法写下来了。
"真正好的想法可以等"——这是 1991 年那篇被忽视了 25 年的论文教给我们的最深刻的一课。
1991 → 2024——
33 年。
Jacobs、Jordan、Nowlan、Hinton
把"分工 + 竞争"写成了一个公式。
2024 年,
这个公式让万亿参数语言模型能跑在你的电脑上——
免费、开源、商业可用。
这就是研究的力量。
这就是开源的力量。
这就是把对的想法写下来的力量。