广哥在硅谷 · 用思考抵达清晰,用行动靠近自由
MISTRAL AI · 2024/01

Mixtral 8x7B
第一个流行的开源 MoE LLM

Mixtral of Experts · Curated Chinese Edition
Mistral AI · 26 位作者 中文精校版 8 章 · 约 25 分钟阅读
📋 内容摘要

2024 年 1 月 8 日,Mistral AI——一群从 Meta、DeepMind 出走的法国研究者——发布 Mixtral 8x7B。它是第一个流行的开源 Sparse MoE 大语言模型——架构和他们之前的 Mistral 7B 相同,区别是每层 8 个前馈块(专家),路由网络每个 token 选 2 个47B 总参数、13B 激活32k 上下文、多语言预训练。击败 Llama 2 70B 和 GPT-3.5——尤其在数学、代码、多语言上"大幅超过"。Instruct 版本击败 GPT-3.5 Turbo、Claude-2.1、Gemini Pro。最关键的——Apache 2.0 开源——所有人都能下载、商业使用。MoE 从研究论文变成所有人都能用的工业产品

章节目录
  1. 引言 · Mistral 的法国革命
    The French revolution in LLMs
  2. 架构 · 8 个专家、Top-2 路由
    8 experts, top-2 routing
  3. SMoE 数学 · Top-K softmax
    SMoE math
  4. 47B / 13B 的算术魔法
    47B total, 13B active
  5. 击败 Llama 2 70B 和 GPT-3.5
    Beating Llama 2 70B & GPT-3.5
  6. Instruct · 击败 GPT-3.5 / Claude-2.1
    Instruct version
  7. Apache 2.0 · 开源的政治意义
    The politics of Apache 2.0
  8. 谱系闭环 · 1991 → 2024
    Closing the lineage loop
CHAPTER 01 · INTRODUCTION

引言 · Mistral 的法国革命

The French revolution in LLMs
📌 本节核心要点

2024 年 1 月 8 日,Mistral AI——一家成立于 2023 年 4 月的法国 AI 公司——发布 Mixtral 8x7B。Mistral 的创始人来自 Meta(AI 团队)和 DeepMind,包括 Arthur Mensch(CEO,前 DeepMind)、Guillaume Lample(前 Meta AI)、Timothée Lacroix(前 Meta AI)。Mistral 立志做"欧洲的 OpenAI"——以开源为核心战略。Mixtral 8x7B 是他们第一个 MoE 模型——所有人都能下载、商业使用。这是 MoE 从"前沿公司专属"变成"开源工业品"的转折。

Mistral AI Apache 2.0 26 Authors

2024 年 1 月 8 日,Mistral AI——一家 2023 年 4 月才在巴黎成立的法国 AI 公司——发布Mixtral 8x7BarXiv 编号 2401.0408826 位共同作者

论文摘要的措辞非常自信——

我们引入 Mixtral 8x7B——
一个 Sparse Mixture of Experts (SMoE) 语言模型。

Mixtral 和 Mistral 7B 架构相同
区别是每层由 8 个前馈块(即专家)组成

对每个 token、在每一层——
一个路由网络选 2 个专家处理当前状态
并组合它们的输出。

尽管每个 token 只看 2 个专家——
所选专家在每个时间步可以不同

结果——每个 token 可访问 47B 参数
推理时只用 13B 激活参数

— MIXTRAL 8X7B, 2024/01

Mistral 公司的核心人物——

· Arthur Mensch(CEO) — 前 DeepMind 研究员
· Guillaume Lample(CSO) — 前 Meta AI,Llama 系列核心作者
· Timothée Lacroix(CTO) — 前 Meta AI,Llama 核心作者

"从 Meta 走出来去做 Llama 的开源替代品"——这是 Mistral 的叙事。Llama 系列虽然权重公开但不是真正的开源协议(Llama 2 有商业使用限制)。Mistral 选择Apache 2.0——真正的、对所有人开放的开源

Mixtral 8x7B 训练时用32k tokens 上下文多语言数据——在多个基准上达到或超过 Llama 2 70B 和 GPT-3.5。特别在数学、代码生成、多语言上"大幅超过 Llama 2 70B"。

Mistral 还发布了Mixtral 8x7B Instruct——SFT + DPO 微调——超过 GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B-chat人类评估基准上。

"基础模型和指令模型都在 Apache 2.0 协议下发布"——这一句让 Mixtral 不仅是技术突破,更是政治声明

广哥在硅谷◆ ◆ ◆
CHAPTER 02 · ARCHITECTURE

架构 · 8 个专家、Top-2 路由

8 experts, top-2 routing
📌 本节核心要点

Mixtral 基于Transformer 架构,用Mistral 7B 同样的修改——但支持密集 32k tokens 上下文前馈块被 MoE 层替换。架构参数——dim=4096、n_layers=32、n_heads=32、n_kv_heads=8(GQA)、context_len=32768、vocab=32000、num_experts=8、top_k_experts=2"每层 8 个专家、每个 token 选 2 个"——这就是"8x7B"的字面意思。注意——不是 8 × 7B = 56B——参数共享让实际总参数 = 47B

Mixtral 基于 Transformer 架构——用和 Mistral 7B 同样的修改——两个值得注意的例外——

· Mixtral 支持密集 32k tokens 上下文长度
· 前馈块被 Mixture-of-Experts 层替换

架构参数 (Table 1)——

参数
dim4096
n_layers32
head_dim128
hidden_dim (FFN)14336
n_heads32
n_kv_heads (GQA)8
context_len32,768
vocab_size32,000
num_experts8
top_k_experts2

核心 MoE 设置——每层 8 个专家、每个 token 选 2 个。这就是"8x7B"的字面意思——8 个 7B 量级的专家组合成一个。

"8 × 7B = 56B"是错的——参数共享让实际总参数 = 47B。原因——注意力层、嵌入、layer norm 等大部分非 FFN 参数所有专家共享只有 FFN 部分被 8 倍化。所以 56B 是"如果每个专家独立有完整模型"的虚拟数字真实总参数 47B

每个 token 推理时——只激活 2 个专家,所以实际激活参数 ≈ 13B

广哥在硅谷◆ ◆ ◆
CHAPTER 03 · SMOE MATH

SMoE 数学 · Top-K Softmax

SMoE math
📌 本节核心要点

Mixtral 用Shazeer 2017 同样的 Top-K + Softmax 门控——给定输入 $x$ 和 $n$ 个专家网络 $\{E_0, \ldots, E_{n-1}\}$,MoE 层输出 = "门控网络输出"加权"专家输出"。具体——$G(x) := \text{Softmax}(\text{TopK}(x \cdot W_g))$——其中 $\text{TopK}(\ell)_i = \ell_i$ 如果 $\ell_i$ 是 top-$K$,否则 $-\infty$。$K$ 是每 token 激活的专家数——调节每 token 用的计算量。Mixtral 用 $K=2$。如果 $K$ 固定、$n$ 增大——总参数增加但每 token 算力不变——这就是稀疏激活的本质。

Mixtral 论文给出 SMoE 的标准数学——给定 $n$ 个专家网络 $\{E_0, E_1, \ldots, E_{n-1}\}$,MoE 层对输入 $x$ 的输出——

$$\sum_{i=0}^{n-1} G(x)_i \cdot E_i(x)$$

其中 $G(x)_i$ 是门控网络对专家 $i$ 的 $n$ 维输出。如果门控向量稀疏门是 0 的专家不需要算——节省计算。

$G(x)$ 的实现——Mixtral 用Shazeer 2017 同样的"Top-K softmax"——

$$G(x) := \text{Softmax}(\text{TopK}(x \cdot W_g))$$ $$\text{where } (\text{TopK}(\ell))_i := \begin{cases} \ell_i & \text{if } \ell_i \text{ is in top-}K \\ -\infty & \text{otherwise} \end{cases}$$

$K$ 是每 token 用的专家数——调节每 token 计算量的超参。Mixtral 用 $K=2$。Switch 用 $K=1$。Shazeer 2017 通常用 $K=4$。

关键性质——如果 $K$ 固定、$n$ 增大——总参数增加,但每 token 算力不变。这就是稀疏激活的核心——把"总参数容量"和"每 token 算力"解耦

Mixtral 论文还做了一个关键架构选择——每个专家是标准前馈块——和 vanilla Transformer 的 FFN 一模一样。这意味着 Mixtral 可以从一个 dense 模型(Mistral 7B)的 FFN复制成 8 份作为初始化——大幅加速训练

Mixtral 的实现还专门提交了 vLLM 项目的改动,集成Megablocks CUDA kernels做高效推理。SkyPilot 允许在任何云实例上部署 vLLM endpoints。"完整开源栈"——这是 Mistral 的政治宣言

广哥在硅谷◆ ◆ ◆
CHAPTER 04 · ARITHMETIC

47B / 13B 的算术魔法

47B total, 13B active
📌 本节核心要点

"47B 总参数 / 13B 激活"这件事产品上有深远含义——(1) 推理吞吐量——每 token 只用 13B,所以推理速度接近 13B dense 模型(2) 内存占用——47B 都要装进显存(模型必须完整加载);(3) 质量——击败 Llama 2 70B——所以 13B 激活就有了 ≥70B dense 的能力。这是稀疏激活的"经济学胜利"——用"13B 的推理成本 + 47B 的内存"换 "70B 的质量"

47B Total 13B Active Beats 70B Quality

"47B 总参数 / 13B 激活"这件事在产品上有深远含义。让我们看每一个含义——

💰 三层影响

这个 trade-off 让 Mixtral 在某些应用场景上经济得不可思议——尤其是"内存可控、追求推理速度"的场景。后来 DeepSeek MoE、DBRX、Grok 等都走了类似路线。

Mixtral 论文还展示——模型能在 32k tokens 上下文内成功检索信息无论序列长度和信息位置。这意味着 MoE 不损失长上下文能力——这是关键

广哥在硅谷◆ ◆ ◆
CHAPTER 05 · BENCHMARKS

击败 Llama 2 70B 和 GPT-3.5

Beating Llama 2 70B & GPT-3.5
📌 本节核心要点

Mixtral 8x7B 在多个基准上"击败或匹配 Llama 2 70B 和 GPT-3.5"。论文说——尤其在数学、代码生成、需要多语言理解的任务上,"显著超过 Llama 2 70B"。需要意识到——Mixtral 总参数 47B(Llama 2 的 67%)、激活参数 13B(Llama 2 的 19%)。这意味着——Mixtral 在更少参数 + 更少推理算力下击败 Llama 2 70B。这是稀疏激活的胜利证明——也证明了 1991 → 2024 路上每一步都对了

Mixtral 在多个基准上击败 Llama 2 70B 和 GPT-3.5。论文写道——

Mixtral 展示了在数学、代码生成、需要多语言理解的任务优越的能力——
在这些领域显著超过 Llama 2 70B

实验显示——
Mixtral 能从 32k tokens 上下文窗口里成功检索信息
无论序列长度和信息位置

— MIXTRAL CAPABILITIES

这件事的意义——

· Llama 2 70B 是 67B 个参数全部激活——每 token 算 67B
· Mixtral 47B 总参数,但每 token 只激活 13B——是 Llama 2 70B 的 19%

Mixtral 在更少参数 + 更少推理算力下击败 Llama 2 70B——这是稀疏激活的胜利证明。也是1991 Jacobs/Jordan/Hinton 的预言被 33 年后的实证完全证实

广哥在硅谷◆ ◆ ◆
CHAPTER 06 · INSTRUCT

Instruct · 击败 GPT-3.5 / Claude-2.1

Instruct version
📌 本节核心要点

Mistral 还发布Mixtral 8x7B Instruct——chat 模型——用SFT(监督微调)+ DPO(直接偏好优化)训练。"在人类评估基准上明显超过 GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B-chat 模型"。Instruct 模型还展现"减少的偏见"BBQ、BOLD 基准上更平衡的情感画像BBQ 测量 LLM 的社会群体偏见BOLD 测量开放生成的情感公平性。Mixtral Instruct 在这两个上都比同代模型更平衡

除了基础模型——Mistral 还发布Mixtral 8x7B Instruct——一个chat 模型——通过SFT(监督微调)+ DPO(直接偏好优化)训练。

结果——

它的表现明显超过——
GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B 聊天模型——
人类评估基准上。

— MIXTRAL INSTRUCT

Mixtral Instruct 还展示"减少的偏见""在 BBQ、BOLD 基准上更平衡的情感画像"——

· BBQ——衡量 LLM 在不同社会群体相关问题上的偏见
· BOLD——衡量开放生成的情感公平性

这是 Mixtral 的关键政治成就——开源模型不仅能力强,社会属性也好。这反驳了"开源模型必然质量差"的论调。

广哥在硅谷◆ ◆ ◆
CHAPTER 07 · APACHE 2.0

Apache 2.0 · 开源的政治意义

The politics of Apache 2.0
📌 本节核心要点

"我们以 Apache 2.0 许可证发布 Mixtral 8x7B 和 Mixtral 8x7B Instruct——学术和商业使用都免费"。这是关键政治选择OpenAI 没开源 GPT-3.5/4;Anthropic 没开源 Claude;Google 没开源 Gemini;Meta 的 Llama 2 名义开源但有商业使用限制。Mistral 选 Apache 2.0——真正完全开放。这让 Mixtral 第一时间被HuggingFace、Replicate、Together AI、vLLM等所有平台支持。"所有人都可以下载、使用、商业化、修改、重新分发"——这是对 AI 商业模型的根本挑战

论文里有一句让我读完后停了很久的话——

我们以 Apache 2.0 许可证发布
Mixtral 8x7B 和 Mixtral 8x7B Instruct——

对学术和商业使用都免费——
保证广泛可访问性多样应用潜力

— MIXTRAL LICENSE

这是关键政治选择。让我对比——

· OpenAI——GPT-3.5、GPT-4 不开源只能通过 API 用
· Anthropic——Claude 不开源
· Google——Gemini 不开源
· Meta——Llama 2 名义开源但有商业使用限制(月活超过 7 亿用户的公司必须申请专用许可)
· Mistral——Mixtral Apache 2.0——真正完全开放

Apache 2.0 意味着——

· 所有人都可下载——HuggingFace 上立刻 百万次下载
· 所有人都可商业化——你可以用它建商业产品
· 所有人都可修改——你可以微调、改架构、做继任
· 所有人都可重新分发——你可以打包卖给客户

这是对 AI 商业模型的根本挑战。Mixtral 上线后——HuggingFace、Replicate、Together AI、Anyscale、vLLM、Fireworks 等所有平台第一时间集成开源 MoE 生态系统立刻爆发。

后来——DeepSeek MoEDBRXGrok-1Snowflake ArcticQwen MoE 等其他开源 MoE 相继出现——它们都是踩在 Mixtral 的肩膀上

广哥在硅谷◆ ◆ ◆
CHAPTER 08 · LINEAGE

谱系闭环 · 1991 → 2024

Closing the lineage loop
📌 本节核心要点

1991 年 Jacobs/Jordan/Nowlan/Hinton2024 年 Mixtral——33 年的演化路径完整闭环1991 定下数学骨架(专家、门控、softmax、竞争误差)。2017 Shazeer 第一次大规模化(Noisy Top-K + 负载平衡)。2021 Switch 简化到 top-1 + bfloat16 + 万亿参数。2024 Mixtral 用 top-2 + Apache 2.0 把 MoE 变成所有人都能用的工业产品同一个核心想法——专家、门控、稀疏激活——33 年里规模化了 10 个数量级。这是深度学习史上最美的进化之一

读完 Mixtral 8x7B 论文,再回看 1991 年 Jacobs/Jordan/Nowlan/Hinton 那篇 9 页的论文——33 年的演化路径清晰地展开在眼前。

· 1991——Jacobs/Jordan/Nowlan/Hinton——定下数学骨架——专家、门控、softmax、独立竞争误差。元音区分任务。几个专家。
· 1994——Jordan & Jacobs——Hierarchical MoE——分层专家结构。
· 2017——Shazeer/Hinton/Dean 等——第一次大规模化——Noisy Top-K + 负载平衡损失。65,536 个专家、137B 参数。LSTM 时代的 MoE 高峰。
· 2020——Lepikhin 等——GShard——MoE 首次进入 Transformer。
· 2021——Fedus/Zoph/Shazeer——Switch Transformer——简化到 top-1 + bfloat16 + 万亿参数。
· 2021——Du 等——GLaM——1.2T MoE LLM,比 GPT-3 强还更便宜。
· 2022——Zoph/Bello 等——ST-MoE——更多稳定训练技巧。
· 2023——GPT-4(被广泛认为是 MoE)。
· 2024——Mistral AI——Mixtral 8x7B——第一个流行的开源 MoE LLM。Apache 2.0。

同一个核心想法——专家、门控、稀疏激活——33 年里规模化了 10 个数量级(从几个专家到 65,536 个,从几千参数到万亿)。这是深度学习史上最美的进化之一

1991 年 Jacobs 和 Hinton 在1988 年匹兹堡 Connectionist Summer School 上首次提出这个想法时——他们不可能想到 36 年后法国巴黎一家成立 9 个月的初创公司会用同样的数学骨架做出全世界都能下载的开源 LLM击败硅谷的所有专有模型

但他们把对的想法写下来了

"真正好的想法可以等"——这是 1991 年那篇被忽视了 25 年的论文教给我们的最深刻的一课

1991 → 2024——
33 年

Jacobs、Jordan、Nowlan、Hinton
"分工 + 竞争"写成了一个公式。

2024 年,
这个公式让万亿参数语言模型能跑在你的电脑上——
免费、开源、商业可用

这就是研究的力量
这就是开源的力量
这就是把对的想法写下来的力量。

— THE MOE LINEAGE, 1991-2024