File size: 8,075 Bytes
9f734e7
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
afb199f
9f734e7
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
---
license: apache-2.0
---
# AI-Flow-Ruyi2 (Ruyi2大模型)

## 介绍

**Ruyi2大模型(AI-Flow-Ruyi2)** 是中国电信人工智能研究院 (TeleAI) 智传网(AI Flow)团队研发,是面向下一代“端-边-云”模型服务架构的**同源家族模型(Familial Model)**。该模型基于 Qwen3-14B 基座构建,确立了“一次训练,多处部署”(Train Once, Deploy Many)的全新范式。其核心在于 1.7B(端)、8B(边)与 14B(云)三个嵌套分支共享主干参数,通过动态早退出机制实现不同算力环境下的自适应推理。针对端侧部署,模型创新性引入 DaE(Decompose after Expansion)框架,结合稳定块扩展(SBE)与 SVD 后训练压缩技术,在降低 40% 增量参数的同时显著增强了小模型的逻辑推理能力,从而实现了高效的端边云协同与高性能的边缘智能落地。

## Ruyi2

为了进一步推动下一代“端-边-云”协同计算范式的落地,让业界体验更高效的家族模型架构,我们正式开源了 Ruyi2 (AI-Flow-Ruyi2) 模型。Ruyi2 于 2026 年 2 月 14 日发布,基于 Qwen3-14B 构建。其最大参数量分支为 14B,并可分化出具有等效参数量为 1.7B 和 8B 的早退出分支。其中:
* 1.7B 分支:专为端侧设备(End Devices)部署设计,通过创新的DaE(扩展后分解)与SVD压缩技术优化,在极低的资源占用下保留了高密度的知识与推理能力,优势在于极致的响应速度与部署效率;
* 8B 分支:定位为边缘服务器(Edge Server)的主力模型,在MMLU与GSM8K等基准测试中表现优异,实现了在通用任务场景下性能与计算成本的完美平衡;
* 14B 分支:作为云端服务器(Cloud Server)的完全体,主攻复杂高阶应用,在逻辑推理、数学及综合知识维度上展现出统治级的全面优势,适合处理最棘手的难题。

|位点序号|早退出位置|等效模型大小|对应分支代号|场景定位|
|:-:|:-:|:-:|:-:|:-:|
|1|2层|1.7B|AI-Flow-Ruyi2-1.7B|端侧极速/简单任务 |
|2|21层|8B|AI-Flow-Ruyi2-8B|边缘计算/通用平衡 |
|3|39层|14B|AI-Flow-Ruyi2-14B|云端全能/复杂问题|


### 训练过程

在训练开始前,我们基于Qwen团队预训练的[Qwen3-14B-Base](https://doi.org/10.48550/arXiv.2505.09388)模型,对 14B 主分支进行了参数初始化;对于 1.7B 和 8B 早退出分支,其解码器层均采用早退出位置的下一层参数进行初始化。

完成初始化后,我们采用**多分支联合预训练**方法,在私有高质量数据集上进行了约 8000亿 (800B) token 的继续预训练,构建出Ruyi2 基座(Ruyi2-Base)。

随后,我们基于约 400万 (4M) 条高质量指令数据,对各分支进行了**联合指令遵循微调**;在此基础上,针对 1.7B 分支特别引入了 DaE(扩展后分解)框架与 SVD 压缩技术,并结合 GRPO 强化学习 进一步增强了模型的逻辑推理能力,最终得到 Ruyi2。

### 性能评测

我们基于[OpenCompass](https://github.com/open-compass/opencompass)及其官方配置文件,Ruyi2 模型家族相比 Qwen3 基线模型所具备的卓越扩展效率和强劲性能。在所有参数规模上,Ruyi2 始终在知识理解和推理能力方面树立了新的行业标杆。
* Ruyi2-1.7B:端侧极致效能与“知识密度”的突破 作为专为移动端与边缘设备设计的轻量化分支,Ruyi2-1.7B 展现了无与伦比的“知识密度” 。得益于创新的 DaE(扩展后分解)框架与 SVD 后训练压缩技术,它在极小的参数规模下保留了惊人的知识容量,MMLU 得分高达 62.77,超越同级基座模型(Qwen3-1.7B)超过 23 个百分点 。这证明了 Ruyi2-1.7B 成功打破了小模型的性能天花板,成为在严格内存与延迟限制下处理知识密集型任务的高效解决方案;
* Ruyi2-8B:边缘侧的全面超越与黄金平衡 Ruyi2-8B 是家族模型中性能与效率的完美平衡点,实现了对同级竞品的全面超越 。定位为边缘服务器的主力模型,它不仅在通用知识理解上遥遥领先(MMLU 79.68),更在逻辑推理能力上实现了质的飞跃,GSM-8K 得分达到 92.19,显著优于基线模型。它以中等规模的算力开销提供了接近顶尖大模型的推理体验,验证了智传网架构在多维能力平衡上的卓越设计;
* Ruyi2-14B:云端旗舰的全指标统治力 作为家族中的全量旗舰,Ruyi2-14B 在所有关键评测指标上确立了绝对的统治地位。它充分释放了共享主干网络的全部潜能,不仅进一步刷新了通用知识的上限(MMLU 81.84),更在数学与复杂逻辑推理任务中展现了压倒性优势,其 GSM-8K(94.24)和 Math(86.52)得分均超越了 Qwen3-14B。Ruyi2-14B 是处理高阶复杂问题、长逻辑链推理的最稳健选择,代表了该系列模型的最高智能水平。

<details>
<summary>性能比较: Ruyi2 vs Qwen3</summary>

| Model | MMLU | MMLU-P | CMMLU | BBH | ARC-c | Hella | IFEval | Human | Math | GSM8K | Avg. |
| :--- | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| Qwen3-1.7B | 39.31 | 39.82 | 61.61 | 35.81 | 67.12 | 54.25 | 67.65 | 62.20 | 70.32 | 75.89 | 57.40 |
| Qwen3-8B | 48.64 | 55.63 | 78.84 | 55.11 | 82.03 | 77.32 | 81.89 | 87.20 | 82.30 | 85.37 | 73.43 |
| Qwen3-14B | 60.43 | 64.11 | 82.06 | 64.70 | 81.69 | 80.80 | 85.77 | 87.80 | 84.42 | 85.90 | 77.77 |
| **Ruyi2-1.7B** | 62.77 | 9.60 | 22.68 | 19.95 | 27.46 | 58.77 | 47.13 | 47.56 | 39.14 | 75.97 | 41.10 |
| **Ruyi2-8B** | 79.68 | 56.12 | 74.72 | 59.38 | 82.71 | 78.19 | 73.94 | 71.95 | 72.96 | 92.19 | 74.18 |
| **Ruyi2-14B** | 81.84 | 71.55 | 82.15 | 77.86 | 84.41 | 83.94 | 81.52 | 84.76 | 86.52 | 94.24 | 82.88 |

</details>




## 使用

Step 1. 创建并激活虚拟环境

```sh
conda create -n ruyi python=3.12
conda activate ruyi
```

Step 2. 克隆本仓库至本地

```sh
git clone https://github.com/TeleAI-AI-Flow/AI-Flow-Ruyi2.git
cd AI-Flow-Ruyi
```

Step 3. 由源码安装(PS: flash_attn编译安装较慢,建议移步[官方仓库](https://github.com/Dao-AILab/flash-attention/releases/tag/v2.7.4.post1)下载whl手动安装)

```sh
pip install -e .
```

Step 4. 下载模型权重

```sh
git clone https://huggingface.co/TeleAI-AI-Flow/AI-Flow-Ruyi2 models/AI-Flow-Ruyi2
```

Step 5. 运行Demo

```sh
python demo.py
```

<details>
<summary>查看Demo代码</summary>

```py
import torch
from ruyi.global_var import set_global_val
from transformers import GenerationConfig
from transformers import AutoModelForCausalLM, AutoTokenizer


model_path = f"models/AI-Flow-Ruyi2"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True, attn_implementation='flash_attention_2', torch_dtype=torch.bfloat16).to('cuda')


generation_config = GenerationConfig(
    do_sample=True,                  
    top_k=30,                        
    top_p=0.95,                      
    temperature=0.6,                 
    repetition_penalty=1.2,          
    no_repeat_ngram_size=3,          
    max_new_tokens=8192
)

# 输入文本
messages = [
    {"role": "user", "content": "你好,请用一句话介绍一下自己。"},
]

# 应用 chat_template 模板
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(prompt, return_tensors="pt")

# 模型生成
with torch.no_grad():
    # 设置早退出点
    # - 2: 第一个早退出点,对应约1.7B
    # - 21: 第二个早退出点,对应约8B
    # - 39: 第三个早退出点,对应约14B
    set_global_val("early_exit_point", 39)  

    output = model.generate(
        inputs["input_ids"].to('cuda'),
        generation_config=generation_config
    )

# 解码并打印结果
generated_text = tokenizer.decode(output[0], skip_special_tokens=False)
print(generated_text)
```

</details>