QED
Collection
4 items • Updated
QED-75M — языковая модель (384 hidden, 32 слоя, 75M параметров), оптимизированная для веб-деплоя.
Репозиторий: https://huggingface.co/levossadtchi/QED-75M_web
| Файл | Описание | Размер |
|---|---|---|
model.onnx |
Веса модели (FP32) | ~365 MB |
tokenizer.json |
Словарь токенизатора | ~3 MB |
tokenizer_config.json |
Конфиг токенизатора | <1 KB |
config.json |
Архитектура модели | <1 KB |
generation_config.json |
Параметры генерации | <1 KB |
index.html |
Демо-плейграунд | <10 KB |
Модель обучена на чат-формате. Для лучших результатов используйте:
<|user|>ваш вопрос<|assistant|>
Примеры:
| Промпт | Ожидаемый ответ |
|---|---|
| `< | user |
| `< | user |
| `< | user |
npm install @xenova/transformers
import { AutoTokenizer, AutoModelForCausalLM } from '@xenova/transformers';
// Загрузка модели
const tokenizer = await AutoTokenizer.from_pretrained('levossadtchi/QED-75M_web');
const model = await AutoModelForCausalLM.from_pretrained('levossadtchi/QED-75M_web', {
quantized: true, // Использовать int8 квантование
dtype: 'q8',
device: 'webgpu', // или 'wasm' для CPU
});
// Генерация
const prompt = '<|user|>What is 2+2?<|assistant|>';
const inputs = await tokenizer(prompt, { return_tensors: 'pt' });
const outputs = await model.generate({
...inputs,
max_new_tokens: 128,
temperature: 0.7,
top_k: 40,
do_sample: true,
eos_token_id: tokenizer.eos_token_id,
pad_token_id: tokenizer.pad_token_id,
});
const text = tokenizer.decode(outputs[0], { skip_special_tokens: false });
console.log(text);
npm install onnxruntime-web
import * as ort from 'onnxruntime-web';
// Загрузка
const session = await ort.InferenceSession.create('model.onnx');
// Инференс
const inputIds = [1, 15826, 15, 638]; // токены
const tensor = new ort.Tensor('int64', BigInt64Array.from(inputIds.map(BigInt)), [1, inputIds.length]);
const { logits } = await session.run({ input_ids: tensor });
// Greedy decoding
const nextToken = logits.data.reduce((maxIdx, val, idx) => val > logits.data[maxIdx] ? idx : maxIdx, 0);
Откройте index.html в браузере или задеплойте на Vercel/Netlify.
| Параметр | По умолчанию | Описание |
|---|---|---|
max_new_tokens |
128 | Макс. количество новых токенов |
temperature |
0.7 | Креативность (0 = greedy, >1 = хаос) |
top_k |
40 | Сэмплирование из top-k токенов |
top_p |
0.9 | Nucleus sampling (альтернатива top_k) |
repetition_penalty |
1.1 | Штраф за повторы |
Рекомендации:
temperature=0.5, top_k=30temperature=0.8, top_k=50temperature=0.2, top_k=20| Параметр | Значение |
|---|---|
| Vocabulary | 49,152 токенов |
| Hidden dim | 384 |
| Layers | 32 |
| Attention heads | 6 |
| FFN dim | 1,024 |
| Max length | 8,192 токена |
| RoPE θ | 10,000 |
| RMSNorm ε | 1e-5 |
Для уменьшения размера модели используйте int8 квантование:
pip install onnxruntime-tools
python -c "
from onnxruntime.quantization import quantize_dynamic, QuantType
quantize_dynamic('model.onnx', 'model_quantized.onnx', weight_type=QuantType.QUInt8)
"
Размеры:
| Технология | Поддержка | Размер | Скорость |
|---|---|---|---|
| WebGPU | Chrome 113+, Edge | ~100 MB | ⚡⚡⚡ Быстро |
| WASM | Все браузеры | ~100 MB | ⚡⚡ Средне |
| CPU | Резервный режим | ~365 MB | ⚡ Медленно |
# Клонировать репозиторий
git lfs install
git clone https://huggingface.co/levossadtchi/QED-75M_web
# Запустить локальный сервер
cd QED-75M_web
python -m http.server 8000
# Открыть в браузере
open http://localhost:8000/index.html
MIT
Base model
levossadtchi/QED-75M