QED-75M Web (ONNX)

QED-75M — языковая модель (384 hidden, 32 слоя, 75M параметров), оптимизированная для веб-деплоя.

Репозиторий: https://huggingface.co/levossadtchi/QED-75M_web

📁 Файлы

Файл	Описание	Размер
`model.onnx`	Веса модели (FP32)	~365 MB
`tokenizer.json`	Словарь токенизатора	~3 MB
`tokenizer_config.json`	Конфиг токенизатора	<1 KB
`config.json`	Архитектура модели	<1 KB
`generation_config.json`	Параметры генерации	<1 KB
`index.html`	Демо-плейграунд	<10 KB

💬 Формат промптов

Модель обучена на чат-формате. Для лучших результатов используйте:

<|user|>ваш вопрос<|assistant|>

Примеры:

Промпт	Ожидаемый ответ
`<	user
`<	user
`<	user

🚀 Использование

Вариант 1: Transformers.js (рекомендуется)

npm install @xenova/transformers

import { AutoTokenizer, AutoModelForCausalLM } from '@xenova/transformers';

// Загрузка модели
const tokenizer = await AutoTokenizer.from_pretrained('levossadtchi/QED-75M_web');
const model = await AutoModelForCausalLM.from_pretrained('levossadtchi/QED-75M_web', {
    quantized: true,  // Использовать int8 квантование
    dtype: 'q8',
    device: 'webgpu',  // или 'wasm' для CPU
});

// Генерация
const prompt = '<|user|>What is 2+2?<|assistant|>';
const inputs = await tokenizer(prompt, { return_tensors: 'pt' });

const outputs = await model.generate({
    ...inputs,
    max_new_tokens: 128,
    temperature: 0.7,
    top_k: 40,
    do_sample: true,
    eos_token_id: tokenizer.eos_token_id,
    pad_token_id: tokenizer.pad_token_id,
});

const text = tokenizer.decode(outputs[0], { skip_special_tokens: false });
console.log(text);

Вариант 2: ONNX Runtime Web (низкоуровневый)

npm install onnxruntime-web

import * as ort from 'onnxruntime-web';

// Загрузка
const session = await ort.InferenceSession.create('model.onnx');

// Инференс
const inputIds = [1, 15826, 15, 638]; // токены
const tensor = new ort.Tensor('int64', BigInt64Array.from(inputIds.map(BigInt)), [1, inputIds.length]);
const { logits } = await session.run({ input_ids: tensor });

// Greedy decoding
const nextToken = logits.data.reduce((maxIdx, val, idx) => val > logits.data[maxIdx] ? idx : maxIdx, 0);

Вариант 3: Готовый HTML

Откройте index.html в браузере или задеплойте на Vercel/Netlify.

⚙️ Параметры генерации

Параметр	По умолчанию	Описание
`max_new_tokens`	128	Макс. количество новых токенов
`temperature`	0.7	Креативность (0 = greedy, >1 = хаос)
`top_k`	40	Сэмплирование из top-k токенов
`top_p`	0.9	Nucleus sampling (альтернатива top_k)
`repetition_penalty`	1.1	Штраф за повторы

Рекомендации:

Для фактов: temperature=0.5, top_k=30
Для креатива: temperature=0.8, top_k=50
Для кода: temperature=0.2, top_k=20

🏗 Архитектура

Параметр	Значение
Vocabulary	49,152 токенов
Hidden dim	384
Layers	32
Attention heads	6
FFN dim	1,024
Max length	8,192 токена
RoPE θ	10,000
RMSNorm ε	1e-5

📦 Квантование

Для уменьшения размера модели используйте int8 квантование:

pip install onnxruntime-tools

python -c "
from onnxruntime.quantization import quantize_dynamic, QuantType
quantize_dynamic('model.onnx', 'model_quantized.onnx', weight_type=QuantType.QUInt8)
"

Размеры:

Оригинал (FP32): ~365 MB
Квантованная (INT8): ~95 MB (−74%)

🌐 Браузерная поддержка

Технология	Поддержка	Размер	Скорость
WebGPU	Chrome 113+, Edge	~100 MB	⚡⚡⚡ Быстро
WASM	Все браузеры	~100 MB	⚡⚡ Средне
CPU	Резервный режим	~365 MB	⚡ Медленно

🔧 Локальный запуск

# Клонировать репозиторий
git lfs install
git clone https://huggingface.co/levossadtchi/QED-75M_web

# Запустить локальный сервер
cd QED-75M_web
python -m http.server 8000

# Открыть в браузере
open http://localhost:8000/index.html

📝 Лицензия

MIT

Downloads last month: 38

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for levossadtchi/QED-75M_web

Base model

levossadtchi/QED-75M

Quantized

(1)

this model

Collection including levossadtchi/QED-75M_web

QED

Collection

4 items • Updated about 1 hour ago