Модели и данные 32B; AWQ int4

Базовая модель

В работе используется языковая модель на основе архитектуры трансформера, оптимизированная под инструкционное следование и строгий формат ответа. Модель поддерживает режим генерации, удобный для бенчмарков: можно отделять внутренний процесс рассуждения от финального ответа (финальный вывод — строго по требованиям задачи), а также стабильно работать на длинных контекстах.

В качестве продакшн-инференса используется серверная развёртка через vLLM с OpenAI-совместимым API (/v1/completions), что позволяет подключать модель к стандартным фреймворкам оценки (например, lm-evaluation-harness / MERA) без изменения кода модели.

Датасет

Обучение проводится на миксе закрытых и открытых датасетов, ориентированных на диалоговые сценарии и инструкционное следование. Данные представлены в формате сообщений (messages) и содержат разметку Ground Truth (целевой ответ) для supervised-обучения. Микс включает примеры разных типов: короткие ответы (число/буква/слово), задачи с выбором варианта, вопросы на знания и понимание текста, а также отдельный блок задач на дописывание кода на Python.

Архитектура обучения

Обучение организовано в распределённом режиме: • Training ноды: DeepSpeed ZeRO-3 для эффективного распределения параметров модели, оптимизатора и градиентов; обучение масштабируется на несколько GPU. • Generation нода: отдельный vLLM-сервер, который генерирует кандидатов через HTTP API; это используется для ускорения генерации и стабильной интеграции с последующей фильтрацией/оценкой кандидатов.

Correction post-training

После базового обучения применяется этап корректирующего пост-тренинга, направленный на повышение качества следования инструкциям и снижение ошибок формата ответа. На этом этапе модель донастраивается на примерах, где критично соблюдать формат (строго одна буква/одно число/только код), а также на примерах с типовыми ошибками (лишние слова, знаки препинания, “Ответ: …”, markdown и т.п.).

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support