BerryLM Wildberries & Russ
Модели и данные
Базовая модель
В работе используется языковая модель на основе архитектуры трансформера. Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации до 32K токенов.
Датасет
Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth.
Метод
GRPO с Reward Hacking Prevention
Применяется метод один из модификаций GRPO.
Ключевая особенность реализации — система из 11 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала):
- Качество русского языка
- Следование структуре ответа
- Анти-зацикливание
- Фактологическая точность на нужных задачах
Reward-функции работают на уровне токенизированных последовательностей и текста, анализируя как структуру ответа (специальные токены каналов), так и его содержание. Веса функций настроены так, что основной сигнал имеет наибольший вес, а остальные служат регуляризацией и контролем качества.
Архитектура обучения
Обучение организовано в распределённом режиме:
- Training ноды: DeepSpeed ZeRO-3 для эффективного распределения модели и оптимизатора
- Generation нода: отдельный vLLM сервер для генерации кандидатов через HTTP API
- Correction post training
Авторы: Сапрыкин Матвей Софронов Юрий Костылев Александр