Alibaba Qwen QwQ-32B

Команда Qwen успешно интегрировала возможности агента в модель рассуждения, позволяя ей критически мыслить, использовать инструменты и адаптировать свои рассуждения на основе экологической обратной связи.
«Scaling RL имеет потенциал для повышения производительности модели за пределами обычных методов предварительной подготовки и после обучения», — говорится в заявлении команды. «Недавние исследования показали, что RL может значительно улучшить возможности мышления моделей».
QwQ-32B достигает производительности, сопоставимой с DeepSeek-R1, которая может похвастаться 671 миллиардом параметров (с 37 миллиардами активированных), что свидетельствует об эффективности RL при применении к надежным моделям фундамента, предварительно обученным на обширных мировых знаниях. Этот замечательный результат подчеркивает потенциал RL для преодоления разрыва между размером модели и производительностью.
Модель была оценена по целому ряду тестов, включая AIME24, LiveCodeBench, LiveBench, IFEval и BFCL, предназначенных для оценки ее математических рассуждений, навыков кодирования и общих возможностей решения проблем.
Результаты показывают производительность QwQ-32B по сравнению с другими ведущими моделями, включая DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini и оригинальный DeepSeek-R1.
Ориентировочные результаты:
- AIME24: QwQ-32B достиг 79,5, немного отставая от DeepSeek-R1-6718 с 79,8, но значительно опережая OpenAl-o1-mini 63.6 и дистиллированных моделей.
- LiveCodeBench: QwQ-32B набрал 63,4 балла, что снова близко соответствует показателям DeepSeek-R1-6718 65,9 и превосходит дистиллированные модели и 53,8 OpenAl-o1-mini.
- LiveBench: QwQ-32B достиг 73,1, с DeepSeek-R1-6718, набравшим 71,6 балла, и превзошел дистиллированные модели и OpenAl-o1-mini 57,5.
- IFEval: QwQ-32B набрал 83,9 балла, что очень близко к 83,3 у DeepSeek-R1-6718, и лидирует в дистиллированных моделях и OpenAl-o1-mini 59.1.
- BFCL: QwQ-32B достиг 66,4, при этом DeepSeek-R1-6718 набрал 62,8, продемонстрировав преимущество над дистиллированными моделями и 49,3 у OpenAl-o1-mini.
Подход команды Qwen включал контрольную точку холодного старта и многоступенчатый процесс RL, обусловленный вознаграждениями, основанными на результатах. Начальный этап был сосредоточен на масштабировании RL для математических и кодовых задач, использовании проверяющих точность и серверов выполнения кода. Вторая стадия расширилась до общих возможностей, включая вознаграждения от общих моделей вознаграждения и верификаторов, основанных на правилах.
«Мы обнаружили, что этот этап обучения RL с небольшим количеством шагов может повысить производительность других общих возможностей, таких как следование инструкциям, согласование с предпочтениями человека и производительность агента, без значительного снижения производительности в математике и кодировании», - объяснила команда.
QwQ-32B имеет открытый вес и доступен на Hugging Face и ModelScope под лицензией Apache 2.0, а также доступен через Qwen Chat. Команда Qwen рассматривает это как первый шаг в масштабировании RL для расширения возможностей рассуждения и стремится к дальнейшему изучению интеграции агентов с RL для длинных горизонтальных рассуждений.
«Поскольку мы работаем над разработкой следующего поколения Qwen, мы уверены, что объединение более сильных базовых моделей с RL, основанных на масштабируемых вычислительных ресурсах, приблизит нас к достижению искусственного общего интеллекта (AGI)», — говорится в заявлении команды.