Канал в телеграммКанал в Дзен

Alibaba Qwen QwQ-32B

Alibaba Qwen QwQ-32B: Масштабная демонстрация обучения с подкреплением
Дата публикации 5 дней назад
Время на прочтение 3 мин
Команда Qwen в Alibaba представила QwQ-32B, модель AI с 32-миллиардным параметрами, которая демонстрирует производительность, конкурирующую с гораздо более крупным DeepSeek-R1. Этот прорыв подчеркивает потенциал масштабирования Reinforcement Learning (RL) на надежных базовых моделях.

Команда Qwen успешно интегрировала возможности агента в модель рассуждения, позволяя ей критически мыслить, использовать инструменты и адаптировать свои рассуждения на основе экологической обратной связи.

«Scaling RL имеет потенциал для повышения производительности модели за пределами обычных методов предварительной подготовки и после обучения», — говорится в заявлении команды. «Недавние исследования показали, что RL может значительно улучшить возможности мышления моделей».

QwQ-32B достигает производительности, сопоставимой с DeepSeek-R1, которая может похвастаться 671 миллиардом параметров (с 37 миллиардами активированных), что свидетельствует об эффективности RL при применении к надежным моделям фундамента, предварительно обученным на обширных мировых знаниях. Этот замечательный результат подчеркивает потенциал RL для преодоления разрыва между размером модели и производительностью.

Модель была оценена по целому ряду тестов, включая AIME24, LiveCodeBench, LiveBench, IFEval и BFCL, предназначенных для оценки ее математических рассуждений, навыков кодирования и общих возможностей решения проблем.

Результаты показывают производительность QwQ-32B по сравнению с другими ведущими моделями, включая DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini и оригинальный DeepSeek-R1.

Ориентировочные результаты:

  1. AIME24: QwQ-32B достиг 79,5, немного отставая от DeepSeek-R1-6718 с 79,8, но значительно опережая OpenAl-o1-mini 63.6 и дистиллированных моделей.
  2. LiveCodeBench: QwQ-32B набрал 63,4 балла, что снова близко соответствует показателям DeepSeek-R1-6718 65,9 и превосходит дистиллированные модели и 53,8 OpenAl-o1-mini.
  3. LiveBench: QwQ-32B достиг 73,1, с DeepSeek-R1-6718, набравшим 71,6 балла, и превзошел дистиллированные модели и OpenAl-o1-mini 57,5.
  4. IFEval: QwQ-32B набрал 83,9 балла, что очень близко к 83,3 у DeepSeek-R1-6718, и лидирует в дистиллированных моделях и OpenAl-o1-mini 59.1.
  5. BFCL: QwQ-32B достиг 66,4, при этом DeepSeek-R1-6718 набрал 62,8, продемонстрировав преимущество над дистиллированными моделями и 49,3 у OpenAl-o1-mini.

Подход команды Qwen включал контрольную точку холодного старта и многоступенчатый процесс RL, обусловленный вознаграждениями, основанными на результатах. Начальный этап был сосредоточен на масштабировании RL для математических и кодовых задач, использовании проверяющих точность и серверов выполнения кода. Вторая стадия расширилась до общих возможностей, включая вознаграждения от общих моделей вознаграждения и верификаторов, основанных на правилах.

«Мы обнаружили, что этот этап обучения RL с небольшим количеством шагов может повысить производительность других общих возможностей, таких как следование инструкциям, согласование с предпочтениями человека и производительность агента, без значительного снижения производительности в математике и кодировании», - объяснила команда.

QwQ-32B имеет открытый вес и доступен на Hugging Face и ModelScope под лицензией Apache 2.0, а также доступен через Qwen Chat. Команда Qwen рассматривает это как первый шаг в масштабировании RL для расширения возможностей рассуждения и стремится к дальнейшему изучению интеграции агентов с RL для длинных горизонтальных рассуждений.

«Поскольку мы работаем над разработкой следующего поколения Qwen, мы уверены, что объединение более сильных базовых моделей с RL, основанных на масштабируемых вычислительных ресурсах, приблизит нас к достижению искусственного общего интеллекта (AGI)», — говорится в заявлении команды.

Поделиться:
ВконтактеТелеграм