Китайская технологическая компания Alibaba выпустила QWEN3 в понедельник, семейство моделей SHI, которая, по ее словам, можно сравнить с лучшими моделями, доступными из Google и OpenAI, а в некоторых случаях превзойдет их, пишет Unn, ссылаясь на TechCrunch.
Подробности
Большинство моделей доступны или скоро будут доступны для загрузки на «открытой» лицензии на обнимающееся лицо и Github, объявляющую лицо и платформу GitHub. Они варьируются от 0,6 миллиарда параметров до 235 миллиардов параметров. Параметры приблизительно соответствуют навыкам решения задач модели, и модели со многими параметрами обычно работают лучше, чем модели с меньшим количеством параметров.
Расширение серии моделей китайского происхождения, таких как QWEN, повысило давление на лаборатории США, такие как OpenAI, на обеспечение более эффективных технологий SI. Они также побудили политиков наложить ограничения, направленные на ограничение способности китайских шиповников получать чипы, необходимые для обучения моделям.
WSJ: Китайский Huawei разрабатывает новый чип Shi, стремящийся конкурировать с Nvidia28.04.25, 09:09 • 3190 просмотров
Согласно Alibaba, модели QWEN3 являются «гибридными» моделями — им может потребоваться время, чтобы «мыслить» по сложным проблемам или быстро реагировать на более простые запросы. Рассмотрение позволяет моделям эффективно проверять факты, такие как модели, как O3 Openai, но из -за более высокой задержки.
«Мы интегрировали режимы мышления и бездумного бездумного, предлагая пользователям гибкость в управлении бюджетом мышления», — написала команда QWEN в блоге. «Этот дизайн позволяет пользователям устанавливать бюджеты для определенных задач более простой».
Некоторые модели также используют архитектуру смеси экспертов (MOE), которая может быть более эффективной с точки зрения расчетов для ответов на запросы. Мо разбивает задачу в суб -корсину и делегирует их в более мелкие специализированные «экспертные» модели.
По словам Алибабы, QWEN3 поддерживает 119 языков и обучался наборе данных почти 36 триллионов жетонов. Токены являются необработанными битами данных, которые обрабатывают модель; 1 миллион токенов эквивалентны около 750 000 слов. Компания заявила, что QWEN3 изучал сочетание учебников, «вопросов и ответов», фрагментов кода, данных, сгенерированных ИИ, и многое другое.
Эти улучшения, наряду с другими, значительно увеличили возможности QWEN3, по сравнению с его предшественником QWEN2, сказал Alibaba. Ни одна из моделей QWEN3, похоже, не превышает последних топ-моделей, таких как O3 и O4-Mini от OpenaI, но они показывают высокие результаты, отмечает исключение.
На Codeforces платформа программирования, крупнейшая QWEN3 Model-QWEN-3-235B-A22B только немного превышает O3-Mini от OpenAI и Gemini 2.5 Pro из Google. QWEN-3-235B-A22B также превышает O3-Mini в последней версии AIME, сложный математический тест и BFCL, тест для оценки способности думать о проблемах.
Крупнейшая общедоступная модель QWEN3, QWEN3-32B, все еще конкурирует с рядом собственных и открытых моделей SHI, в том числе R1 Kind Deepseek. QWEN3-32B превышает модель O1 O1 в нескольких тестах, включая эталон кодирования LiveCodeBench.
Alibaba заявил, что QWEN3 «превышает» возможности инструментов, а также соблюдение инструкций и копирование определенных форматов данных. В дополнение к загрузке моделей, QWEN3 доступен в облачных провайдерах, включая AI Fireworks AI и Hyperbolic.
Tukhin Shrivastava, соучредитель и генеральный директор Ai Basten Cloud Hosting, сказал, что QWEN3 является еще одним моментом в тенденции открытых моделей, которые содержатся с закрытыми системами, такими как OpenAI.
«Соединенные Штаты удвоили ставки по ограничениям продаж в Китае в Китае и Китае, но такие модели, как QWEN 3, которые являются современными и открытыми […], несомненно, будут использоваться в стране», — сказал он TechCrunch.
В Китае прорыв EUV для производства чипов — SCMP29.04.25, 13:49 • 2968 просмотров