Xiaomi разогнала ИИ до 1200 токенов/сек без кастомных чипов

iEXExchanger
Xiaomi разогнала ИИ до 1200 токенов/сек без кастомных чипов

Xiaomi и TileRT первыми преодолели 1000 токенов/сек на триллионном ИИ — стандартными GPU без спецчипов. В основе — FP4-квантизация и блочный DFlash-декодинг. Веса уже на Hugging Face.

Тысяча токенов в секунду на модели с триллионом параметров — для такого рекорда Xiaomi и их партнёр по инференсу TileRT обошлись обычным кластером из восьми потребительских GPU. Пик в демонстрациях — около 1200 токенов/сек. Для сравнения: GPT-5.5 выдаёт порядка 68 токенов в секунду, Claude Opus 4.6 — около 71. Разрыв в 15–17 раз.

Результат достигнут двумя техниками. Первая: FP4-квантизация — веса в экспертных слоях модели сжимаются до 4 бит, а остальные компоненты остаются в полной точности. Потеря качества почти нулевая, зато давление на память снимается радикально. Вторая: DFlash speculative decoding — вместо последовательной генерации токен-за-токеном система предлагает целый блок за один прогон вперёд и сразу верифицирует его. В задачах на код принимается 6.3 из каждых 8 предложенных токенов. TileRT держит весь вычислительный граф внутри GPU, устраняя накладные расходы на запуск операторов.

На практике это означает: десятки параллельных инференсов без заметной задержки, генерация кода почти в реальном времени, применимость в трейдинге, медицине и агентных системах, где задержки стоят денег. Ограниченный API-трайал работает с сегодняшнего дня до 23 июня по цене 3× от стандартного MiMo. Веса MiMo-V2.5-Pro-FP4-DFlash уже выложены на Hugging Face.

Интереснее всего не цифры сами по себе, а то, что за ними стоит. Groq строит специализированный чип. Cerebras вытравливает процессоры размером с пластину. Xiaomi преодолела тот же барьер алгоритмами поверх стандартного железа. Открытый вопрос для отрасли: сколько ещё скрытой производительности лежит в обычных GPU — и насколько дорогостоящие кастомные ускорители теряют преимущество, когда конкурент выжимает 1200 токенов/сек с восьми серийных видеокарт?

Вопросы и ответы

Частые вопросы по теме статьи

Что такое Xiaomi MiMo-V2.5-Pro-UltraSpeed?

Это версия триллионной языковой модели MiMo от Xiaomi, оптимизированная для рекордной скорости инференса — более 1000 токенов в секунду на стандартном кластере из 8 GPU.

Как работает FP4-квантизация?

FP4 сжимает веса в экспертных слоях до 4 бит, уменьшая нагрузку на память почти без потери качества. Остальные части модели остаются в полной точности.

Что такое DFlash speculative decoding?

Вместо генерации одного токена за раз DFlash предлагает целый блок токенов за один прогон модели и сразу верифицирует его, принимая 6.3 из 8 токенов в задачах на код.

Доступна ли модель для использования прямо сейчас?

Веса модели уже открыты на Hugging Face. Ограниченный API-трайал доступен с 9 по 23 июня 2026 года по заявке. Цена — 3× от стандартного тарифа MiMo.

Зачем нужна такая скорость инференса?

Высокая скорость позволяет запускать десятки параллельных агентных процессов без задержки, что критично для трейдинга, медицины и сложных агентных систем, где ожидание стоит денег.