Xiaomi разогнала ИИ до 1200 токенов/сек без кастомных чипов

Xiaomi и TileRT первыми преодолели 1000 токенов/сек на триллионном ИИ — стандартными GPU без спецчипов. В основе — FP4-квантизация и блочный DFlash-декодинг. Веса уже на Hugging Face.

Тысяча токенов в секунду на модели с триллионом параметров — для такого рекорда Xiaomi и их партнёр по инференсу TileRT обошлись обычным кластером из восьми потребительских GPU. Пик в демонстрациях — около 1200 токенов/сек. Для сравнения: GPT-5.5 выдаёт порядка 68 токенов в секунду, Claude Opus 4.6 — около 71. Разрыв в 15–17 раз.

Результат достигнут двумя техниками. Первая: FP4-квантизация — веса в экспертных слоях модели сжимаются до 4 бит, а остальные компоненты остаются в полной точности. Потеря качества почти нулевая, зато давление на память снимается радикально. Вторая: DFlash speculative decoding — вместо последовательной генерации токен-за-токеном система предлагает целый блок за один прогон вперёд и сразу верифицирует его. В задачах на код принимается 6.3 из каждых 8 предложенных токенов. TileRT держит весь вычислительный граф внутри GPU, устраняя накладные расходы на запуск операторов.

На практике это означает: десятки параллельных инференсов без заметной задержки, генерация кода почти в реальном времени, применимость в трейдинге, медицине и агентных системах, где задержки стоят денег. Ограниченный API-трайал работает с сегодняшнего дня до 23 июня по цене 3× от стандартного MiMo. Веса MiMo-V2.5-Pro-FP4-DFlash уже выложены на Hugging Face.

Интереснее всего не цифры сами по себе, а то, что за ними стоит. Groq строит специализированный чип. Cerebras вытравливает процессоры размером с пластину. Xiaomi преодолела тот же барьер алгоритмами поверх стандартного железа. Открытый вопрос для отрасли: сколько ещё скрытой производительности лежит в обычных GPU — и насколько дорогостоящие кастомные ускорители теряют преимущество, когда конкурент выжимает 1200 токенов/сек с восьми серийных видеокарт?

Вопросы и ответы

Частые вопросы по теме статьи

Что такое Xiaomi MiMo-V2.5-Pro-UltraSpeed?

Это версия триллионной языковой модели MiMo от Xiaomi, оптимизированная для рекордной скорости инференса — более 1000 токенов в секунду на стандартном кластере из 8 GPU.

Как работает FP4-квантизация?

FP4 сжимает веса в экспертных слоях до 4 бит, уменьшая нагрузку на память почти без потери качества. Остальные части модели остаются в полной точности.

Что такое DFlash speculative decoding?

Вместо генерации одного токена за раз DFlash предлагает целый блок токенов за один прогон модели и сразу верифицирует его, принимая 6.3 из 8 токенов в задачах на код.

Доступна ли модель для использования прямо сейчас?

Веса модели уже открыты на Hugging Face. Ограниченный API-трайал доступен с 9 по 23 июня 2026 года по заявке. Цена — 3× от стандартного тарифа MiMo.

Зачем нужна такая скорость инференса?

Высокая скорость позволяет запускать десятки параллельных агентных процессов без задержки, что критично для трейдинга, медицины и сложных агентных систем, где ожидание стоит денег.

Читают также

Новости

OpenAI предложила передать 5% акций в суверенный фонд США

Сэм Олтман предложил Белому дому передать 5% акций OpenAI в американский суверенный фонд. При оценке компании в $852 млрд пакет стоит около $42,6 млрд. Аналогичные доли должны отдать Anthropic, Google и Meta.

30 минут назад

4 мин

Новости

Microsoft встраивает 6 000 инженеров в компании клиентов — бюджет $2,5 млрд

Microsoft запустила Frontier Company — подразделение с $2,5 млрд бюджетом и 6 000 инженерами, которые работают прямо у клиентов и помогают им реально внедрить ИИ, а не просто купить подписку.

4 часа назад

4 мин

Новости

OFAC заморозил 134 кошелька ISIS-K — Tether исполнил за минуты

OFAC внёс 134 кошелька ISIS-K в санкционный список — и Tether немедленно заморозил 131 USDT-адрес в TRON. Три кошелька Monero остались нетронутыми: их заморозить технически невозможно.

7 часов назад

4 мин