Тысяча токенов в секунду на модели с триллионом параметров — для такого рекорда Xiaomi и их партнёр по инференсу TileRT обошлись обычным кластером из восьми потребительских GPU. Пик в демонстрациях — около 1200 токенов/сек. Для сравнения: GPT-5.5 выдаёт порядка 68 токенов в секунду, Claude Opus 4.6 — около 71. Разрыв в 15–17 раз.
Результат достигнут двумя техниками. Первая: FP4-квантизация — веса в экспертных слоях модели сжимаются до 4 бит, а остальные компоненты остаются в полной точности. Потеря качества почти нулевая, зато давление на память снимается радикально. Вторая: DFlash speculative decoding — вместо последовательной генерации токен-за-токеном система предлагает целый блок за один прогон вперёд и сразу верифицирует его. В задачах на код принимается 6.3 из каждых 8 предложенных токенов. TileRT держит весь вычислительный граф внутри GPU, устраняя накладные расходы на запуск операторов.
На практике это означает: десятки параллельных инференсов без заметной задержки, генерация кода почти в реальном времени, применимость в трейдинге, медицине и агентных системах, где задержки стоят денег. Ограниченный API-трайал работает с сегодняшнего дня до 23 июня по цене 3× от стандартного MiMo. Веса MiMo-V2.5-Pro-FP4-DFlash уже выложены на Hugging Face.
Интереснее всего не цифры сами по себе, а то, что за ними стоит. Groq строит специализированный чип. Cerebras вытравливает процессоры размером с пластину. Xiaomi преодолела тот же барьер алгоритмами поверх стандартного железа. Открытый вопрос для отрасли: сколько ещё скрытой производительности лежит в обычных GPU — и насколько дорогостоящие кастомные ускорители теряют преимущество, когда конкурент выжимает 1200 токенов/сек с восьми серийных видеокарт?



