LongCat-Flash-Omni

Native omni-modal model supporting streaming audio-visual interaction. 560B MoE (27B active), 128K context, millisecond-level end-to-end latency, 8+ minutes of real-time audio-visual interaction. Benchmarks: 61.4 OmniBench, 78.2 VideoMME, 88.7 VoiceBench.

Paper (arXiv)HuggingFace GitHub Announcement

Outputs 2

LongCat-Flash-Omni

model

HuggingFace GitHub

Architecture MOE

Parameters 560B

Active params 27B

LongCat-Flash-Omni Technical Report

paper 2025-10-31

Paper (arXiv)

arXiv HTML

moemultimodalaudioopen-weight

Outputs 2

LongCat-Flash-Omni

LongCat-Flash-Omni Technical Report

Related