Qwen3.5-Omni foi lançado hoje (30 de março de 2026) pelo Tongyi Lab do Alibaba. Este modelo omnimodal pode compreender texto, imagens, áudio e vídeo e gerar texto e fala. Principais recursos: Arquitetura Thinker-Talker com mistura de atenção híbrida de especialistas, contexto de token de 256 mil, mais de 100 milhões de horas de treinamento multimodal, reconhecimento de fala em 113 idiomas, tecnologia ARIA para alinhamento de texto-fala e codificação de vibração audiovisual (assista a vídeos e escreva código funcional). Supera o Gemini 3.1 Pro em compreensão de áudio/vídeo e supera o ElevenLabs/GPT-Audio em benchmarks de voz. Acesso via API DashScope ou HuggingFace Transformers (80 GB VRAM para modelo completo).
Continuar lendo
Codificação de vibração audiovisual com Qwen3.5-Omni: escreva código apenas a partir de vídeo
sobre SitePoint.





