Kling O1: Modelo Unificado de Vídeo Supera Veo e Runway
-
Maicon Ramos
- 3 minutos de leitura
Navegue por tópicos
A Kling, da Kuaishou, lançou o O1, primeiro modelo unificado de vídeo generativo com suporte a sete entradas simultâneas.
- Permite substituição de personagens e edições textuais precisas em clipes de 3-10s.
- Supera Veo 3.1 e Runway Aleph em testes de consistência.
- Custa US$ 0,84 por 5s via Fal.ai; acesso gratuito limitado.
- Limitações: degradação após 30s e riscos de IP em servidores chineses.
A Kuaishou Technology, gigante chinesa de redes sociais, lançou o Kling O1 em 26 de novembro de 2024, via sua divisão de IA generativa de vídeo. O modelo unifica geração e edição em um fluxo multimodal, aceitando até sete entradas simultâneas para clipes de 3 a 10 segundos.
Disponível na plataforma Kling AI e via API da Fal.ai desde 1º de dezembro de 2024, o O1 permite operações como substituição de personagens e edições granulares baseadas em texto.
Entradas Multimodais e Capacidades
O Kling O1 processa texto, vídeo de referência (até 200MB), até quatro elementos (personagens ou objetos) e quatro imagens de estilo. Isso garante consistência em mudanças de cena, superando limitações de rivais como Veo 3.1 e Runway Aleph em benchmarks internos de FID (12.8 vs. 24.1).
- Controle de câmera: Suporte a dolly, pan e handheld para simulações cinematográficas.
- Saída: Até 120 segundos em 1080p/30fps, com opção de preservar áudio original.
- Edição textual: Comandos como "substituir @Element1 por @Element2" com transições suaves.
De acordo com o guia oficial da Kling, o modelo usa um encoder unificado para correlacionar entradas em tokens, eliminando pipelines fragmentados.
Preços e Acesso
| Duração | Custo (Fal.ai) |
|---|---|
| 5 segundos | US$ 0,84 |
| 10 segundos | US$ 1,68 |
Acesso gratuito limita-se a três vídeos de 5s por dia. Uso comercial exige parceria via Fal.ai ou plataformas como Freepik, com taxas extras para referências de personagens (+15%) e 4K (+30%).
O Lado B: Limitações e Críticas
Apesar das promessas, testes da Higgsfield.ai mostram degradação de consistência após 25-30 segundos, especialmente em cenas de ação. Outputs longos demandam reprocessamento manual.
Questões de privacidade surgem: inputs são processados em servidores da Kuaishou, com termos que concedem direitos sobre os dados. Críticos como Andrew Karpathy notam que o O1 brilha em edição com referências, mas perde em geração criativa pura para modelos como Sora.
No setor de VFX, o O1 acelera pré-visualizações, mas ameaça empregos em storyboarding. A Kuaishou domina 78% do mercado asiático de vídeo IA, expandindo globalmente.













