ByteDance lança Vidi: IA edita vídeos com precisão espacial
-
Maicon Ramos
- 3 minutos de leitura
Navegue por tópicos
A ByteDance lançou o Vidi em 1º de dezembro de 2025, um modelo de IA para compreensão e edição de vídeos longos com precisão espaciotemporal.
- Identifica momentos e localiza objetos em vídeos de horas.
- Integração gratuita no TikTok com Smart Split.
- Código aberto no GitHub.
- Exige pelo menos 16GB RAM para uso avançado; riscos de deepfakes.
A ByteDance, empresa por trás do TikTok, anunciou em 1º de dezembro de 2025 o lançamento do Vidi (também chamado Vidi2), uma família de modelos multimodais para compreensão e edição de vídeo. O modelo permite localizar com precisão objetos e eventos em vídeos longos, via prompts de texto simples.
O anúncio ocorreu via repositório no GitHub, site oficial em bytedance.github.io/vidi-website e paper técnico no arXiv.
Capacidades Principais
O Vidi possui 12 bilhões de parâmetros e usa compressão adaptativa de tokens para processar horas de vídeo sem perda significativa de desempenho. Suas funções incluem:
- Retrieval temporal: Identifica segundos exatos de eventos, como “cena do gato pulando”.
- Localização espacial: Fornece bounding boxes atualizados por quadro para objetos-alvo.
- Compreensão narrativa: Analisa estruturas de cenas e gera outlines com títulos, roteiros e hashtags.
No TikTok, integra-se via Smart Split, que transforma vídeos longos em clipes curtos otimizados, e AI Outline para estruturas completas.
Implementação e Requisitos
O modelo roda em hardware de consumo com 16GB de RAM mínima recomendada e GPU CUDA para setups personalizados. No TikTok, acessível via app atualizado em smartphones compatíveis, sem custos extras. Vídeos longos podem exigir transcodificação prévia com ffmpeg.
Limitações e Críticas
Apesar dos avanços, o Vidi apresenta restrições. A precisão espacial cai em cenas de alta movimentação ou objetos pequenos. Não edita áudio separadamente e carece de integração fora do ecossistema ByteDance.
Preocupações incluem facilitação de deepfakes, viés em vídeos com pessoas de pele escura e impacto em editores profissionais. O paper no arXiv confirma viés algorítmico devido aos dados de treinamento. Direitos autorais de edições geradas permanecem incertos.
Estudos indicam alto consumo energético, equivalente a 30 minutos de uso de smartphone por minuto processado.
Comparação e Contexto
O Vidi rivaliza com o Qwen2.5-VL-7B em tarefas de vídeo, focando em edição automatizada para criadores sem expertise técnica.














