ByteDance lança Vidi: IA edita vídeos com precisão espacial

ByteDance lança Vidi: IA edita vídeos com precisão espacial

Navegue por tópicos

A ByteDance lançou o Vidi em 1º de dezembro de 2025, um modelo de IA para compreensão e edição de vídeos longos com precisão espaciotemporal.

  • Identifica momentos e localiza objetos em vídeos de horas.
  • Integração gratuita no TikTok com Smart Split.
  • Código aberto no GitHub.
  • Exige pelo menos 16GB RAM para uso avançado; riscos de deepfakes.

A ByteDance, empresa por trás do TikTok, anunciou em 1º de dezembro de 2025 o lançamento do Vidi (também chamado Vidi2), uma família de modelos multimodais para compreensão e edição de vídeo. O modelo permite localizar com precisão objetos e eventos em vídeos longos, via prompts de texto simples.

O anúncio ocorreu via repositório no GitHub, site oficial em bytedance.github.io/vidi-website e paper técnico no arXiv.

Capacidades Principais

O Vidi possui 12 bilhões de parâmetros e usa compressão adaptativa de tokens para processar horas de vídeo sem perda significativa de desempenho. Suas funções incluem:

  • Retrieval temporal: Identifica segundos exatos de eventos, como “cena do gato pulando”.
  • Localização espacial: Fornece bounding boxes atualizados por quadro para objetos-alvo.
  • Compreensão narrativa: Analisa estruturas de cenas e gera outlines com títulos, roteiros e hashtags.

No TikTok, integra-se via Smart Split, que transforma vídeos longos em clipes curtos otimizados, e AI Outline para estruturas completas.

Implementação e Requisitos

O modelo roda em hardware de consumo com 16GB de RAM mínima recomendada e GPU CUDA para setups personalizados. No TikTok, acessível via app atualizado em smartphones compatíveis, sem custos extras. Vídeos longos podem exigir transcodificação prévia com ffmpeg.

Limitações e Críticas

Apesar dos avanços, o Vidi apresenta restrições. A precisão espacial cai em cenas de alta movimentação ou objetos pequenos. Não edita áudio separadamente e carece de integração fora do ecossistema ByteDance.

Preocupações incluem facilitação de deepfakes, viés em vídeos com pessoas de pele escura e impacto em editores profissionais. O paper no arXiv confirma viés algorítmico devido aos dados de treinamento. Direitos autorais de edições geradas permanecem incertos.

Estudos indicam alto consumo energético, equivalente a 30 minutos de uso de smartphone por minuto processado.

Comparação e Contexto

O Vidi rivaliza com o Qwen2.5-VL-7B em tarefas de vídeo, focando em edição automatizada para criadores sem expertise técnica.

Foto de Maicon Ramos

Maicon Ramos

Infoprodutor e especialista em automações de Marketing, fundador do Automação sem Limites, uma comunidade para ajudar empreendedores e startup.