Tencent lança HunyuanOCR open-source e lidera OCR

Tencent lança HunyuanOCR open-source e lidera OCR

Navegue por tópicos

A Tencent lançou o HunyuanOCR em 25/11/2025, modelo OCR open-source que unifica detecção, reconhecimento e análise em uma etapa.

  • Desempenho: 94.1 no OmniDocBench, acima do Gemini.
  • Recursos: Extração estrutural, LaTeX, tradução em 14 idiomas.
  • Latência: 0,8s por página A4.
  • Limitações: Fraco em baixa DPI e scripts não latinos.

A Tencent, por meio de sua divisão Hunyuan, lançou o HunyuanOCR em 25 de novembro de 2025. O modelo de reconhecimento óptico de caracteres (OCR) open-source, com 1 bilhão de parâmetros, processa documentos em uma única passagem end-to-end, unificando detecção de texto, reconhecimento, análise estrutural e tradução.

Disponível no GitHub oficial e Hugging Face, o HunyuanOCR visa eliminar erros de sistemas em cascata tradicionais, reduzindo latência em até 60%, conforme benchmarks internos citados em MarkTechPost.

Arquitetura Inovadora

O modelo usa um codificador visual Hunyuan ViT baseado em SigLIP-v2-400M com patching adaptativo, preservando proporções nativas de imagens. Um conector MLP adaptativo alinha visuais com texto, e um LLM leve de 0,5B parâmetros gerencia interpretação.

Desempenho destacado:

  • OmniDocBench: 94,1 pontos (vs. 93,7 do Gemini 1.5 Pro).
  • OCRBench: 860 pontos, recorde para modelos sub-3B.
  • Latência: 0,8 segundos por página A4 em RTX 4090.

Capacidades Principais

  • Reconhecimento de fórmulas em LaTeX.
  • Extração para HTML com tabelas preservadas.
  • Tradução bidirecional em 14 idiomas.
  • Análise de ordem de leitura e legendas de vídeo.

Setores beneficiados incluem finanças, educação e mídia, em um mercado OCR de US$ 22 bilhões até 2026, per Gartner.

O Lado B: Limitações e Críticas

Apesar dos avanços, o modelo cai 18% em precisão abaixo de 100 DPI e tem suporte limitado a scripts não latinos, como árabe. Requer 4,2GB VRAM para inferência ótima, limitando uso móvel.

Críticas incluem viés para chinês (22% mais preciso que inglês), dataset não divulgado e dependência de biblioteca proprietária Hunyuan Core, conforme debates na comunidade via AIBase.

Riscos envolvem falta de compliance GDPR em dados sensíveis e potencial para confiança excessiva em documentos críticos.

Uso Prático e Requisitos

Licença MIT permite uso comercial. Executa em GPUs com 4GB VRAM; CPUs levam 8-10s por página. Integração web exige Python 3.10+, Torch 2.4+ e Docker recomendado.

Comparado a Google Keep ou Adobe Scan, supera em precisão para tabelas e fórmulas, mas sem apps móveis nativos.

Foto de Maicon Ramos

Maicon Ramos

Infoprodutor e especialista em automações de Marketing, fundador do Automação sem Limites, uma comunidade para ajudar empreendedores e startup.