Tencent lança HunyuanOCR open-source e lidera OCR
-
Maicon Ramos
- 2 minutos de leitura
Navegue por tópicos
A Tencent lançou o HunyuanOCR em 25/11/2025, modelo OCR open-source que unifica detecção, reconhecimento e análise em uma etapa.
- Desempenho: 94.1 no OmniDocBench, acima do Gemini.
- Recursos: Extração estrutural, LaTeX, tradução em 14 idiomas.
- Latência: 0,8s por página A4.
- Limitações: Fraco em baixa DPI e scripts não latinos.
A Tencent, por meio de sua divisão Hunyuan, lançou o HunyuanOCR em 25 de novembro de 2025. O modelo de reconhecimento óptico de caracteres (OCR) open-source, com 1 bilhão de parâmetros, processa documentos em uma única passagem end-to-end, unificando detecção de texto, reconhecimento, análise estrutural e tradução.
Disponível no GitHub oficial e Hugging Face, o HunyuanOCR visa eliminar erros de sistemas em cascata tradicionais, reduzindo latência em até 60%, conforme benchmarks internos citados em MarkTechPost.
Arquitetura Inovadora
O modelo usa um codificador visual Hunyuan ViT baseado em SigLIP-v2-400M com patching adaptativo, preservando proporções nativas de imagens. Um conector MLP adaptativo alinha visuais com texto, e um LLM leve de 0,5B parâmetros gerencia interpretação.
Desempenho destacado:
- OmniDocBench: 94,1 pontos (vs. 93,7 do Gemini 1.5 Pro).
- OCRBench: 860 pontos, recorde para modelos sub-3B.
- Latência: 0,8 segundos por página A4 em RTX 4090.
Capacidades Principais
- Reconhecimento de fórmulas em LaTeX.
- Extração para HTML com tabelas preservadas.
- Tradução bidirecional em 14 idiomas.
- Análise de ordem de leitura e legendas de vídeo.
Setores beneficiados incluem finanças, educação e mídia, em um mercado OCR de US$ 22 bilhões até 2026, per Gartner.
O Lado B: Limitações e Críticas
Apesar dos avanços, o modelo cai 18% em precisão abaixo de 100 DPI e tem suporte limitado a scripts não latinos, como árabe. Requer 4,2GB VRAM para inferência ótima, limitando uso móvel.
Críticas incluem viés para chinês (22% mais preciso que inglês), dataset não divulgado e dependência de biblioteca proprietária Hunyuan Core, conforme debates na comunidade via AIBase.
Riscos envolvem falta de compliance GDPR em dados sensíveis e potencial para confiança excessiva em documentos críticos.
Uso Prático e Requisitos
Licença MIT permite uso comercial. Executa em GPUs com 4GB VRAM; CPUs levam 8-10s por página. Integração web exige Python 3.10+, Torch 2.4+ e Docker recomendado.
Comparado a Google Keep ou Adobe Scan, supera em precisão para tabelas e fórmulas, mas sem apps móveis nativos.














