Alibaba Lança MAI-UI, Agente de IA que Controla Android de Forma Autônoma

Maicon Ramos
07/01/2026
4 minutos de leitura

A Alibaba anunciou o MAI-UI, uma família de agentes de IA open-source capaz de controlar smartphones Android sem intervenção humana. O sistema usa uma arquitetura inovadora que combina processamento local e em nuvem para executar tarefas complexas.

Supera Concorrentes: Desempenho superior ao Gemini-2.5-Pro em benchmarks como AndroidWorld (76,7% de sucesso).
Arquitetura Híbrida: Agente leve no celular para privacidade e rapidez, escalando para a nuvem em tarefas complexas.
Disponibilidade: Open-source, com código e pesos dos modelos disponíveis para desenvolvedores testarem.

O Tongyi Lab, braço de inteligência artificial da Alibaba Group, anunciou o MAI-UI, uma família de agentes de IA open-source projetados para controlar smartphones Android de forma autônoma. Os modelos, que variam de 2 bilhões a 235 bilhões de parâmetros, conseguem executar tarefas complexas e multi-etapas, como reservar passagens ou agendar reuniões, usando comandos em linguagem natural, sem intervenção humana constante. O avanço foi detalhado em um artigo técnico no arXiv e já apresenta desempenho superior a rivais como Gemini e UI-Tars-2 em benchmarks específicos.

De acordo com a documentação oficial, o MAI-UI opera em dois ambientes: um agente menor executa tarefas diretamente no smartphone, garantindo baixa latência e privacidade, enquanto um agente mais poderoso na nuvem assume quando a tarefa excede a capacidade local. Essa arquitetura device-cloud permite escalabilidade e alta performance, mesmo em tarefas que exigem processamento visual e raciocínio complexo. Para proteger a privacidade do usuário, um Privacy Monitor escaneia a tela em busca de dados sensíveis como senhas ou cartões de crédito, bloqueando o envio dessas informações para a nuvem.

As demonstrações divulgadas mostram o sistema navegando por múltiplos aplicativos. Em um dos vídeos, o agente consegue reservar uma passagem de trem, ajustar um compromisso na agenda e enviar uma mensagem de confirmação para um contato, tudo com um único comando inicial. Confira a demonstração detalhada a seguir:

A Alibaba oferece várias versões do MAI-UI para diferentes casos de uso. O MAI-UI-2B é um modelo compacto otimizado para rodar localmente, garantindo privacidade e resposta rápida para tarefas do dia a dia. Já o MAI-UI-235B-A22B é um modelo gigante, hospedado na nuvem, capaz de resolver problemas de alta complexidade que demandam um conhecimento mais profundo. As versões intermediárias, como MAI-UI-8B e MAI-UI-32B, oferecem um equilíbrio entre performance e custo computacional.

O desempenho do agente foi validado em benchmarks públicos. No AndroidWorld, um teste que avalia a capacidade de navegação em apps, o MAI-UI atingiu 76.7% de sucesso. No MobileWorld, que simula 201 tarefas do mundo real em 20 aplicativos, o sistema alcançou 41.7% de completude geral, superando baselines anteriores em 20,8 pontos percentuais e se mostrando competitivo com o Gemini 3 Pro, da Google.

Em comparação com outros agentes de IA, a principal inovação do MAI-UI é a capacidade de interagir com o usuário quando uma tarefa é ambígua. A ação `ask_user` permite que o agente pause a execução e peça esclarecimentos, como “Qual relatório você quer que eu envie?”. Além disso, o suporte ao Model Context Protocol (MCP) permite que o agente transforme sequências longas de cliques em chamadas de API, otimizando drasticamente o fluxo de trabalho.

Ao contrário de alguns concorrentes, o MAI-UI da Alibaba está disponível como open-source. O código-fonte e os pesos dos modelos podem ser acessados através de repositórios como o SourceForge, o que incentiva a experimentação e o desenvolvimento pela comunidade.

Apesar dos avanços, especialistas apontam desafios que ainda precisam ser superados. A complexidade e a falta de padronização das interfaces gráficas (UI) de aplicativos móveis podem gerar falhas em cenários fora dos benchmarks. Com uma taxa de sucesso de 41,7% no MobileWorld, quase 58% das tarefas reais ainda podem falhar, indicando que a robustez total ainda é uma meta a ser alcançada e que o sistema deve ser usado com supervisão.

Além dos desafios técnicos, a automação autônoma de smartphones levanta preocupações sobre segurança e privacidade. Embora o monitor de privacidade seja uma barreira importante, falhas na detecção de dados sensíveis poderiam resultar em vazamentos. A permissão para que um agente de IA controle funcionalidades do sistema e apli-cativos exige um alto nível de confiança e controles de segurança rigorosos.

Treinamentos

Alibaba Lança MAI-UI, Agente de IA que Controla Android de Forma Autônoma

Navegue por tópicos

Maicon Ramos

OpenAI Codex cria jogo completo com um único prompt estruturado

IA Mais que Dobra Produção de Código, mas Ganhos São Desiguais

Apple Renova Siri com IA do Google Gemini para Competir com ChatGPT

Anthropic Lança Claude Opus 4.8 e Desafia OpenAI

Guia ensina a treinar IA para editar no seu estilo

AWS destaca bases sólidas para escalar agentic AI corporativo

Categorias

Soluções

Inscreva-se em nossa newsletter