Alibaba Lança MAI-UI, Agente de IA que Controla Android de Forma Autônoma
-
Maicon Ramos
- 4 minutos de leitura
Navegue por tópicos
A Alibaba anunciou o MAI-UI, uma família de agentes de IA open-source capaz de controlar smartphones Android sem intervenção humana. O sistema usa uma arquitetura inovadora que combina processamento local e em nuvem para executar tarefas complexas.
- Supera Concorrentes: Desempenho superior ao Gemini-2.5-Pro em benchmarks como AndroidWorld (76,7% de sucesso).
- Arquitetura Híbrida: Agente leve no celular para privacidade e rapidez, escalando para a nuvem em tarefas complexas.
- Disponibilidade: Open-source, com código e pesos dos modelos disponíveis para desenvolvedores testarem.
O Tongyi Lab, braço de inteligência artificial da Alibaba Group, anunciou o MAI-UI, uma família de agentes de IA open-source projetados para controlar smartphones Android de forma autônoma. Os modelos, que variam de 2 bilhões a 235 bilhões de parâmetros, conseguem executar tarefas complexas e multi-etapas, como reservar passagens ou agendar reuniões, usando comandos em linguagem natural, sem intervenção humana constante. O avanço foi detalhado em um artigo técnico no arXiv e já apresenta desempenho superior a rivais como Gemini e UI-Tars-2 em benchmarks específicos.
De acordo com a documentação oficial, o MAI-UI opera em dois ambientes: um agente menor executa tarefas diretamente no smartphone, garantindo baixa latência e privacidade, enquanto um agente mais poderoso na nuvem assume quando a tarefa excede a capacidade local. Essa arquitetura device-cloud permite escalabilidade e alta performance, mesmo em tarefas que exigem processamento visual e raciocínio complexo. Para proteger a privacidade do usuário, um Privacy Monitor escaneia a tela em busca de dados sensíveis como senhas ou cartões de crédito, bloqueando o envio dessas informações para a nuvem.
As demonstrações divulgadas mostram o sistema navegando por múltiplos aplicativos. Em um dos vídeos, o agente consegue reservar uma passagem de trem, ajustar um compromisso na agenda e enviar uma mensagem de confirmação para um contato, tudo com um único comando inicial. Confira a demonstração detalhada a seguir:
A Alibaba oferece várias versões do MAI-UI para diferentes casos de uso. O MAI-UI-2B é um modelo compacto otimizado para rodar localmente, garantindo privacidade e resposta rápida para tarefas do dia a dia. Já o MAI-UI-235B-A22B é um modelo gigante, hospedado na nuvem, capaz de resolver problemas de alta complexidade que demandam um conhecimento mais profundo. As versões intermediárias, como MAI-UI-8B e MAI-UI-32B, oferecem um equilíbrio entre performance e custo computacional.
O desempenho do agente foi validado em benchmarks públicos. No AndroidWorld, um teste que avalia a capacidade de navegação em apps, o MAI-UI atingiu 76.7% de sucesso. No MobileWorld, que simula 201 tarefas do mundo real em 20 aplicativos, o sistema alcançou 41.7% de completude geral, superando baselines anteriores em 20,8 pontos percentuais e se mostrando competitivo com o Gemini 3 Pro, da Google.
Em comparação com outros agentes de IA, a principal inovação do MAI-UI é a capacidade de interagir com o usuário quando uma tarefa é ambígua. A ação `ask_user` permite que o agente pause a execução e peça esclarecimentos, como “Qual relatório você quer que eu envie?”. Além disso, o suporte ao Model Context Protocol (MCP) permite que o agente transforme sequências longas de cliques em chamadas de API, otimizando drasticamente o fluxo de trabalho.
Ao contrário de alguns concorrentes, o MAI-UI da Alibaba está disponível como open-source. O código-fonte e os pesos dos modelos podem ser acessados através de repositórios como o SourceForge, o que incentiva a experimentação e o desenvolvimento pela comunidade.
Apesar dos avanços, especialistas apontam desafios que ainda precisam ser superados. A complexidade e a falta de padronização das interfaces gráficas (UI) de aplicativos móveis podem gerar falhas em cenários fora dos benchmarks. Com uma taxa de sucesso de 41,7% no MobileWorld, quase 58% das tarefas reais ainda podem falhar, indicando que a robustez total ainda é uma meta a ser alcançada e que o sistema deve ser usado com supervisão.
Além dos desafios técnicos, a automação autônoma de smartphones levanta preocupações sobre segurança e privacidade. Embora o monitor de privacidade seja uma barreira importante, falhas na detecção de dados sensíveis poderiam resultar em vazamentos. A permissão para que um agente de IA controle funcionalidades do sistema e apli-cativos exige um alto nível de confiança e controles de segurança rigorosos.













