StepFun Lança GELab-Zero: Novo SOTA em Agentes GUI

StepFun Lança GELab-Zero: Novo SOTA em Agentes GUI

Navegue por tópicos

StepFun lançou o GELab-Zero-4B, primeiro agente GUI open-source para automação em Android. Alcança 73,4% de acurácia em benchmarks, rodando em hardware comum.

  • Modos: ReAct, Multi-Agent, agendados
  • Vantagens: Privacidade local, setup automático
  • Limites: Só Android, precisa ADB e 16GB RAM

StepFun anunciou o lançamento do GELab-Zero, um agente de interface gráfica (GUI) totalmente open-source para dispositivos Android, em 1º de dezembro de 2025. O modelo de 4 bilhões de parâmetros estabelece novos recordes em tarefas de interação computacional, conforme benchmarks oficiais divulgados pela empresa.

Desempenho Líder em Benchmarks

O GELab-Zero alcançou 73,4% de acurácia no benchmark AndroidDaily, superando o anterior UI-TARS-1.5 em 26,4 pontos percentuais e sendo 3,7 vezes melhor que o GPT-4o em navegação GUI. A latência média fica em 800ms por ação, viabilizando uso em tempo real em laptops com 16GB de RAM.

Baseado no Qwen3-VL-4B-Instruct, o agente gerencia conexões ADB automaticamente, instala dependências e grava trajetórias de interações. Suporta modos ReAct, Multi-Agent e tarefas agendadas, distribuindo ações em múltiplos dispositivos.

Casos de Uso Práticos

  • Automação educacional em apps como Baicizhan.
  • Filtragem de produtos em marketplaces de compras.
  • Análise de transações em apps bancários.
  • Testes automatizados de interfaces de apps.

Recursos incluem percepção visual de telas, geração de ações como cliques e digitação, e recuperação de erros. O código está disponível no GitHub oficial, com modelo no Hugging Face.

Limitações e Críticas

Apesar dos avanços, o GELab-Zero restringe-se a Android, sem suporte a iOS ou desktop. Exige 16GB RAM mínimo para bom desempenho e conexão ADB, o que pode barrar usuários não técnicos. Em interfaces dinâmicas ou WebGL, a acurácia cai 40%.

Críticas na comunidade, como no Reddit e GitHub, questionam a acurácia em tarefas reais longas (acima de 50 passos, cai para 35%) e notam que apenas pesos finetunados são open-source, não o modelo base. Riscos incluem captura de dados sensíveis em logs e potenciais violações de termos de apps.

Planos Futuros

O roadmap prevê suporte a iOS no Q1 2026, versão lite para 8GB RAM no Q2 e integração com Appium no Q3. Licença Apache 2.0 permite uso comercial gratuito.

Foto de Maicon Ramos

Maicon Ramos

Infoprodutor e especialista em automações de Marketing, fundador do Automação sem Limites, uma comunidade para ajudar empreendedores e startup.