Firecrawl 2026: Review da API de Web Scraping pra AI Agents
-
Maicon Ramos
- 12 minutos de leitura
Navegue por tópicos
Firecrawl é uma plataforma open source de web scraping que transforma URLs em markdown limpo ou JSON estruturado — feito sob medida pra AI agents. São 126 mil estrelas no GitHub. O free tier oferece 1.000 páginas por mês sem cartão de crédito. E o ecossistema de SDKs vai de Python a Elixir. Mas o self-hosted tem limites que o cloud resolve.
Se você trabalha com AI agents, sabe que o gargalo raramente é o modelo — é o dado. Alimentar uma LLM com conteúdo da web exige extrair, limpar e estruturar HTML de dezenas de sites diferentes. Firecrawl nasceu exatamente desse problema, e virou o repositório open source mais popular do segmento.
{IMAGEM_OPCIONAL_1}
O que é Firecrawl e por que todo mundo está falando dele
Firecrawl é uma plataforma de web scraping e crawling que entrega dados no formato que modelos de linguagem entendem: markdown limpo. Diferente de ferramentas tradicionais, ele já aplica parser semântico. Enquanto outras devolvem HTML cheio de classes e scripts, o Firecrawl extrai só o que importa.
O repositório no GitHub tem 126 mil estrelas (maio de 2026), 7.500 forks e 5.500+ commits. Esse crescimento acelerou depois do Series A de US$ 14,5 milhões. A rodada foi liderada pela Nexus Venture Partners em agosto de 2025. O código principal é em Rust, com SDKs em TypeScript e Python.
A plataforma se posiciona como a camada de contexto web para AI agents — não é “só um scraping”, é infraestrutura. A API recebe uma URL e devolve conteúdo limpo, sem que você precise montar um pipeline de extração do zero.
Quem criou: a história do Mendable ao Firecrawl
A empresa foi fundada em 2022. São três co-founders: Eric Ciarla (Co-founder & CMO), Caleb Peffer (Co-founder & CEO) e Nicolas Silberstein Camara (Co-founder & CTO). Mas o produto original não era Firecrawl — era Mendable, uma solução de AI chat para documentação.
Mendable foi adotado por empresas como Snapchat, MongoDB, DoorDash e Coinbase. Durante o desenvolvimento, o time percebeu o verdadeiro gargalo. Não era a IA em si, mas a ingestão de dados web. Precisavam transformar páginas em dados limpos que o modelo pudesse consumir. Esse insight levou ao pivot que criou o Firecrawl como produto separado.
Eric Ciarla explica a motivação no blog do Series A: “We built Firecrawl because data ingestion was the bottleneck, not the AI itself”. Em 2024 entraram no Y Combinator (Summer 2024), e hoje são 25 funcionários baseados em San Francisco.
{IMAGEM_OPCIONAL_2}
Como funciona: os endpoints da API v2
A API v2 do Firecrawl tem 7 endpoints principais. Cada um atende um caso de uso específico de extração:
| Endpoint | Função | Exemplo de uso |
|---|---|---|
/v2/scrape |
Scrape de URL única — retorna markdown, HTML ou JSON | POST com url + formats: ["markdown"] |
/v2/crawl |
Crawl de site inteiro — segue links, respeita profundidade | POST com url + limit: 100 |
/v2/search |
Busca web + retorna conteúdo completo das páginas | POST com query: "..." |
/v2/map |
Mapeia URLs de um site (descobre todas as URLs) | POST com url |
/v2/parse |
Parse de documentos (PDF, Word, Excel até 50MB) | POST com arquivo |
/v2/agent |
AI agent que navega e extrai baseado em prompt | POST com prompt: "..." |
/v2/scrape/{id}/interact |
Interação com browser após scrape (click, type, navigate) | POST com action: "click" |
Na prática, você começa com /v2/scrape pra testar e escala pra /v2/crawl quando precisa de cobertura completa de um domínio. O endpoint /v2/agent é o mais novo e o mais impressionante: você descreve em linguagem natural o que quer extrair, e o agente descobre as URLs sozinho.
Abaixo, um exemplo de chamada via curl pro endpoint de scrape:
curl -X POST https://api.firecrawl.dev/v2/scrape \
-H "Content-Type: application/json" \
-H "Authorization: Bearer SEU_TOKEN" \
-d '{
"url": "https://example.com",
"formats": ["markdown"]
}'
E a resposta em Python:
from firecrawl import FirecrawlApp
app = FirecrawlApp(api_key="SEU_TOKEN")
resultado = app.scrape_url(
"https://example.com",
params={"formats": ["markdown"]}
)
print(resultado["data"]["markdown"][:500])
O Firecrawl também oferece recursos avançados como Stealth Mode (bypass de Cloudflare, CAPTCHA e WAFs), Lockdown Mode (serve exclusivamente do cache, sem requests de saída) e proxy modes que vão de básico a enhanced com roteamento automático.
Preços: Free, Hobby, Standard, Growth, Scale
A tabela de preços do Firecrawl é direta, mas o diabo está nos multiplicadores de crédito (firecrawl.dev/pricing):
| Plano | Preço/mês | Créditos | Requests concorrentes | Ideal para |
|---|---|---|---|---|
| Free | $0 | 1.000 | 2 | Testes, side projects |
| Hobby | $16 | 5.000 | 5 | Projetos pessoais |
| Standard | $83 | 100.000 | 50 | Equipes pequenas |
| Growth | $333 | 500.000 | — | Alto volume |
| Scale | $599 | 1.000.000 | 150 | Data pipelines |
| Enterprise | Custom | Ilimitado | Custom | Empresas |
Atenção ao multiplicador de créditos: cada chamada de AI extraction consome 5 créditos em vez de 1. Uma craw de 500 páginas com extract pode consumir 3.500 créditos — mais que o plano Hobby inteiro. Crawl + extract combinado sai a 7 créditos por página.
Os créditos não acumulam entre meses. O overage no plano Hobby custa ~$9 por 1.000 créditos extras.
Pra dev brasileiro, os valores em reais (aproximados): Free = R$ 0, Hobby = ~R$ 88/mês, Standard = ~R$ 456/mês. O free tier não pede cartão de crédito.
{IMAGEM_OPCIONAL_3}
Integrações: MCP, LangChain, n8n, SDKs
Firecrawl é o único concorrente com MCP Server oficial — um diferencial enorme pra AI agents. O repositório firecrawl-mcp-server permite usar a API como ferramenta nativa em Claude Code, Cursor, Antigravity e qualquer cliente MCP-compatível. Search, scrape e interact vão direto pro contexto do agente.
Os SDKs oficiais cobrem 9 linguagens: Python (firecrawl-py via pip), Node.js (@firecrawl/sdk via npm), Go, Rust, Ruby, PHP (Composer), .NET (NuGet), Java e Elixir.
No ecossistema de LLM frameworks, Firecrawl tem integração nativa com LangChain, LlamaIndex e Vercel AI SDK. Para automação low-code, existe nó oficial no n8n, além de integração com Zapier e Composio.
Tem também um plugin pro OpenCode (opencode-firecrawl) — se você usa o terminal AI do Hermes, pode conectar a ferramenta direto no pipeline de pesquisa.
Self-hosted vs Cloud: o que você realmente perde
Firecrawl é open source (licença AGPL-3.0) e pode ser executado via Docker. Mas existe uma diferença crítica entre o que a versão self-hosted entrega e o que o cloud entrega.
Self-hosted funciona pra: scrape, crawl, search e map básicos. A stack é Rust + Playwright, e você roda com docker compose. É suficiente pra prototipar e fazer craws em sites sem proteção.
O que você perde no self-hosted:
- Fire-engine — o motor anti-bot avançado é cloud-only. Self-hosted não tem bypass de Cloudflare, CAPTCHA ou WAFs robustos
- O GitHub issue #2257 documenta que self-hosted falha em sites com proteções mais fortes
- Você precisa de proxy externo (BrightData, Oxylabs) pra conseguir um bypass decente
- Manutenção de infraestrutura (browsers, atualizações) fica por sua conta
A interpretação do Runzos adiciona nuance: a escolha entre self-hosted e cloud não é técnica pura — é uma decisão de caso de uso. Pra prototipar e testar, self-hosted ou cloud free resolvem. Pra produção com sites protegidos, cloud pago é necessário. Pra craw interno de documentação, self-hosted funciona bem.
| Persona | Recomendação | Motivo |
|---|---|---|
| Rafael (Solo Builder dev) | Cloud Free pra testar, Hobby se for pra valer | Self-hosted sem Fire-engine é limitado; free tier cobre prototipagem |
| Camila (não-dev) | Cloud Free ou n8n + Firecrawl | Não vai querer gerenciar Docker |
Firecrawl vs Concorrentes
Firecrawl compete em um espaço com várias ferramentas, cada uma com posicionamento diferente. A tabela abaixo mostra como ele se compara:
| Característica | Firecrawl | Browse.ai | Jina Reader | Apify | Crawl4AI |
|---|---|---|---|---|---|
| Open source | ✅ AGPL-3.0 | ❌ Proprietário | ❌ (parcial) | ❌ Proprietário | ✅ Apache 2.0 |
| GitHub stars | 126k | N/A | ~15k | N/A | ~25k |
| Free tier | ✅ 1k páginas/mês | ✅ Sim (limitado) | ✅ Grátis básico | ✅ $5 créditos/mês | ✅ Grátis (self) |
| Preço inicial pago | $16/mês | $49/mês | Sales-led | $49/mês | $0 (infra própria) |
| Anti-bot (Cloudflare) | ✅ Fire-engine (cloud) | ✅ Residencial | ❌ Fraco | ✅ Residencial | ❌ |
| SDKs | Python, JS, Go, Rust, Ruby, PHP, .NET, Java, Elixir | API REST | API REST | API REST + SDKs | Python |
| MCP Server | ✅ Oficial | ❌ | ❌ | ❌ | ❌ |
| AI Agent endpoint | ✅ /v2/agent | ❌ | ❌ | ❌ | ❌ |
| Documentos (PDF/Word) | ✅ /v2/parse | ❌ | ❌ | ✅ | ❌ |
| Self-hosted | ✅ (limitado) | ❌ | ❌ | ✅ (Docker) | ✅ (nativo) |
| LangChain nativo | ✅ | ❌ | ❌ | ✅ | ✅ |
vs Jina AI Reader
Jina AI Reader é o concorrente mais direto pra scrape simples. Você prefixa qualquer URL com https://r.jina.ai/ e recebe markdown de volta. É extremamente simples. Mas acaba aí: não tem craw multi-página, não tem anti-bot decente e o suporte a documentos é limitado. Firecrawl ganha em crawl, extract e no endpoint /agent.
vs Browse.ai
Browse.ai é scraping visual no-code — você grava automações clicando. É ótimo pra não-devs. Mas custa mais caro ($49/mês vs $16/mês), não é open source e não tem SDKs. Firecrawl é a escolha certa pra devs que querem API, não interface.
vs Apify
Apify é uma plataforma completa com 3.300+ Actors pré-construídos (Google Maps, Instagram, etc.). É mais robusto em escala, mas o modelo de compute units (CU) pode ser confuso e o custo sobe rápido. A API da Firecrawl é mais focada em AI/LLM-ready data.
vs Crawl4AI
| Crawl4AI é o concorrente open source mais próximo. É leve, rápido e async, feito pra LLMs desde o início. Mas não tem cloud, precisa de infra própria e não tem anti-bot. A plataforma da Firecrawl ganha em conveniência.
O gap que ninguém cobre bem: a discussão entre self-hosted e cloud. A maioria dos posts ou é “só cloud” ou “só self-hosted”. A plataforma oferece os dois, e a escolha certa depende do seu caso de uso.
Firecrawl e o dev brasileiro
Pra Rafael — dev brasileiro, 32 anos, SP — Firecrawl é uma ferramenta que faz sentido por vários motivos:
- SDKs em todas as linguagens que um time brasileiro típico usa: Python, Node, PHP, Java, .NET
- Documentação completa em inglês (mas clara o suficiente pra quem lê technical English)
- Free tier sem cartão — você testa sem compromisso, sem se preocupar com câmbio
- Self-hosted possível — se você tem uma VPS no Brasil, pode rodar Firecrawl localmente (com as limitações que vimos)
- Latência: cloud da Firecrawl é nos EUA (AWS), então espere ~150-200ms do Brasil. Pra testes é aceitável; pra produção em alta escala, self-hosted pode ser melhor
Conteúdo em português sobre Firecrawl ainda é escasso. Este review é um dos primeiros a cobrir a ferramenta em profundidade no Brasil.
Vale a pena em 2026?
Firecrawl é a melhor opção pra quem precisa de web scraping AI-native. Não é a mais barata (Crawl4AI é grátis), não é a mais fácil pra não-devs (Browse.ai ganha), mas é a plataforma que entrega o melhor equilíbrio entre qualidade do dado, ecossistema e preço.
Escolha Firecrawl quando:
- Você está construindo AI agents que precisam de dados web em tempo real
- Você quer integração MCP nativa (Claude Code, Cursor)
- Você precisa de SDKs em múltiplas linguagens sem reinventar a roda
- O self-hosted cobre seu caso (sites sem proteção pesada)
Pule Firecrawl quando:
- Seu orçamento é zero e você já tem infra pra rodar Crawl4AI
- Você precisa de scrapers prontos pra redes sociais (Apify é melhor)
- Você não programa e prefere interface visual (Browse.ai)
Testar Firecrawl grátis — 1.000 páginas por mês sem cartão →
Quer uma ferramenta pra gerenciar suas APIs? Dá uma olhada nas ofertas de ferramentas dev do Runzos.
FAQ — Perguntas frequentes sobre Firecrawl
Firecrawl é realmente grátis?
Sim, o plano Free oferece 1.000 créditos por mês sem cartão de crédito. Cada crédito equivale a 1 página scrape. Dá pra testar a API completa, incluindo todos os endpoints. O limite de requests concorrentes é 2.
Firecrawl funciona com Cloudflare?
Na versão cloud, sim. O Fire-engine da Firecrawl faz bypass de Cloudflare, CAPTCHA e WAFs usando proxy modes que vão de basic a stealth. Já o self-hosted não tem Fire-engine — você vai precisar de um proxy externo (BrightData, Oxylabs) pra conseguir bypass em sites protegidos.
Qual a diferença entre Firecrawl e Crawl4AI?
Crawl4AI é uma biblioteca Python open source — você roda localmente, é grátis e rápido. Firecrawl é uma plataforma com API gerenciada, SDKs em 9 linguagens, MCP server e anti-bot integrado (na versão cloud). Crawl4AI é melhor pra quem quer controle total e não quer pagar. Firecrawl é melhor pra quem quer produtividade e ecossistema.
Firecrawl tem integração com LangChain?
Sim, integração nativa. Você pode usar Firecrawl como ferramenta de retrieval dentro de chains LangChain. A integração está documentada em docs.langchain.com.
Dá pra usar Firecrawl com n8n?
Sim, existe nó oficial do Firecrawl no n8n. Você pode criar workflows de scraping sem escrever código — ideal pra devs que querem automatizar sem script.
| ### A plataforma aceita documentos PDF e Word?
Sim, via endpoint /v2/parse. Firecrawl consegue extrair texto de PDFs, documentos Word e planilhas Excel de até 50MB. Útil quando seu pipeline de AI agents precisa ingerir documentos além de páginas web.
Firecrawl é melhor que Apify?
Depende do que você precisa. Firecrawl é melhor pra integração com AI agents (MCP, SDKs, markdown LLM-ready). Apify é melhor pra scraping de plataformas específicas (Google Maps, Instagram, e-commerce) com 3.300+ Actors pré-construídos. São ferramentas complementares.
Como instalar Firecrawl self-hosted?
Com Docker: git clone https://github.com/firecrawl/firecrawl.git && cd firecrawl && docker compose up. Mas lembre-se: o self-hosted não inclui Fire-engine, então sites protegidos por Cloudflare ou CAPTCHA podem não funcionar.











