Firecrawl 2026: Review da API de Web Scraping pra AI Agents

Firecrawl - API de web scraping para AI agents, transformando URLs em markdown LLM-ready com interface visual moderna e icones de dados

Navegue por tópicos

Firecrawl é uma plataforma open source de web scraping que transforma URLs em markdown limpo ou JSON estruturado — feito sob medida pra AI agents. São 126 mil estrelas no GitHub. O free tier oferece 1.000 páginas por mês sem cartão de crédito. E o ecossistema de SDKs vai de Python a Elixir. Mas o self-hosted tem limites que o cloud resolve.

Se você trabalha com AI agents, sabe que o gargalo raramente é o modelo — é o dado. Alimentar uma LLM com conteúdo da web exige extrair, limpar e estruturar HTML de dezenas de sites diferentes. Firecrawl nasceu exatamente desse problema, e virou o repositório open source mais popular do segmento.

{IMAGEM_OPCIONAL_1}

O que é Firecrawl e por que todo mundo está falando dele

Firecrawl é uma plataforma de web scraping e crawling que entrega dados no formato que modelos de linguagem entendem: markdown limpo. Diferente de ferramentas tradicionais, ele já aplica parser semântico. Enquanto outras devolvem HTML cheio de classes e scripts, o Firecrawl extrai só o que importa.

O repositório no GitHub tem 126 mil estrelas (maio de 2026), 7.500 forks e 5.500+ commits. Esse crescimento acelerou depois do Series A de US$ 14,5 milhões. A rodada foi liderada pela Nexus Venture Partners em agosto de 2025. O código principal é em Rust, com SDKs em TypeScript e Python.

A plataforma se posiciona como a camada de contexto web para AI agents — não é “só um scraping”, é infraestrutura. A API recebe uma URL e devolve conteúdo limpo, sem que você precise montar um pipeline de extração do zero.

Quem criou: a história do Mendable ao Firecrawl

A empresa foi fundada em 2022. São três co-founders: Eric Ciarla (Co-founder & CMO), Caleb Peffer (Co-founder & CEO) e Nicolas Silberstein Camara (Co-founder & CTO). Mas o produto original não era Firecrawl — era Mendable, uma solução de AI chat para documentação.

Mendable foi adotado por empresas como Snapchat, MongoDB, DoorDash e Coinbase. Durante o desenvolvimento, o time percebeu o verdadeiro gargalo. Não era a IA em si, mas a ingestão de dados web. Precisavam transformar páginas em dados limpos que o modelo pudesse consumir. Esse insight levou ao pivot que criou o Firecrawl como produto separado.

Eric Ciarla explica a motivação no blog do Series A: “We built Firecrawl because data ingestion was the bottleneck, not the AI itself”. Em 2024 entraram no Y Combinator (Summer 2024), e hoje são 25 funcionários baseados em San Francisco.

{IMAGEM_OPCIONAL_2}

Como funciona: os endpoints da API v2

A API v2 do Firecrawl tem 7 endpoints principais. Cada um atende um caso de uso específico de extração:

Endpoint Função Exemplo de uso
/v2/scrape Scrape de URL única — retorna markdown, HTML ou JSON POST com url + formats: ["markdown"]
/v2/crawl Crawl de site inteiro — segue links, respeita profundidade POST com url + limit: 100
/v2/search Busca web + retorna conteúdo completo das páginas POST com query: "..."
/v2/map Mapeia URLs de um site (descobre todas as URLs) POST com url
/v2/parse Parse de documentos (PDF, Word, Excel até 50MB) POST com arquivo
/v2/agent AI agent que navega e extrai baseado em prompt POST com prompt: "..."
/v2/scrape/{id}/interact Interação com browser após scrape (click, type, navigate) POST com action: "click"

Na prática, você começa com /v2/scrape pra testar e escala pra /v2/crawl quando precisa de cobertura completa de um domínio. O endpoint /v2/agent é o mais novo e o mais impressionante: você descreve em linguagem natural o que quer extrair, e o agente descobre as URLs sozinho.

Abaixo, um exemplo de chamada via curl pro endpoint de scrape:

curl -X POST https://api.firecrawl.dev/v2/scrape \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer SEU_TOKEN" \
  -d '{
    "url": "https://example.com",
    "formats": ["markdown"]
  }'

E a resposta em Python:

from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key="SEU_TOKEN")
resultado = app.scrape_url(
    "https://example.com",
    params={"formats": ["markdown"]}
)
print(resultado["data"]["markdown"][:500])

O Firecrawl também oferece recursos avançados como Stealth Mode (bypass de Cloudflare, CAPTCHA e WAFs), Lockdown Mode (serve exclusivamente do cache, sem requests de saída) e proxy modes que vão de básico a enhanced com roteamento automático.

Preços: Free, Hobby, Standard, Growth, Scale

A tabela de preços do Firecrawl é direta, mas o diabo está nos multiplicadores de crédito (firecrawl.dev/pricing):

Plano Preço/mês Créditos Requests concorrentes Ideal para
Free $0 1.000 2 Testes, side projects
Hobby $16 5.000 5 Projetos pessoais
Standard $83 100.000 50 Equipes pequenas
Growth $333 500.000 Alto volume
Scale $599 1.000.000 150 Data pipelines
Enterprise Custom Ilimitado Custom Empresas

Atenção ao multiplicador de créditos: cada chamada de AI extraction consome 5 créditos em vez de 1. Uma craw de 500 páginas com extract pode consumir 3.500 créditos — mais que o plano Hobby inteiro. Crawl + extract combinado sai a 7 créditos por página.

Os créditos não acumulam entre meses. O overage no plano Hobby custa ~$9 por 1.000 créditos extras.

Pra dev brasileiro, os valores em reais (aproximados): Free = R$ 0, Hobby = ~R$ 88/mês, Standard = ~R$ 456/mês. O free tier não pede cartão de crédito.

{IMAGEM_OPCIONAL_3}

Integrações: MCP, LangChain, n8n, SDKs

Firecrawl é o único concorrente com MCP Server oficial — um diferencial enorme pra AI agents. O repositório firecrawl-mcp-server permite usar a API como ferramenta nativa em Claude Code, Cursor, Antigravity e qualquer cliente MCP-compatível. Search, scrape e interact vão direto pro contexto do agente.

Os SDKs oficiais cobrem 9 linguagens: Python (firecrawl-py via pip), Node.js (@firecrawl/sdk via npm), Go, Rust, Ruby, PHP (Composer), .NET (NuGet), Java e Elixir.

No ecossistema de LLM frameworks, Firecrawl tem integração nativa com LangChain, LlamaIndex e Vercel AI SDK. Para automação low-code, existe nó oficial no n8n, além de integração com Zapier e Composio.

Tem também um plugin pro OpenCode (opencode-firecrawl) — se você usa o terminal AI do Hermes, pode conectar a ferramenta direto no pipeline de pesquisa.

Self-hosted vs Cloud: o que você realmente perde

Firecrawl é open source (licença AGPL-3.0) e pode ser executado via Docker. Mas existe uma diferença crítica entre o que a versão self-hosted entrega e o que o cloud entrega.

Self-hosted funciona pra: scrape, crawl, search e map básicos. A stack é Rust + Playwright, e você roda com docker compose. É suficiente pra prototipar e fazer craws em sites sem proteção.

O que você perde no self-hosted:

  • Fire-engine — o motor anti-bot avançado é cloud-only. Self-hosted não tem bypass de Cloudflare, CAPTCHA ou WAFs robustos
  • O GitHub issue #2257 documenta que self-hosted falha em sites com proteções mais fortes
  • Você precisa de proxy externo (BrightData, Oxylabs) pra conseguir um bypass decente
  • Manutenção de infraestrutura (browsers, atualizações) fica por sua conta

A interpretação do Runzos adiciona nuance: a escolha entre self-hosted e cloud não é técnica pura — é uma decisão de caso de uso. Pra prototipar e testar, self-hosted ou cloud free resolvem. Pra produção com sites protegidos, cloud pago é necessário. Pra craw interno de documentação, self-hosted funciona bem.

Persona Recomendação Motivo
Rafael (Solo Builder dev) Cloud Free pra testar, Hobby se for pra valer Self-hosted sem Fire-engine é limitado; free tier cobre prototipagem
Camila (não-dev) Cloud Free ou n8n + Firecrawl Não vai querer gerenciar Docker

Firecrawl vs Concorrentes

Firecrawl compete em um espaço com várias ferramentas, cada uma com posicionamento diferente. A tabela abaixo mostra como ele se compara:

Característica Firecrawl Browse.ai Jina Reader Apify Crawl4AI
Open source ✅ AGPL-3.0 ❌ Proprietário ❌ (parcial) ❌ Proprietário ✅ Apache 2.0
GitHub stars 126k N/A ~15k N/A ~25k
Free tier ✅ 1k páginas/mês ✅ Sim (limitado) ✅ Grátis básico ✅ $5 créditos/mês ✅ Grátis (self)
Preço inicial pago $16/mês $49/mês Sales-led $49/mês $0 (infra própria)
Anti-bot (Cloudflare) ✅ Fire-engine (cloud) ✅ Residencial ❌ Fraco ✅ Residencial
SDKs Python, JS, Go, Rust, Ruby, PHP, .NET, Java, Elixir API REST API REST API REST + SDKs Python
MCP Server ✅ Oficial
AI Agent endpoint ✅ /v2/agent
Documentos (PDF/Word) ✅ /v2/parse
Self-hosted ✅ (limitado) ✅ (Docker) ✅ (nativo)
LangChain nativo

vs Jina AI Reader

Jina AI Reader é o concorrente mais direto pra scrape simples. Você prefixa qualquer URL com https://r.jina.ai/ e recebe markdown de volta. É extremamente simples. Mas acaba aí: não tem craw multi-página, não tem anti-bot decente e o suporte a documentos é limitado. Firecrawl ganha em crawl, extract e no endpoint /agent.

vs Browse.ai

Browse.ai é scraping visual no-code — você grava automações clicando. É ótimo pra não-devs. Mas custa mais caro ($49/mês vs $16/mês), não é open source e não tem SDKs. Firecrawl é a escolha certa pra devs que querem API, não interface.

vs Apify

Apify é uma plataforma completa com 3.300+ Actors pré-construídos (Google Maps, Instagram, etc.). É mais robusto em escala, mas o modelo de compute units (CU) pode ser confuso e o custo sobe rápido. A API da Firecrawl é mais focada em AI/LLM-ready data.

vs Crawl4AI

| Crawl4AI é o concorrente open source mais próximo. É leve, rápido e async, feito pra LLMs desde o início. Mas não tem cloud, precisa de infra própria e não tem anti-bot. A plataforma da Firecrawl ganha em conveniência.

O gap que ninguém cobre bem: a discussão entre self-hosted e cloud. A maioria dos posts ou é “só cloud” ou “só self-hosted”. A plataforma oferece os dois, e a escolha certa depende do seu caso de uso.

Firecrawl e o dev brasileiro

Pra Rafael — dev brasileiro, 32 anos, SP — Firecrawl é uma ferramenta que faz sentido por vários motivos:

  • SDKs em todas as linguagens que um time brasileiro típico usa: Python, Node, PHP, Java, .NET
  • Documentação completa em inglês (mas clara o suficiente pra quem lê technical English)
  • Free tier sem cartão — você testa sem compromisso, sem se preocupar com câmbio
  • Self-hosted possível — se você tem uma VPS no Brasil, pode rodar Firecrawl localmente (com as limitações que vimos)
  • Latência: cloud da Firecrawl é nos EUA (AWS), então espere ~150-200ms do Brasil. Pra testes é aceitável; pra produção em alta escala, self-hosted pode ser melhor

Conteúdo em português sobre Firecrawl ainda é escasso. Este review é um dos primeiros a cobrir a ferramenta em profundidade no Brasil.

Vale a pena em 2026?

Firecrawl é a melhor opção pra quem precisa de web scraping AI-native. Não é a mais barata (Crawl4AI é grátis), não é a mais fácil pra não-devs (Browse.ai ganha), mas é a plataforma que entrega o melhor equilíbrio entre qualidade do dado, ecossistema e preço.

Escolha Firecrawl quando:

  • Você está construindo AI agents que precisam de dados web em tempo real
  • Você quer integração MCP nativa (Claude Code, Cursor)
  • Você precisa de SDKs em múltiplas linguagens sem reinventar a roda
  • O self-hosted cobre seu caso (sites sem proteção pesada)

Pule Firecrawl quando:

  • Seu orçamento é zero e você já tem infra pra rodar Crawl4AI
  • Você precisa de scrapers prontos pra redes sociais (Apify é melhor)
  • Você não programa e prefere interface visual (Browse.ai)

Testar Firecrawl grátis — 1.000 páginas por mês sem cartão →

Quer uma ferramenta pra gerenciar suas APIs? Dá uma olhada nas ofertas de ferramentas dev do Runzos.

FAQ — Perguntas frequentes sobre Firecrawl

Firecrawl é realmente grátis?

Sim, o plano Free oferece 1.000 créditos por mês sem cartão de crédito. Cada crédito equivale a 1 página scrape. Dá pra testar a API completa, incluindo todos os endpoints. O limite de requests concorrentes é 2.

Firecrawl funciona com Cloudflare?

Na versão cloud, sim. O Fire-engine da Firecrawl faz bypass de Cloudflare, CAPTCHA e WAFs usando proxy modes que vão de basic a stealth. Já o self-hosted não tem Fire-engine — você vai precisar de um proxy externo (BrightData, Oxylabs) pra conseguir bypass em sites protegidos.

Qual a diferença entre Firecrawl e Crawl4AI?

Crawl4AI é uma biblioteca Python open source — você roda localmente, é grátis e rápido. Firecrawl é uma plataforma com API gerenciada, SDKs em 9 linguagens, MCP server e anti-bot integrado (na versão cloud). Crawl4AI é melhor pra quem quer controle total e não quer pagar. Firecrawl é melhor pra quem quer produtividade e ecossistema.

Firecrawl tem integração com LangChain?

Sim, integração nativa. Você pode usar Firecrawl como ferramenta de retrieval dentro de chains LangChain. A integração está documentada em docs.langchain.com.

Dá pra usar Firecrawl com n8n?

Sim, existe nó oficial do Firecrawl no n8n. Você pode criar workflows de scraping sem escrever código — ideal pra devs que querem automatizar sem script.

| ### A plataforma aceita documentos PDF e Word?

Sim, via endpoint /v2/parse. Firecrawl consegue extrair texto de PDFs, documentos Word e planilhas Excel de até 50MB. Útil quando seu pipeline de AI agents precisa ingerir documentos além de páginas web.

Firecrawl é melhor que Apify?

Depende do que você precisa. Firecrawl é melhor pra integração com AI agents (MCP, SDKs, markdown LLM-ready). Apify é melhor pra scraping de plataformas específicas (Google Maps, Instagram, e-commerce) com 3.300+ Actors pré-construídos. São ferramentas complementares.

Como instalar Firecrawl self-hosted?

Com Docker: git clone https://github.com/firecrawl/firecrawl.git && cd firecrawl && docker compose up. Mas lembre-se: o self-hosted não inclui Fire-engine, então sites protegidos por Cloudflare ou CAPTCHA podem não funcionar.

Foto de Maicon Ramos

Maicon Ramos

Infoprodutor e especialista em automações de Marketing, fundador do Automação sem Limites, uma comunidade para ajudar empreendedores e startup.