Referência para todas as opções em todos os endpoints de scraping, rastreamento, mapeamento e agente do Firecrawl.”Documentation Index
Fetch the complete documentation index at: https://firecrawl-mog-search-exclude-include-domains.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
Raspagem básica
/scrape.
Extração de PDFs
parsers (por exemplo, parsers: ["pdf"]) quando quiser garantir a extração de PDFs. Você pode controlar a estratégia de extração com a opção mode:
auto(padrão) — tenta primeiro uma extração rápida baseada em texto e, se necessário, recorre a OCR.fast— apenas extração baseada em texto (texto embutido). Mais rápido, mas ignora páginas digitalizadas ou com muitas imagens.ocr— força a extração via OCR em todas as páginas. Use para documentos digitalizados ou quandoautoclassificar uma página incorretamente.
{ type: "pdf" } e "pdf" usam por padrão mode: "auto".
Opções de scraping
Formatos (formats)
formats controla quais tipos de saída o scraper retorna. Padrão: ["markdown"].
Formatos em string: passe o nome diretamente (por exemplo, "markdown").
| Formato | Descrição |
|---|---|
markdown | Conteúdo da página convertido para Markdown limpo. |
html | HTML processado com elementos desnecessários removidos. |
rawHtml | HTML original exatamente como retornado pelo servidor. |
links | Todos os links encontrados na página. |
images | Todas as imagens encontradas na página. |
summary | Um resumo gerado por um LLM do conteúdo da página. |
branding | Extrai a identidade de marca (cores, fontes, tipografia, espaçamento, componentes de UI). |
type e opções adicionais.
| Formato | Opções | Descrição |
|---|---|---|
json | prompt?: string, schema?: object | Extrai dados estruturados usando um LLM. Forneça um schema JSON e/ou um prompt em linguagem natural (máx. 10.000 caracteres). |
screenshot | fullPage?: boolean, quality?: number, viewport?: { width, height } | Captura uma captura de tela. No máximo uma por requisição. A resolução máxima do viewport é 7680×4320. As URLs das capturas de tela expiram após 24 horas. |
changeTracking | modes?: ("json" | "git-diff")[], tag?: string, schema?: object, prompt?: string | Rastreio de mudanças entre scrapes. Requer que "markdown" também esteja no array de formatos. |
attributes | selectors: [{ selector: string, attribute: string }] | Extrai atributos HTML específicos de elementos que correspondem a seletores CSS. |
Filtragem de conteúdo
onlyMainContent é true (o padrão), o boilerplate (nav, footer etc.) é removido. includeTags e excludeTags são aplicados ao DOM original da página, não ao resultado após a filtragem, portanto seus seletores devem segmentar os elementos conforme aparecem no HTML de origem. Defina onlyMainContent: false para usar a página completa como ponto de partida para a filtragem por tags.
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
onlyMainContent | boolean | true | Retorna apenas o conteúdo principal. Defina como false para retornar a página completa. |
includeTags | array | — | Seletores CSS a serem incluídos — tags, classes, IDs ou seletores de atributo (por exemplo, ["h1", "p", ".main-content", "[data-testid=\"main\"]"]). |
excludeTags | array | — | Seletores CSS a serem excluídos — tags, classes, IDs ou seletores de atributo (por exemplo, ["#ad", "#footer", "[role=\"banner\"]"]). |
Tempo e cache
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
waitFor | integer (ms) | 0 | Tempo extra de espera antes do scraping, além do smart-wait. Use com moderação. |
maxAge | integer (ms) | 172800000 | Retorne uma versão em cache se estiver mais recente do que esse valor (o padrão é 2 dias). Defina 0 para sempre buscar uma versão atualizada. |
timeout | integer (ms) | 60000 | Duração máxima da requisição antes de abortar (o padrão é 60 segundos). O mínimo é 1000 (1 segundo). |
Análise de PDF
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
parsers | array | ["pdf"] | Controla o processamento de PDFs. Use [] para ignorar a análise e retornar base64 (1 crédito fixo). |
| Propriedade | Tipo | Padrão | Descrição |
|---|---|---|---|
type | "pdf" | (obrigatório) | Tipo de parser. |
mode | "fast" | "auto" | "ocr" | "auto" | fast: extração somente de texto. auto: fast com OCR como fallback. ocr: força OCR. |
maxPages | integer | — | Limita o número de páginas a serem analisadas. |
ações
wait e waitFor não deve exceder 60 segundos.
| Ação | Parâmetros | Descrição |
|---|---|---|
wait | milliseconds?: number, selector?: string | Aguarda um tempo fixo ou até que um elemento esteja visível (forneça um, não ambos). Ao usar selector, o tempo limite é de 30 segundos. |
click | selector: string, all?: boolean | Clica em um elemento que corresponde ao seletor CSS. Defina all: true para clicar em todas as correspondências. |
write | text: string | Digita texto no campo atualmente focado. Você deve focar o elemento antes com uma ação click. |
press | key: string | Pressiona uma tecla do teclado (por exemplo, "Enter", "Tab", "Escape"). |
scroll | direction?: "up" | "down", selector?: string | Rola a página ou um elemento específico. A direção padrão é "down". |
screenshot | fullPage?: boolean, quality?: number, viewport?: { width, height } | Captura uma captura de tela. A resolução máxima do viewport é 7680×4320. |
scrape | (none) | Captura o HTML da página atual neste ponto da sequência de ações. |
executeJavascript | script: string | Executa código JavaScript na página. Os valores de retorno estão disponíveis no array actions.javascriptReturns da resposta. |
pdf | format?: string, landscape?: boolean, scale?: number | Gera um PDF. Formatos suportados: "A0" até "A6", "Letter", "Legal", "Tabloid", "Ledger". O padrão é "Letter". |
Observações sobre a execução de ações
- Write requer um
clickanterior para focar o elemento de destino. - Scroll aceita um
selectoropcional para rolar um elemento específico em vez da página. - Wait aceita
milliseconds(atraso fixo) ouselector(esperar até que fique visível). - As ações são executadas sequencialmente: cada etapa é concluída antes da próxima começar.
- Ações não são compatíveis com PDFs. Se a URL for resolvida para um PDF, a requisição falhará.
Exemplos de Ações Avançadas
cURL
cURL
cURL
cURL
executeJavascript é armazenado no array actions.javascriptReturns da resposta.
Exemplo completo de scraping
cURL
<h1>, <p>, <a> e .main-content, enquanto exclui #ad e #footer, aguarda 1 segundo antes de iniciar o scraping, define um tempo limite de 15 segundos e habilita a análise de PDFs.
Consulte a referência completa da API de Scrape para mais detalhes.
Extração de JSON via formatos
formats para extrair dados estruturados em uma única chamada:
Endpoint do agente
/v2/agent para extração autônoma de dados em várias páginas. O agente é executado de forma assíncrona: você inicia uma tarefa e depois faz polling dos resultados.
Opções do agente
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
prompt | string | (obrigatório) | Instruções em linguagem natural descrevendo quais dados extrair (máx. 10.000 caracteres). |
urls | array | — | URLs às quais o agente estará limitado. |
schema | object | — | Schema JSON para estruturar os dados extraídos. |
maxCredits | number | 2500 | Créditos máximos que o agente pode gastar. O dashboard suporta até 2.500; para limites maiores, defina isso pela API (valores acima de 2.500 são sempre cobrados como requisições pagas). |
strictConstrainToURLs | boolean | false | Quando true, o agente visita apenas as URLs fornecidas. |
model | string | "spark-1-mini" | Modelo de IA a ser usado: "spark-1-mini" (padrão, 60% mais barato) ou "spark-1-pro" (maior precisão). |
Verificar status do agente
GET /v2/agent/{jobId} para verificar o progresso. O campo status da resposta será "processing", "completed" ou "failed".
cURL
firecrawl.agent()) que inicia o job e consulta o status automaticamente até a conclusão.
Rastreando várias páginas
/v2/crawl. O rastreamento é executado de forma assíncrona e retorna um ID do job. Use o parâmetro limit para controlar quantas páginas são rastreadas. Se omitido, o rastreamento processará até 10.000 páginas.
cURL
Resposta
Verificar job de crawl
cURL
next, que é uma URL para a próxima página de resultados.
Prévia do prompt e dos parâmetros de crawl
prompt em linguagem natural para o Firecrawl deduzir as configurações de crawl. Veja a prévia delas primeiro:
cURL
Opções do crawler
/v2/crawl, você pode configurar o comportamento do crawler com as seguintes opções.
Filtragem de caminhos
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
includePaths | array | — | Padrões regex para URLs a serem incluídas (apenas o pathname por padrão). |
excludePaths | array | — | Padrões regex para URLs a serem excluídas (apenas o pathname por padrão). |
regexOnFullURL | boolean | false | Aplica os padrões à URL completa em vez de apenas ao pathname. |
Escopo do rastreamento
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
maxDiscoveryDepth | integer | — | Profundidade máxima de links para descoberta de novas URLs. |
limit | integer | 10000 | Máximo de páginas a serem rastreadas. |
crawlEntireDomain | boolean | false | Explorar páginas irmãs (siblings) e pais (parents) para cobrir todo o domínio. |
allowExternalLinks | boolean | false | Seguir links para domínios externos. |
allowSubdomains | boolean | false | Seguir subdomínios do domínio principal. |
delay | number (s) | — | Atraso entre coletas. Definir isso força a concorrência para 1. |
Sitemap e deduplicação
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
sitemap | string | "include" | "include": usar sitemap + descoberta de links. "skip": ignorar sitemap. "only": rastrear apenas URLs do sitemap. |
deduplicateSimilarURLs | boolean | true | Normaliza variantes de URL (www., https, barras finais, index.html) tratando-as como duplicadas. |
ignoreQueryParameters | boolean | false | Remove query strings antes da deduplicação (por exemplo, /page?a=1 e /page?a=2 se tornam uma única URL). |
Opções de scrape para crawl
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
scrapeOptions | object | { formats: ["markdown"] } | Configuração de scrape por página. Aceita todas as opções de scrape listadas acima. |
Exemplo de rastreamento
cURL
Mapeando links de sites
/v2/map identifica as URLs relacionadas a um determinado site.
cURL
Opções do map
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
search | string | — | Filtrar links por correspondência de texto. |
limit | integer | 100 | Máximo de links a serem retornados. |
sitemap | string | "include" | "include", "skip" ou "only". |
includeSubdomains | boolean | true | Incluir subdomínios. |
Adicionando o Firecrawl à lista de permissões
Como permitir que o Firecrawl faça scraping do seu site
- User Agent: permita
FirecrawlAgentno seu firewall ou nas suas regras de segurança. - Endereços IP: o Firecrawl não usa um conjunto fixo de IPs de saída.
Permitindo que sua aplicação faça chamadas à API do Firecrawl
api.firecrawl.dev):
- Endereço IP:
35.245.250.27

