Processamento de Documentos

O Firecrawl oferece recursos poderosos de parsing de documentos, permitindo extrair conteúdo estruturado de diversos formatos. Esse recurso é particularmente útil para processar arquivos como planilhas, documentos do Word e muito mais.

Formatos de documentos suportados

Atualmente, o Firecrawl oferece suporte aos seguintes formatos de documentos:

Planilhas do Excel (.xlsx, .xls)
- Cada planilha é convertida em uma tabela HTML
- As planilhas são separadas por títulos H2 com o nome da aba
- Preserva a formatação das células e os tipos de dados
Documentos do Word (.docx, .doc, .odt, .rtf)
- Extrai o conteúdo de texto preservando a estrutura do documento
- Mantém títulos, parágrafos, listas e tabelas
- Preserva formatação e estilos básicos
Documentos PDF (.pdf)
- Extrai o conteúdo de texto com informações de layout
- Preserva a estrutura do documento, incluindo seções e parágrafos
- Lida com PDFs baseados em texto e digitalizados (com suporte a OCR)
- Oferece a opção mode para controlar a estratégia de análise: fast (apenas texto), auto (texto com fallback de OCR, padrão) ou ocr (forçar OCR)
- Custa 1 crédito por página. Consulte a tabela de preços para detalhes.

Modos de processamento de PDF

Use a opção parsers para controlar como os PDFs são processados:

Modo	Descrição
`auto`	Tenta primeiro uma extração rápida baseada em texto e, se necessário, recorre ao OCR. Este é o modo padrão.
`fast`	Processamento apenas baseado em texto (texto embutido). É a opção mais rápida, mas não extrai texto de páginas digitalizadas ou com muitas imagens.
`ocr`	Força o uso de OCR em todas as páginas. Use para documentos digitalizados ou quando `auto` classificar uma página incorretamente.

// Sintaxe de objeto com modo
parsers: [{ type: "pdf", mode: "ocr", maxPages: 20 }]

// Padrão (modo automático)
parsers: [{ type: "pdf" }]

Como usar a análise de documentos

A análise de documentos no Firecrawl funciona de duas formas:

Análise via URL (/v2/scrape): forneça uma URL que aponte para um tipo de documento compatível.
Análise por upload de arquivo (/v2/parse): envie os bytes do arquivo diretamente com multipart/form-data.

Na análise via URL, o Firecrawl detecta automaticamente o tipo de arquivo pela extensão ou pelo content type.

Faça upload de documentos com `/v2/parse`

Use /v2/parse quando o documento de origem estiver localmente ou não estiver acessível publicamente por URL.

curl -X POST "https://api.firecrawl.dev/v2/parse" \
  -H "Authorization: Bearer fc-YOUR-API-KEY" \
  -F 'options={"formats":["markdown"]}' \
  -F "file=@./document.docx;type=application/vnd.openxmlformats-officedocument.wordprocessingml.document"

Exemplo: Fazendo scraping de um arquivo Excel

Node

import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-SUA-CHAVE-API" });

const doc = await firecrawl.scrape('https://example.com/data.xlsx');

console.log(doc.markdown);

Exemplo: Extraindo um documento do Word

Node

import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-SUA-CHAVE-API" });

const doc = await firecrawl.scrape('https://example.com/data.docx');

console.log(doc.markdown);

Formato de saída

Todos os tipos de documentos compatíveis são convertidos em Markdown limpo e estruturado. Por exemplo, um arquivo Excel com várias planilhas pode ser convertido em:

## Planilha1

| Nome  | Valor |
|-------|-------|
| Item 1 | 100   |
| Item 2 | 200   |

## Planilha2

| Data       | Descrição    |
|------------|--------------|
| 2023-01-01 | Primeiro trimestre|

Você é um agente de IA que precisa de uma chave de API do Firecrawl? Consulte firecrawl.dev/agent-onboarding/SKILL.md para ver instruções automatizadas de onboarding.

Primeiros passos

Endpoints principais

Mais

Guias de início rápido

Guias para desenvolvedores

Webhooks

Casos de uso

Painel

Como contribuir

Processamento de Documentos

Formatos de documentos suportados

Modos de processamento de PDF

Como usar a análise de documentos

Faça upload de documentos com `/v2/parse`

Exemplo: Fazendo scraping de um arquivo Excel

Exemplo: Extraindo um documento do Word

Formato de saída

Primeiros passos

Endpoints principais

Mais

Guias de início rápido

Guias para desenvolvedores

Webhooks

Casos de uso

Painel

Como contribuir

Documentation Index

​Formatos de documentos suportados

​Modos de processamento de PDF

​Como usar a análise de documentos

​Faça upload de documentos com /v2/parse

​Exemplo: Fazendo scraping de um arquivo Excel

​Exemplo: Extraindo um documento do Word

​Formato de saída

Formatos de documentos suportados

Modos de processamento de PDF

Como usar a análise de documentos

Faça upload de documentos com `/v2/parse`

Exemplo: Fazendo scraping de um arquivo Excel

Exemplo: Extraindo um documento do Word

Formato de saída