ドキュメントパース

Firecrawl は強力なドキュメント解析機能を備えており、さまざまなドキュメントフォーマットから構造化コンテンツを抽出できます。この機能は、スプレッドシートや Word 文書などのファイルを処理する際に特に有用です。

サポートされているドキュメントフォーマット

Firecrawl は現在、以下のドキュメントフォーマットをサポートしています：

Excel スプレッドシート (.xlsx, .xls)
- 各ワークシートを HTML テーブルに変換します
- ワークシートはシート名の H2 見出しで区切られます
- セルの書式とデータ型を保持します
Word ドキュメント (.docx, .doc, .odt, .rtf)
- ドキュメント構造を保ちながらテキストコンテンツを抽出します
- 見出し、段落、リスト、表を保持します
- 基本的な書式とスタイルを保持します
PDF ドキュメント (.pdf)
- レイアウト情報とともにテキストコンテンツを抽出します
- セクションや段落を含むドキュメント構造を保持します
- テキストベースおよびスキャン PDF の両方に対応します (OCR 対応)
- 解析方法を制御するための mode オプションをサポートします：fast (テキストのみ) 、auto (必要に応じて OCR を行うテキスト、デフォルト) 、ocr (OCR のみを使用)
- 料金は1ページあたり1クレジットです。詳細は Pricing を参照してください。

PDF 解析モード

PDF の処理方法を制御するには、parsers オプションを使用します:

Mode	Description
`auto`	まず高速なテキストベースの抽出を試行し、必要に応じて OCR にフォールバックします。これがデフォルトです。
`fast`	テキストベースの解析のみ（埋め込みテキスト）。最速のオプションですが、スキャンされたページや画像が多いページからはテキストを抽出しません。
`ocr`	すべてのページで OCR による解析を強制します。スキャンされたドキュメントや、`auto` がページを誤って判定してしまう場合に使用します。

// モード指定のオブジェクト構文
parsers: [{ type: "pdf", mode: "ocr", maxPages: 20 }]

// デフォルト（autoモード）
parsers: [{ type: "pdf" }]

ドキュメントパースの使い方

Firecrawl のドキュメントパースは、次の 2 通りで利用できます。

URL ベースの解析 (/v2/scrape): 対応するドキュメント形式を指す URL を指定します。
ファイルアップロードによる解析 (/v2/parse): multipart/form-data を使って、ファイルのバイト列を直接アップロードします。

URL ベースの解析では、Firecrawl が拡張子またはコンテンツタイプからファイル形式を自動的に判別します。

`/v2/parse` でドキュメントをアップロードする

元のドキュメントがローカルにある場合、または URL 経由で一般公開されていない場合は、/v2/parse を使用します。

curl -X POST "https://api.firecrawl.dev/v2/parse" \
  -H "Authorization: Bearer fc-YOUR-API-KEY" \
  -F 'options={"formats":["markdown"]}' \
  -F "file=@./document.docx;type=application/vnd.openxmlformats-officedocument.wordprocessingml.document"

例: Excel ファイルのスクレイピング

Node

import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });

const doc = await firecrawl.scrape('https://example.com/data.xlsx');

console.log(doc.markdown);

例：Word ドキュメントのスクレイピング

Node

import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });

const doc = await firecrawl.scrape('https://example.com/data.docx');

console.log(doc.markdown);

出力フォーマット

サポートされているすべてのドキュメントタイプは、クリーンで構造化されたmarkdownに変換されます。たとえば、複数のシートを含むExcelファイルは、次のように変換されることがあります。

## Sheet1

| Name  | Value |
|-------|-------|
| Item 1 | 100   |
| Item 2 | 200   |

## Sheet2

| Date       | Description  |
|------------|--------------|
| 2023-01-01 | First quarter|

Firecrawl API key が必要な AI エージェントですか？自動オンボーディングの手順については、firecrawl.dev/agent-onboarding/SKILL.md を参照してください。

はじめに

主要エンドポイント

その他

クイックスタート

開発者ガイド

webhook

ユースケース

ダッシュボード

コントリビューション

ドキュメントパース

サポートされているドキュメントフォーマット

PDF 解析モード

ドキュメントパースの使い方

`/v2/parse` でドキュメントをアップロードする

例: Excel ファイルのスクレイピング

例：Word ドキュメントのスクレイピング

出力フォーマット

はじめに

主要エンドポイント

その他

クイックスタート

開発者ガイド

webhook

ユースケース

ダッシュボード

コントリビューション

Documentation Index

​サポートされているドキュメントフォーマット

​PDF 解析モード

​ドキュメントパースの使い方

​/v2/parse でドキュメントをアップロードする

​例: Excel ファイルのスクレイピング

​例：Word ドキュメントのスクレイピング

​出力フォーマット

サポートされているドキュメントフォーマット

PDF 解析モード

ドキュメントパースの使い方

`/v2/parse` でドキュメントをアップロードする

例: Excel ファイルのスクレイピング

例：Word ドキュメントのスクレイピング

出力フォーマット