Firecrawl は強力なドキュメント解析機能を備えており、さまざまなドキュメントフォーマットから構造化コンテンツを抽出できます。この機能は、スプレッドシートや Word 文書などのファイルを処理する際に特に有用です。Documentation Index
Fetch the complete documentation index at: https://firecrawl-mog-search-exclude-include-domains.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
サポートされているドキュメントフォーマット
-
Excel スプレッドシート (
.xlsx,.xls)- 各ワークシートを HTML テーブルに変換します
- ワークシートはシート名の H2 見出しで区切られます
- セルの書式とデータ型を保持します
-
Word ドキュメント (
.docx,.doc,.odt,.rtf)- ドキュメント構造を保ちながらテキストコンテンツを抽出します
- 見出し、段落、リスト、表を保持します
- 基本的な書式とスタイルを保持します
-
PDF ドキュメント (
.pdf)- レイアウト情報とともにテキストコンテンツを抽出します
- セクションや段落を含むドキュメント構造を保持します
- テキストベースおよびスキャン PDF の両方に対応します (OCR 対応)
- 解析方法を制御するための
modeオプションをサポートします:fast(テキストのみ) 、auto(必要に応じて OCR を行うテキスト、デフォルト) 、ocr(OCR のみを使用) - 料金は1ページあたり1クレジットです。詳細は Pricing を参照してください。
PDF 解析モード
parsers オプションを使用します:
| Mode | Description |
|---|---|
auto | まず高速なテキストベースの抽出を試行し、必要に応じて OCR にフォールバックします。これがデフォルトです。 |
fast | テキストベースの解析のみ(埋め込みテキスト)。最速のオプションですが、スキャンされたページや画像が多いページからはテキストを抽出しません。 |
ocr | すべてのページで OCR による解析を強制します。スキャンされたドキュメントや、auto がページを誤って判定してしまう場合に使用します。 |
ドキュメントパースの使い方
- URL ベースの解析 (
/v2/scrape): 対応するドキュメント形式を指す URL を指定します。 - ファイルアップロードによる解析 (
/v2/parse):multipart/form-dataを使って、ファイルのバイト列を直接アップロードします。
/v2/parse でドキュメントをアップロードする
/v2/parse を使用します。
例: Excel ファイルのスクレイピング
Node
例:Word ドキュメントのスクレイピング
Node
出力フォーマット
Firecrawl API key が必要な AI エージェントですか?自動オンボーディングの手順については、firecrawl.dev/agent-onboarding/SKILL.md を参照してください。

