Documentation Index
Fetch the complete documentation index at: https://firecrawl-mog-search-exclude-include-domains.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
Firecrawl API key が必要な AI エージェントの場合は、自動オンボーディング手順について firecrawl.dev/agent-onboarding/SKILL.md を参照してください。
Bearer authentication header of the form Bearer <token>, where <token> is your auth token.
スクレイプ対象のURL
Webhook の仕様を表すオブジェクト。
同時に実行されるスクレイプの最大数。このパラメータで、このバッチスクレイプに対する同時実行数の上限を設定できます。指定しない場合、このバッチスクレイプはチームで設定された同時実行数の上限に従います。
urls 配列に無効な URL が含まれている場合、それらは無視されます。無効な URL が原因でリクエスト全体が失敗するのではなく、残りの有効な URL を使ってバッチスクレイプが作成され、無効な URL はレスポンスの invalidURLs フィールドで返されます。
レスポンスに含める出力フォーマットを指定します。1つ以上のフォーマットを、文字列(例: 'markdown')または追加オプションを含むオブジェクト(例: { type: 'json', schema: {...} })として指定できます。一部のフォーマットでは、特定のオプションの設定が必須です。例: ['markdown', { type: 'json', schema: {...} }]。
ヘッダー、ナビゲーション、フッターなどを除き、ページの主要なコンテンツのみを返します。これは Markdown 生成前に適用される、HTML レベルの決定論的なフィルターであり、LLM は関与しません。
ベータ版。生成された Markdown に対して追加の LLM ベースの処理を実行し、onlyMainContent では取りこぼす可能性のある残存ボイラープレート(Cookie バナー、広告ブロック、ソーシャル共有ウィジェット、パンくずリスト、ニュースレター登録、コメント欄、関連記事リスト)を削除します。見出し、リスト、表、コードブロック、画像参照、インラインリンクは保持されます。onlyMainContent と組み合わせて使うこともでき(これが最も一般的な構成です)、単独でも使用できます。Markdown がクリーニングモデルの出力トークン上限を超える場合は、警告を出してスキップされます(元の Markdown は保持されます)。ゼロデータ保持の request ではサポートされていません。
出力に含めるタグ。
出力結果から除外するタグ。
ページのキャッシュが、この値(ミリ秒)で指定した有効期間より新しい場合は、そのキャッシュ版を返します。キャッシュがこの値より古い場合は、新たにページのスクレイピングを行います。極めて最新のデータが不要であれば、これを有効にすることでスクレイピングを最大500%高速化できます。デフォルトは2日です。
設定すると、このリクエストはキャッシュのみを確認し、新しいスクレイプは実行されません。値はミリ秒単位で、キャッシュデータに必要な最小経過時間を指定します。一致するキャッシュデータが存在する場合は、即座に返されます。キャッシュデータが見つからない場合は、エラーコード SCRAPE_NO_CACHED_DATA を含む 404 が返されます。経過時間に関係なく、任意のキャッシュデータを許可するには 1 に設定します。
リクエストに含めるヘッダー。Cookie や User-Agent などを送信するために使用できます。
コンテンツを取得する前に待機する時間をミリ秒単位で指定します。ページが十分に読み込まれるまでの時間を確保するための遅延です。この待機時間は、Firecrawl のスマート待機機能に加えて発生します。
モバイル端末からのスクレイピングをエミュレートしたい場合は、true に設定します。レスポンシブページのテストやモバイル向けスクリーンショットの取得に便利です。
リクエストを送信する際に TLS 証明書の検証を行わないようにします。
リクエストのタイムアウト(ミリ秒)。最小値は1000(1秒)、デフォルト値は60000(60秒)、最大値は300000(300秒)です。
1000 <= x <= 300000スクレイピング時のファイルの処理方法を制御します。"pdf" が含まれている場合(デフォルト)、PDF の内容が抽出されて markdown 形式に変換され、課金はページ数に基づきます(1ページあたり1クレジット)。空の配列を渡した場合、PDF ファイルは base64 エンコード形式で返され、PDF 全体で一律1クレジットが請求されます。
コンテンツを取得する前にページに対して実行するアクション
リクエストのロケーション設定です。指定すると、利用可能な場合は適切なプロキシが使用され、対応する言語およびタイムゾーン設定がエミュレートされます。指定されていない場合は、デフォルトで「US」が使用されます。
markdown 出力からすべての Base64 画像を削除します。長くなりすぎる可能性があるためです。これは html または rawHtml フォーマットには影響しません。画像の代替テキストは出力に残りますが、URL はプレースホルダーに置き換えられます。
広告およびCookie同意ポップアップのブロックを有効化します。
使用するプロキシの種類を指定します。
basic, enhanced, auto true の場合、そのページは Firecrawl のインデックスおよびキャッシュに保存されます。スクレイピング活動でデータ保護上の懸念が生じる可能性がある場合は、これを false に設定すると有用です。機密性の高いスクレイピングに関連する一部のパラメータ(例: actions、headers)を使用すると、このパラメータは強制的に false になります。
true の場合、リクエストは Firecrawl のキャッシュからのみ返され、対象 URL への外部リクエストは一切行われません。これは、スクレイピングのリクエスト自体が機密情報を漏らす可能性がある、コンプライアンス要件の厳しい環境やエアギャップ環境向けに設計されています。キャッシュミス時には、エラーコード SCRAPE_LOCKDOWN_CACHE_MISS を伴う 404 を返します(ミス時に URL が記録されることはありません)。Lockdown リクエストはゼロデータ保持として扱われます。既存のキャッシュ済みページを引き続き利用対象にできるよう、デフォルトの maxAge は 2 年に延長されます。課金は、ヒット時が 5 クレジット、キャッシュミス時が 1 クレジットです。
スクレイピングおよび Interact セッション間で、永続的な browser ストレージを有効にします。スクレイピング時にプロファイルを指定すると、Cookie、localStorage、セッションデータが保持されます。同じプロファイル名のセッションでは、browser の状態が共有されます。
true の場合、このバッチスクレイプではゼロデータ保持が有効になり、データは一切保持されません。この機能を有効にするには、help@firecrawl.dev までご連絡ください。