Documentation Index
Fetch the complete documentation index at: https://firecrawl-mog-search-exclude-include-domains.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
研究や知識抽出、AIアプリケーションの構築に向けて、Wikipediaを効果的にスクレイピングする方法を学びます。
npm install @mendable/firecrawl-js zod
- 調査の自動化とファクトチェック
- 知識グラフの構築
- 多言語コンテンツの抽出
- 教育コンテンツの集約
- エンティティ情報抽出
Zodスキーマを使用して、Wikipediaの記事から構造化データを抽出します。
import FirecrawlApp from '@mendable/firecrawl-js';
import { z } from 'zod';
const firecrawl = new FirecrawlApp({ apiKey: process.env.FIRECRAWL_API_KEY });
const result = await firecrawl.scrape('https://en.wikipedia.org/wiki/JavaScript', {
formats: [{
type: 'json',
schema: z.object({
name: z.string(),
creator: z.string(),
firstAppeared: z.string(),
typingDiscipline: z.string(),
website: z.string()
})
}]
});
console.log(result.json);
Wikipedia の記事を検索します。
import FirecrawlApp from '@mendable/firecrawl-js';
const firecrawl = new FirecrawlApp({ apiKey: process.env.FIRECRAWL_API_KEY });
const searchResult = await firecrawl.search('quantum computing site:en.wikipedia.org', {
limit: 10,
sources: [{ type: 'web' }], // { type: 'news' }, { type: 'images' }
scrapeOptions: {
formats: ['markdown']
}
});
console.log(searchResult);
単一の Wikipedia 記事をスクレイピングします。
import FirecrawlApp from '@mendable/firecrawl-js';
const firecrawl = new FirecrawlApp({ apiKey: process.env.FIRECRAWL_API_KEY });
const result = await firecrawl.scrape('https://en.wikipedia.org/wiki/Artificial_intelligence', {
formats: ['markdown'], // 例: html, links など
onlyMainContent: true
});
console.log(result);
Wikipedia のポータルまたはカテゴリ内に存在するすべての URL を取得します。注: Map は URL のみを返し、コンテンツは含みません。
import FirecrawlApp from '@mendable/firecrawl-js';
const firecrawl = new FirecrawlApp({ apiKey: process.env.FIRECRAWL_API_KEY });
const mapResult = await firecrawl.map('https://en.wikipedia.org/wiki/Portal:Computer_science');
console.log(mapResult.links);
// コンテンツなしでURLの配列を返す
Wikipedia のドキュメントやカテゴリ内の複数ページをクロールします。
import FirecrawlApp from '@mendable/firecrawl-js';
const firecrawl = new FirecrawlApp({ apiKey: process.env.FIRECRAWL_API_KEY });
const crawlResult = await firecrawl.crawl('https://en.wikipedia.org/wiki/Portal:Artificial_intelligence', {
limit: 10,
scrapeOptions: {
formats: ['markdown']
}
});
console.log(crawlResult.data);
複数の Wikipedia URL を同時にスクレイピングします。
import FirecrawlApp from '@mendable/firecrawl-js';
const firecrawl = new FirecrawlApp({ apiKey: process.env.FIRECRAWL_API_KEY });
// 完了を待つ
const job = await firecrawl.batchScrape([
'https://en.wikipedia.org/wiki/Machine_learning',
'https://en.wikipedia.org/wiki/Artificial_intelligence',
'https://en.wikipedia.org/wiki/Deep_learning'],
{
options: {
formats: ['markdown']
},
pollInterval: 2,
timeout: 120
}
);
console.log(job.status, job.completed, job.total);
console.log(job);