Firecrawl

来自Firecrwal的网页抓取服务,可以将网页转成md格式

MCP 工具

Scrape(页面抓取)

来自Firecrwal的网页抓取服务,可以将网页转成md格式

参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

Body 参数

  • url (string, 必需): | 示例值:<string>

  • formats (array, 可选):

  • onlyMainContent (boolean, 可选): | 示例值:True

  • includeTags (array, 可选):

  • excludeTags (array, 可选):

  • headers (object, 可选):

  • waitFor (integer, 可选): | 示例值:0

  • mobile (boolean, 可选): | 示例值:False

  • skipTlsVerification (boolean, 可选): | 示例值:False

  • timeout (integer, 可选): | 示例值:30000

  • jsonOptions (object, 可选):

  • actions (array, 可选):

  • location (object, 可选):

  • removeBase64Images (boolean, 可选): | 示例值:True

  • blockAds (boolean, 可选): | 示例值:True

  • proxy (string, 可选): | 示例值:basic

  • changeTrackingOptions (object, 可选):

Batch Scrape(批量抓取)

来自Firecrwal的网页抓取服务,可以将网页转成md格式

参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

Body 参数

  • urls (array, 必需):

  • webhook (object, 可选):

  • ignoreInvalidURLs (boolean, 可选): | 示例值:False

  • formats (array, 可选):

  • onlyMainContent (boolean, 可选): | 示例值:True

  • includeTags (array, 可选):

  • excludeTags (array, 可选):

  • headers (object, 可选):

  • waitFor (integer, 可选): | 示例值:0

  • mobile (boolean, 可选): | 示例值:False

  • skipTlsVerification (boolean, 可选): | 示例值:False

  • timeout (integer, 可选): | 示例值:30000

  • jsonOptions (object, 可选):

  • actions (array, 可选):

  • location (object, 可选):

  • removeBase64Images (boolean, 可选): | 示例值:True

  • blockAds (boolean, 可选): | 示例值:True

  • proxy (string, 可选): | 示例值:basic

  • changeTrackingOptions (object, 可选):

  • url (string, 可选):

Scrape Status(获取结果)

来自Firecrwal的网页抓取服务,可以将网页转成md格式

参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

Scrape Errors(获取错误)

来自Firecrwal的网页抓取服务,可以将网页转成md格式

参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

Map(网站地图)

来自Firecrwal的网页地图获取服务

参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

Body 参数

  • url (string, 必需): | 示例值:<string>

  • search (string, 可选): | 示例值:<string>

  • ignoreSitemap (boolean, 可选): | 示例值:True

  • sitemapOnly (boolean, 可选): | 示例值:False

  • includeSubdomains (boolean, 可选): | 示例值:False

  • limit (integer, 可选): | 示例值:5000

  • timeout (integer, 可选): | 示例值:123

  • formats (array, 可选):

  • onlyMainContent (boolean, 可选):

  • includeTags (array, 可选):

  • excludeTags (array, 可选):

  • headers (object, 可选):

  • waitFor (integer, 可选):

  • mobile (boolean, 可选):

  • skipTlsVerification (boolean, 可选):

  • jsonOptions (object, 可选):

  • actions (array, 可选):

  • location (object, 可选):

  • removeBase64Images (boolean, 可选):

  • blockAds (boolean, 可选):

  • proxy (string, 可选):

  • changeTrackingOptions (object, 可选):

Search(搜索)

来自Firecrwal的搜索服务

参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

Body 参数

  • query (string, 必需): 搜索查询 | 示例值:302ai

  • limit (integer, 可选): 返回结果的最大数量(1 ≤ x ≤ 50) | 示例值:5

  • tbs (string, 可选): 基于时间的搜索参数

  • lang (string, 可选): 搜索结果的语言代码 | 示例值:en

  • country (string, 可选): 搜索结果的国家代码 | 示例值:us

  • location (string, 可选): 搜索结果的位置参数

  • timeout (integer, 可选): 超时时间(毫秒) | 示例值:60000

  • scrapeOptions (object, 可选): 抓取搜索结果的选项

Crawl(全站抓取)

来自Firecrwal的v2版本crawl

输出pdf格式每页多1积分,JSON格式4积分每页,Stealth Mode 4积分每页

需要注意,预计爬取页数可以看返回的limit,这个是大致爬取的页数,如果过多要注意不想爬取的时候要把任务取消,否则会持续扣费直到完成任务

参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

Body 参数

  • url (string, 必需): | 示例值:https://example.com

  • prompt (string, 必需): | 示例值:Crawl the entire website but exclude /admin and /api

  • excludePaths (array, 可选): URL 路径名正则表达式模式,用于从抓取中排除匹配的 URL。例如,如果您为基本 URL firecrawl.dev 设置“excludePaths”:["blog/.*"],则任何与该模式匹配的结果都将被排除,例如https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap。

  • includePaths (array, 可选): URL 路径名正则表达式模式,用于在抓取过程中包含匹配的 URL。只有与指定模式匹配的路径才会包含在响应中。例如,如果您为基本 URL firecrawl.dev 设置“includePaths”: ["blog/.*"],则只会包含与该模式匹配的结果,例如https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap。

  • maxDiscoveryDepth (integer, 可选): 根据发现顺序设置最大抓取深度。根站点和站点地图页面的发现深度为 0。例如,如果将其设置为 1,sitemap: 'skip'则只会抓取输入的 URL 以及该页面上所有链接的 URL。

  • sitemap (string, 可选): 默认skip 抓取时启用站点地图模式。如果设置为“跳过”,爬虫将忽略网站站点地图,仅抓取输入的 URL 并从该 URL 开始发现页面。

可选方案: skip, include

可选方案: skip, include

  • ignoreQueryParameters (boolean, 可选): 默认值:false 不要使用不同的(或不使用)查询参数重复抓取同一路径。

  • limit (integer, 可选): 默认值:10000 要抓取的最大页面数。默认限制为 10000。

  • crawlEntireDomain (boolean, 可选): 默认值:false 允许爬虫跟踪指向同级或父级 URL 的内部链接,而不仅仅是子路径。

false:仅抓取更深层(子)URL。→ 例如 /features/feature-1 → /features/feature-1/tips ✅ → 不会抓取 /pricing 或 / ❌

true:抓取所有内部链接,包括同级链接和父级链接。→ 例如 /features/feature-1 → /pricing、/ 等。✅

使用 true 可获得比嵌套路径更广泛的内部覆盖范围。

  • allowExternalLinks (boolean, 可选): 默认值:false 允许爬虫程序跟踪外部网站的链接。

  • allowSubdomains (boolean, 可选): 默认值:false 允许爬虫程序跟踪指向主域子域的链接。

  • delay (integer, 可选): 设置两次抓取操作之间的延迟时间(以秒为单位)。这有助于遵守网站的速率限制。

  • maxConcurrency (integer, 可选): 最大并发抓取次数。此参数允许您为此次抓取设置并发限制。如果未指定,则抓取将遵循您团队的并发限制。

  • webhook (object, 可选):

  • scrapeOptions (object, 可选): 详情见:https://docs.firecrawl.dev/api-reference/endpoint/crawl-post#markdown

  • zeroDataRetention (boolean, 可选): 默认值:false 如果启用此功能,本次爬取将实现零数据保留

Crawl(取消)

来自Firecrwal的v2版本crawl

参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

Crawl(获取结果)

来自Firecrwal的v2版本crawl

参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

Crawl(爬虫参数预览)

来自Firecrwal的v2版本crawl,params-preview

参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

Body 参数

  • url (string, 必需): | 示例值:https://example.com

  • prompt (string, 必需): | 示例值:Crawl the entire website but exclude /admin and /api

  • excludePaths (array, 必需):

  • includePaths (array, 必需):

  • maxDiscoveryDepth (integer, 必需):

  • sitemap (string, 必需):

  • ignoreQueryParameters (boolean, 必需):

  • limit (integer, 必需):

  • crawlEntireDomain (boolean, 必需):

  • allowExternalLinks (boolean, 必需):

  • allowSubdomains (boolean, 必需):

  • delay (integer, 必需):

  • maxConcurrency (integer, 必需):

  • webhook (object, 必需):

  • scrapeOptions (object, 必需):

  • zeroDataRetention (boolean, 必需):

Crawl(Get Crawl Errors)

来自Firecrwal的v2版本crawl

参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

MCP Cline 配置

此服务器需要通过您的 MCP 客户端进行配置。以下是不同环境下的示例:

需要替换你的租户ID和API Key(必需)

API 接口

Scrape(页面抓取)

请求信息

  • Method: POST

  • Endpoint: /firecrawl/v1/scrape

请求参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

Body 参数

  • url (string, 必需): | 示例值:<string>

  • formats (array, 可选):

  • onlyMainContent (boolean, 可选): | 示例值:True

  • includeTags (array, 可选):

  • excludeTags (array, 可选):

  • headers (object, 可选):

  • waitFor (integer, 可选): | 示例值:0

  • mobile (boolean, 可选): | 示例值:False

  • skipTlsVerification (boolean, 可选): | 示例值:False

  • timeout (integer, 可选): | 示例值:30000

  • jsonOptions (object, 可选):

  • actions (array, 可选):

  • location (object, 可选):

  • removeBase64Images (boolean, 可选): | 示例值:True

  • blockAds (boolean, 可选): | 示例值:True

  • proxy (string, 可选): | 示例值:basic

  • changeTrackingOptions (object, 可选):

返回响应

  • 200 成功

    • Content-Type:application/json

请求示例

响应示例

Batch Scrape(批量抓取)

请求信息

  • Method: POST

  • Endpoint: /firecrawl/v1/batch/scrape

请求参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

Body 参数

  • urls (array, 必需):

  • webhook (object, 可选):

  • ignoreInvalidURLs (boolean, 可选): | 示例值:False

  • formats (array, 可选):

  • onlyMainContent (boolean, 可选): | 示例值:True

  • includeTags (array, 可选):

  • excludeTags (array, 可选):

  • headers (object, 可选):

  • waitFor (integer, 可选): | 示例值:0

  • mobile (boolean, 可选): | 示例值:False

  • skipTlsVerification (boolean, 可选): | 示例值:False

  • timeout (integer, 可选): | 示例值:30000

  • jsonOptions (object, 可选):

  • actions (array, 可选):

  • location (object, 可选):

  • removeBase64Images (boolean, 可选): | 示例值:True

  • blockAds (boolean, 可选): | 示例值:True

  • proxy (string, 可选): | 示例值:basic

  • changeTrackingOptions (object, 可选):

  • url (string, 可选):

返回响应

  • 200 成功

    • Content-Type:application/json

请求示例

响应示例

Scrape Status(获取结果)

请求信息

  • Method: GET

  • Endpoint: /firecrawl/v1/batch/scrape/{id}

请求参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

返回响应

  • 200 成功

    • Content-Type:application/json

请求示例

响应示例

Scrape Errors(获取错误)

请求信息

  • Method: GET

  • Endpoint: /firecrawl/v1/batch/scrape/{id}/errors

请求参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

返回响应

  • 200 成功

    • Content-Type:application/json

请求示例

响应示例

Map(网站地图)

请求信息

  • Method: POST

  • Endpoint: /firecrawl/v1/map

请求参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

Body 参数

  • url (string, 必需): | 示例值:<string>

  • search (string, 可选): | 示例值:<string>

  • ignoreSitemap (boolean, 可选): | 示例值:True

  • sitemapOnly (boolean, 可选): | 示例值:False

  • includeSubdomains (boolean, 可选): | 示例值:False

  • limit (integer, 可选): | 示例值:5000

  • timeout (integer, 可选): | 示例值:123

  • formats (array, 可选):

  • onlyMainContent (boolean, 可选):

  • includeTags (array, 可选):

  • excludeTags (array, 可选):

  • headers (object, 可选):

  • waitFor (integer, 可选):

  • mobile (boolean, 可选):

  • skipTlsVerification (boolean, 可选):

  • jsonOptions (object, 可选):

  • actions (array, 可选):

  • location (object, 可选):

  • removeBase64Images (boolean, 可选):

  • blockAds (boolean, 可选):

  • proxy (string, 可选):

  • changeTrackingOptions (object, 可选):

返回响应

  • 200 成功

    • Content-Type:application/json

请求示例

响应示例

Search(搜索)

请求信息

  • Method: POST

  • Endpoint: /firecrawl/v1/search

请求参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

Body 参数

  • query (string, 必需): 搜索查询 | 示例值:302ai

  • limit (integer, 可选): 返回结果的最大数量(1 ≤ x ≤ 50) | 示例值:5

  • tbs (string, 可选): 基于时间的搜索参数

  • lang (string, 可选): 搜索结果的语言代码 | 示例值:en

  • country (string, 可选): 搜索结果的国家代码 | 示例值:us

  • location (string, 可选): 搜索结果的位置参数

  • timeout (integer, 可选): 超时时间(毫秒) | 示例值:60000

  • scrapeOptions (object, 可选): 抓取搜索结果的选项

返回响应

  • 200 成功

    • Content-Type:application/json

请求示例

响应示例

Crawl(全站抓取)

请求信息

  • Method: POST

  • Endpoint: /firecrawl/v2/crawl

请求参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

Body 参数

  • url (string, 必需): | 示例值:https://example.com

  • prompt (string, 必需): | 示例值:Crawl the entire website but exclude /admin and /api

  • excludePaths (array, 可选): URL 路径名正则表达式模式,用于从抓取中排除匹配的 URL。例如,如果您为基本 URL firecrawl.dev 设置“excludePaths”:["blog/.*"],则任何与该模式匹配的结果都将被排除,例如https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap。

  • includePaths (array, 可选): URL 路径名正则表达式模式,用于在抓取过程中包含匹配的 URL。只有与指定模式匹配的路径才会包含在响应中。例如,如果您为基本 URL firecrawl.dev 设置“includePaths”: ["blog/.*"],则只会包含与该模式匹配的结果,例如https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap。

  • maxDiscoveryDepth (integer, 可选): 根据发现顺序设置最大抓取深度。根站点和站点地图页面的发现深度为 0。例如,如果将其设置为 1,sitemap: 'skip'则只会抓取输入的 URL 以及该页面上所有链接的 URL。

  • sitemap (string, 可选): 默认skip 抓取时启用站点地图模式。如果设置为“跳过”,爬虫将忽略网站站点地图,仅抓取输入的 URL 并从该 URL 开始发现页面。

可选方案: skip, include

可选方案: skip, include

  • ignoreQueryParameters (boolean, 可选): 默认值:false 不要使用不同的(或不使用)查询参数重复抓取同一路径。

  • limit (integer, 可选): 默认值:10000 要抓取的最大页面数。默认限制为 10000。

  • crawlEntireDomain (boolean, 可选): 默认值:false 允许爬虫跟踪指向同级或父级 URL 的内部链接,而不仅仅是子路径。

false:仅抓取更深层(子)URL。→ 例如 /features/feature-1 → /features/feature-1/tips ✅ → 不会抓取 /pricing 或 / ❌

true:抓取所有内部链接,包括同级链接和父级链接。→ 例如 /features/feature-1 → /pricing、/ 等。✅

使用 true 可获得比嵌套路径更广泛的内部覆盖范围。

  • allowExternalLinks (boolean, 可选): 默认值:false 允许爬虫程序跟踪外部网站的链接。

  • allowSubdomains (boolean, 可选): 默认值:false 允许爬虫程序跟踪指向主域子域的链接。

  • delay (integer, 可选): 设置两次抓取操作之间的延迟时间(以秒为单位)。这有助于遵守网站的速率限制。

  • maxConcurrency (integer, 可选): 最大并发抓取次数。此参数允许您为此次抓取设置并发限制。如果未指定,则抓取将遵循您团队的并发限制。

  • webhook (object, 可选):

  • scrapeOptions (object, 可选): 详情见:https://docs.firecrawl.dev/api-reference/endpoint/crawl-post#markdown

  • zeroDataRetention (boolean, 可选): 默认值:false 如果启用此功能,本次爬取将实现零数据保留

返回响应

  • 200 成功

    • Content-Type:application/json

请求示例

响应示例

Crawl(取消)

请求信息

  • Method: DELETE

  • Endpoint: /firecrawl/v2/crawl/{id}

请求参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

返回响应

  • 200 成功

    • Content-Type:application/json

请求示例

响应示例

Crawl(获取结果)

请求信息

  • Method: GET

  • Endpoint: /firecrawl/v2/crawl/{id}

请求参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

返回响应

  • 200 成功

    • Content-Type:application/json

请求示例

响应示例

Crawl(爬虫参数预览)

请求信息

  • Method: POST

  • Endpoint: /firecrawl/v2/crawl/params-preview

请求参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

Body 参数

  • url (string, 必需): | 示例值:https://example.com

  • prompt (string, 必需): | 示例值:Crawl the entire website but exclude /admin and /api

  • excludePaths (array, 必需):

  • includePaths (array, 必需):

  • maxDiscoveryDepth (integer, 必需):

  • sitemap (string, 必需):

  • ignoreQueryParameters (boolean, 必需):

  • limit (integer, 必需):

  • crawlEntireDomain (boolean, 必需):

  • allowExternalLinks (boolean, 必需):

  • allowSubdomains (boolean, 必需):

  • delay (integer, 必需):

  • maxConcurrency (integer, 必需):

  • webhook (object, 必需):

  • scrapeOptions (object, 必需):

  • zeroDataRetention (boolean, 必需):

返回响应

  • 200 成功

    • Content-Type:application/json

请求示例

响应示例

Crawl(Get Crawl Errors)

请求信息

  • Method: GET

  • Endpoint: /firecrawl/v2/crawl/{id}/errors

请求参数

Header 参数

  • Authorization (string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}

返回响应

  • 200 成功

    • Content-Type:application/json

请求示例

响应示例

最后更新于