Firecrawl
来自Firecrwal的网页抓取服务,可以将网页转成md格式
MCP 工具
Scrape(页面抓取)
来自Firecrwal的网页抓取服务,可以将网页转成md格式
参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
Body 参数
url(string, 必需): | 示例值:<string>formats(array, 可选):onlyMainContent(boolean, 可选): | 示例值:TrueincludeTags(array, 可选):excludeTags(array, 可选):headers(object, 可选):waitFor(integer, 可选): | 示例值:0mobile(boolean, 可选): | 示例值:FalseskipTlsVerification(boolean, 可选): | 示例值:Falsetimeout(integer, 可选): | 示例值:30000jsonOptions(object, 可选):actions(array, 可选):location(object, 可选):removeBase64Images(boolean, 可选): | 示例值:TrueblockAds(boolean, 可选): | 示例值:Trueproxy(string, 可选): | 示例值:basicchangeTrackingOptions(object, 可选):
Batch Scrape(批量抓取)
来自Firecrwal的网页抓取服务,可以将网页转成md格式
参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
Body 参数
urls(array, 必需):webhook(object, 可选):ignoreInvalidURLs(boolean, 可选): | 示例值:Falseformats(array, 可选):onlyMainContent(boolean, 可选): | 示例值:TrueincludeTags(array, 可选):excludeTags(array, 可选):headers(object, 可选):waitFor(integer, 可选): | 示例值:0mobile(boolean, 可选): | 示例值:FalseskipTlsVerification(boolean, 可选): | 示例值:Falsetimeout(integer, 可选): | 示例值:30000jsonOptions(object, 可选):actions(array, 可选):location(object, 可选):removeBase64Images(boolean, 可选): | 示例值:TrueblockAds(boolean, 可选): | 示例值:Trueproxy(string, 可选): | 示例值:basicchangeTrackingOptions(object, 可选):url(string, 可选):
Scrape Status(获取结果)
来自Firecrwal的网页抓取服务,可以将网页转成md格式
参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
Scrape Errors(获取错误)
来自Firecrwal的网页抓取服务,可以将网页转成md格式
参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
Map(网站地图)
来自Firecrwal的网页地图获取服务
参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
Body 参数
url(string, 必需): | 示例值:<string>search(string, 可选): | 示例值:<string>ignoreSitemap(boolean, 可选): | 示例值:TruesitemapOnly(boolean, 可选): | 示例值:FalseincludeSubdomains(boolean, 可选): | 示例值:Falselimit(integer, 可选): | 示例值:5000timeout(integer, 可选): | 示例值:123formats(array, 可选):onlyMainContent(boolean, 可选):includeTags(array, 可选):excludeTags(array, 可选):headers(object, 可选):waitFor(integer, 可选):mobile(boolean, 可选):skipTlsVerification(boolean, 可选):jsonOptions(object, 可选):actions(array, 可选):location(object, 可选):removeBase64Images(boolean, 可选):blockAds(boolean, 可选):proxy(string, 可选):changeTrackingOptions(object, 可选):
Search(搜索)
来自Firecrwal的搜索服务
参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
Body 参数
query(string, 必需): 搜索查询 | 示例值:302ailimit(integer, 可选): 返回结果的最大数量(1 ≤ x ≤ 50) | 示例值:5tbs(string, 可选): 基于时间的搜索参数lang(string, 可选): 搜索结果的语言代码 | 示例值:encountry(string, 可选): 搜索结果的国家代码 | 示例值:uslocation(string, 可选): 搜索结果的位置参数timeout(integer, 可选): 超时时间(毫秒) | 示例值:60000scrapeOptions(object, 可选): 抓取搜索结果的选项
Crawl(全站抓取)
来自Firecrwal的v2版本crawl
输出pdf格式每页多1积分,JSON格式4积分每页,Stealth Mode 4积分每页
需要注意,预计爬取页数可以看返回的limit,这个是大致爬取的页数,如果过多要注意不想爬取的时候要把任务取消,否则会持续扣费直到完成任务
参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
Body 参数
url(string, 必需): | 示例值:https://example.comprompt(string, 必需): | 示例值:Crawl the entire website but exclude /admin and /apiexcludePaths(array, 可选): URL 路径名正则表达式模式,用于从抓取中排除匹配的 URL。例如,如果您为基本 URL firecrawl.dev 设置“excludePaths”:["blog/.*"],则任何与该模式匹配的结果都将被排除,例如https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap。includePaths(array, 可选): URL 路径名正则表达式模式,用于在抓取过程中包含匹配的 URL。只有与指定模式匹配的路径才会包含在响应中。例如,如果您为基本 URL firecrawl.dev 设置“includePaths”: ["blog/.*"],则只会包含与该模式匹配的结果,例如https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap。maxDiscoveryDepth(integer, 可选): 根据发现顺序设置最大抓取深度。根站点和站点地图页面的发现深度为 0。例如,如果将其设置为 1,sitemap: 'skip'则只会抓取输入的 URL 以及该页面上所有链接的 URL。sitemap(string, 可选): 默认skip 抓取时启用站点地图模式。如果设置为“跳过”,爬虫将忽略网站站点地图,仅抓取输入的 URL 并从该 URL 开始发现页面。
可选方案: skip, include
可选方案: skip, include
ignoreQueryParameters(boolean, 可选): 默认值:false 不要使用不同的(或不使用)查询参数重复抓取同一路径。limit(integer, 可选): 默认值:10000 要抓取的最大页面数。默认限制为 10000。crawlEntireDomain(boolean, 可选): 默认值:false 允许爬虫跟踪指向同级或父级 URL 的内部链接,而不仅仅是子路径。
false:仅抓取更深层(子)URL。→ 例如 /features/feature-1 → /features/feature-1/tips ✅ → 不会抓取 /pricing 或 / ❌
true:抓取所有内部链接,包括同级链接和父级链接。→ 例如 /features/feature-1 → /pricing、/ 等。✅
使用 true 可获得比嵌套路径更广泛的内部覆盖范围。
allowExternalLinks(boolean, 可选): 默认值:false 允许爬虫程序跟踪外部网站的链接。allowSubdomains(boolean, 可选): 默认值:false 允许爬虫程序跟踪指向主域子域的链接。delay(integer, 可选): 设置两次抓取操作之间的延迟时间(以秒为单位)。这有助于遵守网站的速率限制。maxConcurrency(integer, 可选): 最大并发抓取次数。此参数允许您为此次抓取设置并发限制。如果未指定,则抓取将遵循您团队的并发限制。webhook(object, 可选):scrapeOptions(object, 可选): 详情见:https://docs.firecrawl.dev/api-reference/endpoint/crawl-post#markdownzeroDataRetention(boolean, 可选): 默认值:false 如果启用此功能,本次爬取将实现零数据保留
Crawl(取消)
来自Firecrwal的v2版本crawl
参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
Crawl(获取结果)
来自Firecrwal的v2版本crawl
参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
Crawl(爬虫参数预览)
来自Firecrwal的v2版本crawl,params-preview
参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
Body 参数
url(string, 必需): | 示例值:https://example.comprompt(string, 必需): | 示例值:Crawl the entire website but exclude /admin and /apiexcludePaths(array, 必需):includePaths(array, 必需):maxDiscoveryDepth(integer, 必需):sitemap(string, 必需):ignoreQueryParameters(boolean, 必需):limit(integer, 必需):crawlEntireDomain(boolean, 必需):allowExternalLinks(boolean, 必需):allowSubdomains(boolean, 必需):delay(integer, 必需):maxConcurrency(integer, 必需):webhook(object, 必需):scrapeOptions(object, 必需):zeroDataRetention(boolean, 必需):
Crawl(Get Crawl Errors)
来自Firecrwal的v2版本crawl
参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
MCP Cline 配置
此服务器需要通过您的 MCP 客户端进行配置。以下是不同环境下的示例:
需要替换你的租户ID和API Key(必需)
API 接口
Scrape(页面抓取)
请求信息
Method: POST
Endpoint:
/firecrawl/v1/scrape
请求参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
Body 参数
url(string, 必需): | 示例值:<string>formats(array, 可选):onlyMainContent(boolean, 可选): | 示例值:TrueincludeTags(array, 可选):excludeTags(array, 可选):headers(object, 可选):waitFor(integer, 可选): | 示例值:0mobile(boolean, 可选): | 示例值:FalseskipTlsVerification(boolean, 可选): | 示例值:Falsetimeout(integer, 可选): | 示例值:30000jsonOptions(object, 可选):actions(array, 可选):location(object, 可选):removeBase64Images(boolean, 可选): | 示例值:TrueblockAds(boolean, 可选): | 示例值:Trueproxy(string, 可选): | 示例值:basicchangeTrackingOptions(object, 可选):
返回响应
200 成功
Content-Type:
application/json
请求示例
响应示例
Batch Scrape(批量抓取)
请求信息
Method: POST
Endpoint:
/firecrawl/v1/batch/scrape
请求参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
Body 参数
urls(array, 必需):webhook(object, 可选):ignoreInvalidURLs(boolean, 可选): | 示例值:Falseformats(array, 可选):onlyMainContent(boolean, 可选): | 示例值:TrueincludeTags(array, 可选):excludeTags(array, 可选):headers(object, 可选):waitFor(integer, 可选): | 示例值:0mobile(boolean, 可选): | 示例值:FalseskipTlsVerification(boolean, 可选): | 示例值:Falsetimeout(integer, 可选): | 示例值:30000jsonOptions(object, 可选):actions(array, 可选):location(object, 可选):removeBase64Images(boolean, 可选): | 示例值:TrueblockAds(boolean, 可选): | 示例值:Trueproxy(string, 可选): | 示例值:basicchangeTrackingOptions(object, 可选):url(string, 可选):
返回响应
200 成功
Content-Type:
application/json
请求示例
响应示例
Scrape Status(获取结果)
请求信息
Method: GET
Endpoint:
/firecrawl/v1/batch/scrape/{id}
请求参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
返回响应
200 成功
Content-Type:
application/json
请求示例
响应示例
Scrape Errors(获取错误)
请求信息
Method: GET
Endpoint:
/firecrawl/v1/batch/scrape/{id}/errors
请求参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
返回响应
200 成功
Content-Type:
application/json
请求示例
响应示例
Map(网站地图)
请求信息
Method: POST
Endpoint:
/firecrawl/v1/map
请求参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
Body 参数
url(string, 必需): | 示例值:<string>search(string, 可选): | 示例值:<string>ignoreSitemap(boolean, 可选): | 示例值:TruesitemapOnly(boolean, 可选): | 示例值:FalseincludeSubdomains(boolean, 可选): | 示例值:Falselimit(integer, 可选): | 示例值:5000timeout(integer, 可选): | 示例值:123formats(array, 可选):onlyMainContent(boolean, 可选):includeTags(array, 可选):excludeTags(array, 可选):headers(object, 可选):waitFor(integer, 可选):mobile(boolean, 可选):skipTlsVerification(boolean, 可选):jsonOptions(object, 可选):actions(array, 可选):location(object, 可选):removeBase64Images(boolean, 可选):blockAds(boolean, 可选):proxy(string, 可选):changeTrackingOptions(object, 可选):
返回响应
200 成功
Content-Type:
application/json
请求示例
响应示例
Search(搜索)
请求信息
Method: POST
Endpoint:
/firecrawl/v1/search
请求参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
Body 参数
query(string, 必需): 搜索查询 | 示例值:302ailimit(integer, 可选): 返回结果的最大数量(1 ≤ x ≤ 50) | 示例值:5tbs(string, 可选): 基于时间的搜索参数lang(string, 可选): 搜索结果的语言代码 | 示例值:encountry(string, 可选): 搜索结果的国家代码 | 示例值:uslocation(string, 可选): 搜索结果的位置参数timeout(integer, 可选): 超时时间(毫秒) | 示例值:60000scrapeOptions(object, 可选): 抓取搜索结果的选项
返回响应
200 成功
Content-Type:
application/json
请求示例
响应示例
Crawl(全站抓取)
请求信息
Method: POST
Endpoint:
/firecrawl/v2/crawl
请求参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
Body 参数
url(string, 必需): | 示例值:https://example.comprompt(string, 必需): | 示例值:Crawl the entire website but exclude /admin and /apiexcludePaths(array, 可选): URL 路径名正则表达式模式,用于从抓取中排除匹配的 URL。例如,如果您为基本 URL firecrawl.dev 设置“excludePaths”:["blog/.*"],则任何与该模式匹配的结果都将被排除,例如https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap。includePaths(array, 可选): URL 路径名正则表达式模式,用于在抓取过程中包含匹配的 URL。只有与指定模式匹配的路径才会包含在响应中。例如,如果您为基本 URL firecrawl.dev 设置“includePaths”: ["blog/.*"],则只会包含与该模式匹配的结果,例如https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap。maxDiscoveryDepth(integer, 可选): 根据发现顺序设置最大抓取深度。根站点和站点地图页面的发现深度为 0。例如,如果将其设置为 1,sitemap: 'skip'则只会抓取输入的 URL 以及该页面上所有链接的 URL。sitemap(string, 可选): 默认skip 抓取时启用站点地图模式。如果设置为“跳过”,爬虫将忽略网站站点地图,仅抓取输入的 URL 并从该 URL 开始发现页面。
可选方案: skip, include
可选方案: skip, include
ignoreQueryParameters(boolean, 可选): 默认值:false 不要使用不同的(或不使用)查询参数重复抓取同一路径。limit(integer, 可选): 默认值:10000 要抓取的最大页面数。默认限制为 10000。crawlEntireDomain(boolean, 可选): 默认值:false 允许爬虫跟踪指向同级或父级 URL 的内部链接,而不仅仅是子路径。
false:仅抓取更深层(子)URL。→ 例如 /features/feature-1 → /features/feature-1/tips ✅ → 不会抓取 /pricing 或 / ❌
true:抓取所有内部链接,包括同级链接和父级链接。→ 例如 /features/feature-1 → /pricing、/ 等。✅
使用 true 可获得比嵌套路径更广泛的内部覆盖范围。
allowExternalLinks(boolean, 可选): 默认值:false 允许爬虫程序跟踪外部网站的链接。allowSubdomains(boolean, 可选): 默认值:false 允许爬虫程序跟踪指向主域子域的链接。delay(integer, 可选): 设置两次抓取操作之间的延迟时间(以秒为单位)。这有助于遵守网站的速率限制。maxConcurrency(integer, 可选): 最大并发抓取次数。此参数允许您为此次抓取设置并发限制。如果未指定,则抓取将遵循您团队的并发限制。webhook(object, 可选):scrapeOptions(object, 可选): 详情见:https://docs.firecrawl.dev/api-reference/endpoint/crawl-post#markdownzeroDataRetention(boolean, 可选): 默认值:false 如果启用此功能,本次爬取将实现零数据保留
返回响应
200 成功
Content-Type:
application/json
请求示例
响应示例
Crawl(取消)
请求信息
Method: DELETE
Endpoint:
/firecrawl/v2/crawl/{id}
请求参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
返回响应
200 成功
Content-Type:
application/json
请求示例
响应示例
Crawl(获取结果)
请求信息
Method: GET
Endpoint:
/firecrawl/v2/crawl/{id}
请求参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
返回响应
200 成功
Content-Type:
application/json
请求示例
响应示例
Crawl(爬虫参数预览)
请求信息
Method: POST
Endpoint:
/firecrawl/v2/crawl/params-preview
请求参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
Body 参数
url(string, 必需): | 示例值:https://example.comprompt(string, 必需): | 示例值:Crawl the entire website but exclude /admin and /apiexcludePaths(array, 必需):includePaths(array, 必需):maxDiscoveryDepth(integer, 必需):sitemap(string, 必需):ignoreQueryParameters(boolean, 必需):limit(integer, 必需):crawlEntireDomain(boolean, 必需):allowExternalLinks(boolean, 必需):allowSubdomains(boolean, 必需):delay(integer, 必需):maxConcurrency(integer, 必需):webhook(object, 必需):scrapeOptions(object, 必需):zeroDataRetention(boolean, 必需):
返回响应
200 成功
Content-Type:
application/json
请求示例
响应示例
Crawl(Get Crawl Errors)
请求信息
Method: GET
Endpoint:
/firecrawl/v2/crawl/{id}/errors
请求参数
Header 参数
Authorization(string, 可选): API Key | 示例值:Bearer {{YOUR_API_KEY}}
返回响应
200 成功
Content-Type:
application/json
请求示例
响应示例
最后更新于