Tavily

Tavily是一家专注于AI搜索的公司,他们的搜索会为了LLM进行优化,以便于LLM进行数据检索。

MCP 工具

Search(搜索)

Tavily是一家专注于AI搜索的公司,他们的搜索会为了LLM进行优化,以便于LLM进行数据检索。

参数

Body 参数

  • query (string, 必需): The search query string | 示例值:chatgpt

  • search_depth (string, 可选): "basic" or "advanced" | 示例值:basic

  • include_images (boolean, 可选):

  • max_results (number, 可选): 1-20, default:5

  • include_domains (array, 可选):

  • exclude_domains (array, 可选):

Extract(提取网页)

从指定的URL提取和解析内容。

参数

Body 参数

  • urls (string|array, 必需): 要提取的URL或URL列表

  • query (string, 可选): 用户意图,用于重新排序提取的内容块

  • chunks_per_source (integer, 可选): 每个源返回的最大块数(1-5),仅在提供 query 时可用,默认:3

  • extract_depth (string, 可选): 提取深度,basic(默认)或 advanced

  • include_images (boolean, 可选): 是否在响应中包含图片列表,默认:false

  • include_favicon (boolean, 可选): 是否包含每个结果的favicon URL,默认:false

  • format (string, 可选): 提取内容的格式,markdown(默认)或 text

  • timeout (number, 可选): 等待URL提取的最大时间(秒,1.0-60.0)

Crawl(爬取)

爬取网站并提取内容。

参数

Body 参数

  • url (string, 必需): 要爬取的起始URL | 示例值:https://docs.tavily.com

  • instructions (string, 可选): 自然语言指令,用于指导爬虫 | 示例值:Find all pages about the Python SDK

  • chunks_per_source (integer, 可选): 每个源返回的最大块数(1-5),仅在提供 instructions 时可用,默认:3

  • max_depth (integer, 可选): 最大爬取深度(1-5),默认:1

  • max_breadth (integer, 可选): 每层树要跟随的最大链接数,默认:20

  • limit (integer, 可选): 爬虫将处理的总链接数,默认:50

  • select_paths (array, 可选): 正则表达式模式,用于选择具有特定路径模式的URL

  • select_domains (array, 可选): 正则表达式模式,用于选择特定域名或子域名的爬取

  • exclude_paths (array, 可选): 正则表达式模式,用于排除具有特定路径模式的URL

  • exclude_domains (array, 可选): 正则表达式模式,用于从爬取中排除特定域名或子域名

  • allow_external (boolean, 可选): 是否在最终结果列表中包含外部域名链接,默认:true

  • include_images (boolean, 可选): 是否在爬取结果中包含图片,默认:false

  • extract_depth (string, 可选): 提取深度,basic(默认)或 advanced

  • format (string, 可选): 提取内容的格式,markdown(默认)或 text

  • include_favicon (boolean, 可选): 是否包含每个结果的favicon URL,默认:false

  • timeout (integer, 可选): 超时时间(毫秒),默认:150

Map(网站地图)

生成网站地图并提取所有链接。

参数

Body 参数

  • url (string, 必需): 要生成地图的起始URL | 示例值:docs.tavily.com

  • instructions (string, 可选): 自然语言指令,用于指导爬虫 | 示例值:Find all pages about the Python SDK

  • max_depth (integer, 可选): 最大映射深度(1-5),默认:1

  • max_breadth (integer, 可选): 每层树要跟随的最大链接数,默认:20

  • limit (integer, 可选): 爬虫将处理的总链接数,默认:50

  • select_paths (array, 可选): 正则表达式模式,用于选择具有特定路径模式的URL

  • select_domains (array, 可选): 正则表达式模式,用于选择特定域名或子域名的爬取

  • exclude_paths (array, 可选): 正则表达式模式,用于排除具有特定路径模式的URL

  • exclude_domains (array, 可选): 正则表达式模式,用于从爬取中排除特定域名或子域名

  • allow_external (boolean, 可选): 是否在最终结果列表中包含外部域名链接,默认:true

  • timeout (number, 可选): 映射操作的最大等待时间(秒,10-150),默认:150

MCP Cline 配置

此服务器需要通过您的 MCP 客户端进行配置。以下是不同环境下的示例:

需要替换你的租户ID和API Key(必需)

API 接口

Search(搜索)

执行搜索查询,使用 Tavily Search 进行智能搜索。

请求信息

  • Method: POST

  • Endpoint: /tavily/search

请求参数

Header 参数

  • Authorization (string, 必需): Bearer 认证头,格式为 Bearer {API_KEY} | 示例值:Bearer {{YOUR_API_KEY}}

  • Content-Type (string, 必需): application/json

Body 参数

  • query (string, 必需): 要执行的搜索查询 | 示例值:"who is Leo Messi?"

  • search_depth (string, 可选): 控制延迟与相关性权衡,可选值:advanced(最高相关性)、basic(平衡选项,默认)、fast(低延迟)、ultra-fast(最小延迟) | 示例值:basic

  • chunks_per_source (integer, 可选): 每个源返回的最大相关块数(1-3),仅在 search_depthadvanced 时可用,默认:3

  • max_results (integer, 可选): 返回的最大搜索结果数(0-20),默认:5 | 示例值:5

  • topic (string, 可选): 搜索类别,可选值:general(默认)、news(实时更新)、finance | 示例值:general

  • time_range (string, 可选): 时间范围过滤,可选值:dayweekmonthyeardwmy

  • start_date (string, 可选): 开始日期,格式:YYYY-MM-DD | 示例值:"2025-02-09"

  • end_date (string, 可选): 结束日期,格式:YYYY-MM-DD | 示例值:"2025-12-29"

  • include_answer (boolean|string, 可选): 是否包含LLM生成的答案,basictrue 返回快速答案,advanced 返回详细答案,默认:false

  • include_raw_content (boolean|string, 可选): 是否包含原始内容,markdowntrue 返回markdown格式,text 返回纯文本,默认:false

  • include_images (boolean, 可选): 是否执行图片搜索并包含结果,默认:false

  • include_image_descriptions (boolean, 可选): 当 include_imagestrue 时,是否为每个图片添加描述文本,默认:false

  • include_favicon (boolean, 可选): 是否包含每个结果的favicon URL,默认:false

  • include_domains (array, 可选): 要包含在搜索结果中的域名列表,最多300个域名

  • exclude_domains (array, 可选): 要从搜索结果中排除的域名列表,最多150个域名

  • country (string, 可选): 优先显示特定国家的搜索结果,仅在 topicgeneral 时可用

  • auto_parameters (boolean, 可选): 是否自动配置搜索参数,默认:false。启用后,Tavily会根据查询内容自动配置参数,可能将 search_depth 设置为 advanced

返回响应

  • 200 成功

    • Content-Type:application/json

请求示例

响应示例

Extract(提取网页)

从指定的URL提取和解析内容。

请求信息

  • Method: POST

  • Endpoint: /tavily/extract

请求参数

Header 参数

  • Authorization (string, 必需): Bearer 认证头,格式为 Bearer {API_KEY} | 示例值:Bearer YOUR_API_KEY

  • Content-Type (string, 必需): application/json

Body 参数

  • urls (string|array, 必需): 要提取的URL或URL列表 | 示例值:"https://en.wikipedia.org/wiki/Artificial_intelligence"["https://en.wikipedia.org/wiki/Artificial_intelligence"]

  • query (string, 可选): 用户意图,用于重新排序提取的内容块。提供后,块会根据与此查询的相关性重新排序

  • chunks_per_source (integer, 可选): 每个源返回的最大块数(1-5),仅在提供 query 时可用,默认:3。块是直接从源中提取的短内容片段(每个最多500个字符),将出现在 raw_content 字段中,格式为:<chunk 1> [...] <chunk 2> [...] <chunk 3>

  • extract_depth (string, 可选): 提取深度,basic(默认)或 advanced(检索更多数据包括表格和嵌入内容,但可能增加延迟)

  • include_images (boolean, 可选): 是否在响应中包含从URL提取的图片列表,默认:false

  • include_favicon (boolean, 可选): 是否包含每个结果的favicon URL,默认:false

  • format (string, 可选): 提取的网页内容格式,markdown(默认,返回markdown格式)或 text(返回纯文本,可能增加延迟)

  • timeout (number, 可选): 等待URL提取的最大时间(秒),必须在1.0-60.0秒之间。如果未指定,将根据 extract_depth 应用默认超时:basic提取为10秒,advanced提取为30秒

返回响应

  • 200 成功

    • Content-Type:application/json

请求示例

响应示例

Crawl(爬取)

爬取网站并提取内容。

请求信息

  • Method: POST

  • Endpoint: /tavily/crawl

请求参数

Header 参数

  • Authorization (string, 必需): Bearer 认证头,格式为 Bearer {API_KEY} | 示例值:Bearer YOUR_API_KEY

  • Content-Type (string, 必需): application/json

Body 参数

  • url (string, 必需): 要爬取的起始URL | 示例值:"https://docs.tavily.com"

  • instructions (string, 可选): 自然语言指令,用于指导爬虫 | 示例值:Find all pages about the Python SDK

  • chunks_per_source (integer, 可选): 每个源返回的最大块数(1-5),仅在提供 instructions 时可用,默认:3

  • max_depth (integer, 可选): 最大爬取深度,定义从基础URL可以探索的距离(1-5),默认:1

  • max_breadth (integer, 可选): 每层树(即每页)要跟随的最大链接数,最小:1,默认:20

  • limit (integer, 可选): 爬虫在处理前将处理的总链接数,最小:1,默认:50

  • select_paths (array, 可选): 正则表达式模式,用于选择具有特定路径模式的URL(例如:["/docs/.*", "/api/v1.*"]

  • select_domains (array, 可选): 正则表达式模式,用于选择特定域名或子域名的爬取(例如:["^docs.example.com$"]

  • exclude_paths (array, 可选): 正则表达式模式,用于排除具有特定路径模式的URL(例如:["/private/.*", "/admin/.*"]

  • exclude_domains (array, 可选): 正则表达式模式,用于从爬取中排除特定域名或子域名(例如:["^private.example.com$"]

  • allow_external (boolean, 可选): 是否在最终结果列表中包含外部域名链接,默认:true

  • include_images (boolean, 可选): 是否在爬取结果中包含图片,默认:false

  • extract_depth (string, 可选): 提取深度,basic(默认)或 advanced(高级提取检索更多数据,包括表格和嵌入内容)

  • format (string, 可选): 提取内容的格式,markdown(默认)或 text

  • include_favicon (boolean, 可选): 是否包含每个结果的favicon URL,默认:false

  • timeout (number, 可选): 映射操作的最大等待时间(秒,10-150),默认:150

返回响应

  • 200 成功

    • Content-Type:application/json

请求示例

响应示例

Map(网站地图)

生成网站地图并提取所有链接。Tavily Map 以图的方式遍历网站,可以并行探索数百条路径,通过智能发现生成全面的网站地图。

请求信息

  • Method: POST

  • Endpoint: /tavily/map

请求参数

Header 参数

  • Authorization (string, 必需): Bearer 认证头,格式为 Bearer {API_KEY} | 示例值:Bearer YOUR_API_KEY

  • Content-Type (string, 必需): application/json

Body 参数

  • url (string, 必需): 要生成地图的起始URL | 示例值:"docs.tavily.com"

  • instructions (string, 可选): 自然语言指令,用于指导爬虫 | 示例值:Find all pages about the Python SDK

  • max_depth (integer, 可选): 最大映射深度,定义从基础URL可以探索的距离(1-5),默认:1

  • max_breadth (integer, 可选): 每层树(即每页)要跟随的最大链接数,最小:1,默认:20

  • limit (integer, 可选): 爬虫在处理前将处理的总链接数,最小:1,默认:50

  • select_paths (array, 可选): 正则表达式模式,用于选择具有特定路径模式的URL(例如:["/docs/.*", "/api/v1.*"]

  • select_domains (array, 可选): 正则表达式模式,用于选择特定域名或子域名的爬取(例如:["^docs.example.com$"]

  • exclude_paths (array, 可选): 正则表达式模式,用于排除具有特定路径模式的URL(例如:["/private/.*", "/admin/.*"]

  • exclude_domains (array, 可选): 正则表达式模式,用于从爬取中排除特定域名或子域名(例如:["^private.example.com$"]

  • allow_external (boolean, 可选): 是否在最终结果列表中包含外部域名链接,默认:true

  • timeout (number, 可选): 映射操作的最大等待时间(秒),必须在10-150秒之间,默认:150

返回响应

  • 200 成功

    • Content-Type:application/json

请求示例

响应示例

最后更新于