MinerU

302部署的开源V2/V2.5版本,创建PDF解析任务

MCP 工具

创建PDF解析任务(开源部署版)

302部署的开源V2/V2.5版本,创建PDF解析任务 开源链接:

参数

Header 参数

  • Authorization (string, 必需): | 示例值:Bearer {{YOUR_API_KEY}}

Body 参数

  • pdf_url (string, 可选): | 示例值:https://file.302ai.cn/gpt/imgs/20250805/1364b7e10a0e43e2aa2653a4de40e1dc.pdf

  • parse_method (string, 可选): | 示例值:auto

  • version (string, 可选): | 示例值:2.5

查看PDF解析任务(开源部署版)

查看PDF解析任务

参数

Header 参数

  • Authorization (string, 必需): | 示例值:Bearer {{YOUR_API_KEY}}

Query 参数

  • task_id (string, 必需): 任务ID

创建PDF解析任务(官方免费版)

参考: 单个文件大小不能超过 200MB,文件页数不超出 600 页 因网络限制,github、aws 等国外 URL 会请求超时

参数

Header 参数

  • Authorization (string, 可选): | 示例值:Bearer {{YOUR_API_KEY}}

Body 参数

  • url (string, 必需): | 示例值:https://cdn-mineru.openxlab.org.cn/demo/example.pdf

  • is_ocr (boolean, 可选): 是否启动 ocr 功能,默认 false | 示例值:True

  • enable_formula (boolean, 可选): 是否开启公式识别,默认 true | 示例值:False

  • enable_table (boolean, 可选): 是否开启表格识别,默认 true

  • language (string, 可选): 指定文档语言,默认 ch,可以设置为auto,当为auto时模型会自动识别文档语言,其他可选值列表详见:https://paddlepaddle.github.io/PaddleOCR/latest/ppocr/blog/multi_languages.html#5

  • data_id (string, 可选): 解析对象对应的数据 ID。由大小写英文字母、数字、下划线(_)、短划线(-)、英文句号(.)组成,不超过 128 个字符,可以用于唯一标识您的业务数据。

  • callback (string, 可选): 解析结果回调通知您的 URL,支持使用 HTTP 和 HTTPS 协议的地址。该字段为空时,您必须定时轮询解析结果。callback 接口必须支持 POST 方法、UTF-8 编码、Content-Type:application/json 传输数据,以及参数 checksum 和 content。解析接口按照以下规则和格式设置 checksum 和 content,调用您的 callback 接口返回检测结果。 checksum:字符串格式,由用户 uid + seed + content 拼成字符串,通过 SHA256 算法生成。用户 UID,可在个人中心查询。为防篡改,您可以在获取到推送结果时,按上述算法生成字符串,与 checksum 做一次校验。 content:JSON 字符串格式,请自行解析反转成 JSON 对象。关于 content 结果的示例,请参见任务查询结果的返回示例,对应任务查询结果的 data 部分。 说明:您的服务端 callback 接口收到 Mineru 解析服务推送的结果后,如果返回的 HTTP 状态码为 200,则表示接收成功,其他的 HTTP 状态码均视为接收失败。接收失败时,mineru 将最多重复推送 5 次检测结果,直到接收成功。重复推送 5 次后仍未接收成功,则不再推送,建议您检查 callback 接口的状态。

  • seed (string, 可选): 随机字符串,该值用于回调通知请求中的签名。由英文字母、数字、下划线(_)组成,不超过 64 个字符,由您自定义。用于在接收到内容安全的回调通知时校验请求由 Mineru 解析服务发起。 说明:当使用 callback 时,该字段必须提供。

  • extra_formats (array, 可选): ["docx","html"]markdown、json为默认导出格式,无须设置,该参数仅支持docx、html、latex三种格式中的一个或多个

  • page_ranges (string, 可选): 指定页码范围,格式为逗号分隔的字符串。例如:"2,4-6":表示选取第2页、第4页至第6页(包含4和6,结果为 [2,4,5,6]);"2--2":表示从第2页一直选取到倒数第二页(其中"-2"表示倒数第二页)。

  • model_version (string, 必需): mineru模型版本,两个选项:v1、v2,默认v1。

查看PDF解析任务(官方免费版)

参考:

参数

Header 参数

  • Authorization (string, 可选): | 示例值:Bearer {{YOUR_API_KEY}}

MCP Cline 配置

此服务器需要通过您的 MCP 客户端进行配置。以下是不同环境下的示例:

需要替换你的租户ID和API Key(必需)

API 接口

创建PDF解析任务(开源部署版)

请求信息

  • Method: POST

  • Endpoint: /302/v2/mineru/task

请求参数

Header 参数

  • Authorization (string, 必需): | 示例值:Bearer {{YOUR_API_KEY}}

Body 参数

  • pdf_url (string, 可选): | 示例值:https://file.302ai.cn/gpt/imgs/20250805/1364b7e10a0e43e2aa2653a4de40e1dc.pdf

  • parse_method (string, 可选): | 示例值:auto

  • version (string, 可选): | 示例值:2.5

返回响应

  • 200 成功

  • 422 参数错误

    • Content-Type:application/json

请求示例

响应示例

查看PDF解析任务(开源部署版)

请求信息

  • Method: GET

  • Endpoint: /302/v2/mineru/task

请求参数

Header 参数

  • Authorization (string, 必需): | 示例值:Bearer {{YOUR_API_KEY}}

Query 参数

  • task_id (string, 必需): 任务ID

返回响应

  • 200 成功

  • 422 参数错误

    • Content-Type:application/json

请求示例

响应示例

创建PDF解析任务(官方免费版)

请求信息

  • Method: POST

  • Endpoint: /mineru/api/v4/extract/task

请求参数

Header 参数

  • Authorization (string, 可选): | 示例值:Bearer {{YOUR_API_KEY}}

Body 参数

  • url (string, 必需): | 示例值:https://cdn-mineru.openxlab.org.cn/demo/example.pdf

  • is_ocr (boolean, 可选): 是否启动 ocr 功能,默认 false | 示例值:True

  • enable_formula (boolean, 可选): 是否开启公式识别,默认 true | 示例值:False

  • enable_table (boolean, 可选): 是否开启表格识别,默认 true

  • language (string, 可选): 指定文档语言,默认 ch,可以设置为auto,当为auto时模型会自动识别文档语言,其他可选值列表详见:https://paddlepaddle.github.io/PaddleOCR/latest/ppocr/blog/multi_languages.html#5

  • data_id (string, 可选): 解析对象对应的数据 ID。由大小写英文字母、数字、下划线(_)、短划线(-)、英文句号(.)组成,不超过 128 个字符,可以用于唯一标识您的业务数据。

  • callback (string, 可选): 解析结果回调通知您的 URL,支持使用 HTTP 和 HTTPS 协议的地址。该字段为空时,您必须定时轮询解析结果。callback 接口必须支持 POST 方法、UTF-8 编码、Content-Type:application/json 传输数据,以及参数 checksum 和 content。解析接口按照以下规则和格式设置 checksum 和 content,调用您的 callback 接口返回检测结果。 checksum:字符串格式,由用户 uid + seed + content 拼成字符串,通过 SHA256 算法生成。用户 UID,可在个人中心查询。为防篡改,您可以在获取到推送结果时,按上述算法生成字符串,与 checksum 做一次校验。 content:JSON 字符串格式,请自行解析反转成 JSON 对象。关于 content 结果的示例,请参见任务查询结果的返回示例,对应任务查询结果的 data 部分。 说明:您的服务端 callback 接口收到 Mineru 解析服务推送的结果后,如果返回的 HTTP 状态码为 200,则表示接收成功,其他的 HTTP 状态码均视为接收失败。接收失败时,mineru 将最多重复推送 5 次检测结果,直到接收成功。重复推送 5 次后仍未接收成功,则不再推送,建议您检查 callback 接口的状态。

  • seed (string, 可选): 随机字符串,该值用于回调通知请求中的签名。由英文字母、数字、下划线(_)组成,不超过 64 个字符,由您自定义。用于在接收到内容安全的回调通知时校验请求由 Mineru 解析服务发起。 说明:当使用 callback 时,该字段必须提供。

  • extra_formats (array, 可选): ["docx","html"]markdown、json为默认导出格式,无须设置,该参数仅支持docx、html、latex三种格式中的一个或多个

  • page_ranges (string, 可选): 指定页码范围,格式为逗号分隔的字符串。例如:"2,4-6":表示选取第2页、第4页至第6页(包含4和6,结果为 [2,4,5,6]);"2--2":表示从第2页一直选取到倒数第二页(其中"-2"表示倒数第二页)。

  • model_version (string, 必需): mineru模型版本,两个选项:v1、v2,默认v1。

返回响应

  • 200 成功

    • Content-Type:application/json

请求示例

响应示例

查看PDF解析任务(官方免费版)

请求信息

  • Method: GET

  • Endpoint: /mineru/api/v4/extract/task/{task_id}

请求参数

Header 参数

  • Authorization (string, 可选): | 示例值:Bearer {{YOUR_API_KEY}}

返回响应

  • 200 成功

    • Content-Type:application/json

请求示例

响应示例

最后更新于