MinerU
302部署的开源V2/V2.5版本,创建PDF解析任务
MCP 工具
创建PDF解析任务(开源部署版)
302部署的开源V2/V2.5版本,创建PDF解析任务 开源链接:
参数
Header 参数
Authorization(string, 必需): | 示例值:Bearer {{YOUR_API_KEY}}
Body 参数
pdf_url(string, 可选): | 示例值:https://file.302ai.cn/gpt/imgs/20250805/1364b7e10a0e43e2aa2653a4de40e1dc.pdfparse_method(string, 可选): | 示例值:autoversion(string, 可选): | 示例值:2.5
查看PDF解析任务(开源部署版)
查看PDF解析任务
参数
Header 参数
Authorization(string, 必需): | 示例值:Bearer {{YOUR_API_KEY}}
Query 参数
task_id(string, 必需): 任务ID
创建PDF解析任务(官方免费版)
参考: 单个文件大小不能超过 200MB,文件页数不超出 600 页 因网络限制,github、aws 等国外 URL 会请求超时
参数
Header 参数
Authorization(string, 可选): | 示例值:Bearer {{YOUR_API_KEY}}
Body 参数
url(string, 必需): | 示例值:https://cdn-mineru.openxlab.org.cn/demo/example.pdfis_ocr(boolean, 可选): 是否启动 ocr 功能,默认 false | 示例值:Trueenable_formula(boolean, 可选): 是否开启公式识别,默认 true | 示例值:Falseenable_table(boolean, 可选): 是否开启表格识别,默认 truelanguage(string, 可选): 指定文档语言,默认 ch,可以设置为auto,当为auto时模型会自动识别文档语言,其他可选值列表详见:https://paddlepaddle.github.io/PaddleOCR/latest/ppocr/blog/multi_languages.html#5data_id(string, 可选): 解析对象对应的数据 ID。由大小写英文字母、数字、下划线(_)、短划线(-)、英文句号(.)组成,不超过 128 个字符,可以用于唯一标识您的业务数据。callback(string, 可选): 解析结果回调通知您的 URL,支持使用 HTTP 和 HTTPS 协议的地址。该字段为空时,您必须定时轮询解析结果。callback 接口必须支持 POST 方法、UTF-8 编码、Content-Type:application/json 传输数据,以及参数 checksum 和 content。解析接口按照以下规则和格式设置 checksum 和 content,调用您的 callback 接口返回检测结果。 checksum:字符串格式,由用户 uid + seed + content 拼成字符串,通过 SHA256 算法生成。用户 UID,可在个人中心查询。为防篡改,您可以在获取到推送结果时,按上述算法生成字符串,与 checksum 做一次校验。 content:JSON 字符串格式,请自行解析反转成 JSON 对象。关于 content 结果的示例,请参见任务查询结果的返回示例,对应任务查询结果的 data 部分。 说明:您的服务端 callback 接口收到 Mineru 解析服务推送的结果后,如果返回的 HTTP 状态码为 200,则表示接收成功,其他的 HTTP 状态码均视为接收失败。接收失败时,mineru 将最多重复推送 5 次检测结果,直到接收成功。重复推送 5 次后仍未接收成功,则不再推送,建议您检查 callback 接口的状态。seed(string, 可选): 随机字符串,该值用于回调通知请求中的签名。由英文字母、数字、下划线(_)组成,不超过 64 个字符,由您自定义。用于在接收到内容安全的回调通知时校验请求由 Mineru 解析服务发起。 说明:当使用 callback 时,该字段必须提供。extra_formats(array, 可选): ["docx","html"]markdown、json为默认导出格式,无须设置,该参数仅支持docx、html、latex三种格式中的一个或多个page_ranges(string, 可选): 指定页码范围,格式为逗号分隔的字符串。例如:"2,4-6":表示选取第2页、第4页至第6页(包含4和6,结果为 [2,4,5,6]);"2--2":表示从第2页一直选取到倒数第二页(其中"-2"表示倒数第二页)。model_version(string, 必需): mineru模型版本,两个选项:v1、v2,默认v1。
查看PDF解析任务(官方免费版)
参考:
参数
Header 参数
Authorization(string, 可选): | 示例值:Bearer {{YOUR_API_KEY}}
MCP Cline 配置
此服务器需要通过您的 MCP 客户端进行配置。以下是不同环境下的示例:
需要替换你的租户ID和API Key(必需)
API 接口
创建PDF解析任务(开源部署版)
请求信息
Method: POST
Endpoint:
/302/v2/mineru/task
请求参数
Header 参数
Authorization(string, 必需): | 示例值:Bearer {{YOUR_API_KEY}}
Body 参数
pdf_url(string, 可选): | 示例值:https://file.302ai.cn/gpt/imgs/20250805/1364b7e10a0e43e2aa2653a4de40e1dc.pdfparse_method(string, 可选): | 示例值:autoversion(string, 可选): | 示例值:2.5
返回响应
200 成功
422 参数错误
Content-Type:
application/json
请求示例
响应示例
查看PDF解析任务(开源部署版)
请求信息
Method: GET
Endpoint:
/302/v2/mineru/task
请求参数
Header 参数
Authorization(string, 必需): | 示例值:Bearer {{YOUR_API_KEY}}
Query 参数
task_id(string, 必需): 任务ID
返回响应
200 成功
422 参数错误
Content-Type:
application/json
请求示例
响应示例
创建PDF解析任务(官方免费版)
请求信息
Method: POST
Endpoint:
/mineru/api/v4/extract/task
请求参数
Header 参数
Authorization(string, 可选): | 示例值:Bearer {{YOUR_API_KEY}}
Body 参数
url(string, 必需): | 示例值:https://cdn-mineru.openxlab.org.cn/demo/example.pdfis_ocr(boolean, 可选): 是否启动 ocr 功能,默认 false | 示例值:Trueenable_formula(boolean, 可选): 是否开启公式识别,默认 true | 示例值:Falseenable_table(boolean, 可选): 是否开启表格识别,默认 truelanguage(string, 可选): 指定文档语言,默认 ch,可以设置为auto,当为auto时模型会自动识别文档语言,其他可选值列表详见:https://paddlepaddle.github.io/PaddleOCR/latest/ppocr/blog/multi_languages.html#5data_id(string, 可选): 解析对象对应的数据 ID。由大小写英文字母、数字、下划线(_)、短划线(-)、英文句号(.)组成,不超过 128 个字符,可以用于唯一标识您的业务数据。callback(string, 可选): 解析结果回调通知您的 URL,支持使用 HTTP 和 HTTPS 协议的地址。该字段为空时,您必须定时轮询解析结果。callback 接口必须支持 POST 方法、UTF-8 编码、Content-Type:application/json 传输数据,以及参数 checksum 和 content。解析接口按照以下规则和格式设置 checksum 和 content,调用您的 callback 接口返回检测结果。 checksum:字符串格式,由用户 uid + seed + content 拼成字符串,通过 SHA256 算法生成。用户 UID,可在个人中心查询。为防篡改,您可以在获取到推送结果时,按上述算法生成字符串,与 checksum 做一次校验。 content:JSON 字符串格式,请自行解析反转成 JSON 对象。关于 content 结果的示例,请参见任务查询结果的返回示例,对应任务查询结果的 data 部分。 说明:您的服务端 callback 接口收到 Mineru 解析服务推送的结果后,如果返回的 HTTP 状态码为 200,则表示接收成功,其他的 HTTP 状态码均视为接收失败。接收失败时,mineru 将最多重复推送 5 次检测结果,直到接收成功。重复推送 5 次后仍未接收成功,则不再推送,建议您检查 callback 接口的状态。seed(string, 可选): 随机字符串,该值用于回调通知请求中的签名。由英文字母、数字、下划线(_)组成,不超过 64 个字符,由您自定义。用于在接收到内容安全的回调通知时校验请求由 Mineru 解析服务发起。 说明:当使用 callback 时,该字段必须提供。extra_formats(array, 可选): ["docx","html"]markdown、json为默认导出格式,无须设置,该参数仅支持docx、html、latex三种格式中的一个或多个page_ranges(string, 可选): 指定页码范围,格式为逗号分隔的字符串。例如:"2,4-6":表示选取第2页、第4页至第6页(包含4和6,结果为 [2,4,5,6]);"2--2":表示从第2页一直选取到倒数第二页(其中"-2"表示倒数第二页)。model_version(string, 必需): mineru模型版本,两个选项:v1、v2,默认v1。
返回响应
200 成功
Content-Type:
application/json
请求示例
响应示例
查看PDF解析任务(官方免费版)
请求信息
Method: GET
Endpoint:
/mineru/api/v4/extract/task/{task_id}
请求参数
Header 参数
Authorization(string, 可选): | 示例值:Bearer {{YOUR_API_KEY}}
返回响应
200 成功
Content-Type:
application/json
请求示例
响应示例
最后更新于