上传图片/pdf/word/html/excel/ppt/txt,进行版面检测,文字识别,表格识别,版面分析等操作,并生成markdown文档及结构化数据
当pdf为加密文档时,需要提供密码。 备注:对前端封装该接口时,需要自行对密码进行安全防护
当上传的是pdf时,表示从第几页开始解析,不传该参数时默认从首页开始
当上传的是pdf时,page_count 表示要进行转换的pdf页数,总页数不得超过1000页,默认为1000页
pdf文档的解析模式,默认为scan模式。图片不用设置,均默认按scan模式处理。
auto
, scan
pdf文档的坐标基准,默认144dpi,与parse_mode参数联动:
72
, 144
, 216
markdown中是否生成标题层级,默认为1,生成标题。
0
, 1
markdown里的表格格式,默认为html,按html语法输出表格
md
, html
, none
获取markdown里的图片,默认为none,不返回任何图像
none
, page
, objects
, both
指定引擎返回的图片对象输出类型,默认返回子图片url和页图片id
base64str
, default
markdown中非正文文本内容展示模式。默认为annotation。非正文内容包括页眉页脚,子图中的文本。
none
, annotation
, body
公式识别等级,默认为0,全识别。
0
, 1
, 2
是否进行段落合并和表格合并。默认为1,合并段落和表格。
0
, 1
利用大模型对文档中的子图进行分析。分析结果以markdown格式输出,并替换掉子图的文本识别内容。默认为0,不进行图像分析。
0
, 1
是否返回结果中的detail字段。默认为1,返回detail字段,保存markdown各类型元素的详细信息。
0
, 1
是否返回结果中的pages字段。默认为1,返回pages字段,保存每一页更加详细的解析结果。
0
, 1
是否返回全部文字识别结果(包含字符坐标信息),结果字段为raw_ocr。默认为0,不返回。与page_details参数联动,当page_details为0或false时不返回。
0
, 1
是否返回结果中的char_pos字段(保存每个字符的位置信息)和raw_ocr中的char_相关字段。默认为0,不返回。
0
, 1
是否返回结果中的catalog字段,保存目录相关信息。与apply_document_tree参数联动,当apply_document_tree为0时不返回。
0
, 1
是否返回excel的base64结果,结果字段为excel_base64,可以根据该字段进行后处理保存excel文件。默认为0,不返回。
0
, 1
是否进行切边矫正处理,默认为0,不进行切边矫正
0
, 1
是否进行去水印处理,默认为0,不去水印
0
, 1
是否开启图表识别,开启图表识别会将识别到的图表以表格形式输出。默认为0,不进行图表识别。
0
, 1
支持以下两种请求格式:
Content-Type: application/octet-stream
支持的文件格式:png, jpg, jpeg, pdf, bmp, tiff, webp, doc, docx, html, mhtml, xls, xlsx, csv, ppt, pptx, txt, ofd, rtf。
Content-Type: text/plain
请求体为文本,内容为在线文件的URL链接(支持http以及https协议)。
The body is of type file
.
解析结果
返回markdown及结构化数据