智能文档抽取-API
当上传的是pdf时,page_start 表示从第几页开始抽取,不传该参数时默认从首页开始
当上传的是pdf时,page_count 表示要进行抽取的pdf页数。
pdf文档的解析模式,默认为scan模式。图片不用设置,均默认按scan模式处理。
auto, scan 仅Prompt模式生效,获取图片,默认为objects,返回整页图像和图像对象。
none, page, objects, both 是否进行切边矫正处理,默认为0,不进行切边矫正
0, 1 是否进行去水印处理,默认为0,不去水印
0, 1 公式识别等级,默认为0,全识别。
0, 1, 2 待抽取样本的文件名(含后缀名)
"temp_file.jpg"
支持的文件格式:png, jpg, jpeg, pdf, bmp, tiff, webp, doc, docx, html, mhtml, xls, xlsx, csv, ppt, pptx, txt, ofd;
API支持的最大文档处理页数为100页,超出部分的文档信息将被忽略。
支持两种模式:
API支持的最大抽取字段数量为fields数组中的元素数量与table_fields数组中每个对象的fields子数组的元素数量之和,总计不得超过100个字段。
如果提供的字段总数超出限制,系统将优先抽取fields数组中的字段元素,超出部分的字段将被忽略。
抽取结果
版本号
"v1.6.5"
状态码
200, 40101, 40102, 40103, 40003, 40004, 40007, 40008, 40301, 40302, 40303, 40304, 40305, 40306, 40400, 30203, 500 200
错误信息
"success"
推理时间(ms)
2825