1
上传文件
使用Web界面上传文件,或点击示例文件,系统会自动开始解析文件内容,为抽取做准备
2
创建Schema
使用Web界面从0开始创建一个schema。
3
验证抽取效果
使用配置好的schema进行抽取,验证结果是否符合您的预期。
4
导出Schema
当schema调试好后,您可以导出为json文件,以便在api调用时使用。
创建Schema
您可以通过我们的Web配置界面来创建抽取schema。- 登录并进入到TextIn xParse智能文档解析 工作台;
- 上传一个文件,或打开一个已存在的文件;
-
切换到智能抽取tab,并切换到字段模式;
- 在抽取配置中,可以添加您想抽取的字段,如 ”商品名称“;
- 选择字段类型下拉框,可以设定您所期望返回的字段类型,详情请参考支持的字段类型;
- 为字段增加一个字段描述(可选);
- 点击添加字段按钮,可以新加一个字段;
- 鼠标 hover 时字段左侧出现小图标,可以删除字段和拖拽排序;
-
重复以上步骤,直到添加完您想抽取的全部字段;
- 点击右上角抽取按钮,配置面板会收起,并自动切换到抽取结果面板,您可以在结果面板查看所有的内容。
验证抽取效果
-
抽取完成后,会展示抽取结果面板,您可以点击字段抽取结果,会在左侧原文件区域找到对应的坐标边界(高亮显示);
-
抽取结果默认显示预览面板,您也可以切换到JSON面板查看对应的结构化数据;
- 您可以展开下方抽取配置面板,进一步调整schema后再抽取,直到抽取结果符合预期。
导出Schema
- 在抽取配置面板,点击导出配置,可将当前schema对应的JSON文件下载到本地;
- 在后续API调用时,通过该Schema,就能保证每次抽取的结果符合格式要求。
常见抽取场景的配置方式
抽取单值
当待抽取的字段在文件中仅会有一个值时,推荐单值抽取,使用string
, number
, integer
, enum
类型。

抽取多值
当待抽取的字段存在多个并列的值时,推荐多值抽取,使用array/string
,array/number
等类型。


抽取表格
当待抽取的内容有多组重复属性的数据组成,一般在原文档中呈现为类表格形式时,推荐表格抽取,使用array/object
加单值字段嵌套表示。

array/object
类型的字段。

抽取嵌套对象
当待抽取的内容由多个相关联的属性字段组成,推荐使用嵌套对象抽取,使用object
类型。
