为了创建一个正确可用的schema,我们提供了一个Web配置界面,您可以按以下步骤操作:
1

上传文件

使用Web界面上传文件,或点击示例文件,系统会自动开始解析文件内容,为抽取做准备
2

创建Schema

使用Web界面从0开始创建一个schema。
3

验证抽取效果

使用配置好的schema进行抽取,验证结果是否符合您的预期。
4

导出Schema

当schema调试好后,您可以导出为json文件,以便在api调用时使用。

创建Schema

您可以通过我们的Web配置界面来创建抽取schema。
  1. 登录并进入到TextIn xParse智能文档解析 工作台
  2. 上传一个文件,或打开一个已存在的文件;
  3. 切换到智能抽取tab,并切换到字段模式 Extract V3 Schema Empty Jp
  4. 抽取配置中,可以添加您想抽取的字段,如 ”商品名称“;
  5. 选择字段类型下拉框,可以设定您所期望返回的字段类型,详情请参考支持的字段类型
  6. 为字段增加一个字段描述(可选);
  7. 点击添加字段按钮,可以新加一个字段;
  8. 鼠标 hover 时字段左侧出现小图标,可以删除字段拖拽排序
  9. 重复以上步骤,直到添加完您想抽取的全部字段; Extract V3 Schema Edit Jp
  10. 点击右上角抽取按钮,配置面板会收起,并自动切换到抽取结果面板,您可以在结果面板查看所有的内容。

验证抽取效果

  1. 抽取完成后,会展示抽取结果面板,您可以点击字段抽取结果,会在左侧原文件区域找到对应的坐标边界(高亮显示); Extract V3 Schema Result Panel Jp
  2. 抽取结果默认显示预览面板,您也可以切换到JSON面板查看对应的结构化数据; Extract V3 Json Preview Jp
  3. 您可以展开下方抽取配置面板,进一步调整schema后再抽取,直到抽取结果符合预期。

导出Schema

  1. 抽取配置面板,点击导出配置,可将当前schema对应的JSON文件下载到本地;
  2. 在后续API调用时,通过该Schema,就能保证每次抽取的结果符合格式要求。
使用schema文件,可以参考以下代码示例:
import requests
import json
url = "https://api.textin.com/ai/service/v3/entity_extraction"
schema_file = '/Downloads/商铺小票.json'  #您所保存的实际schema文件路径
payload = {
    "file": {
        "file_url": "https://web-api.textin.com/open/image/download?filename=54efc36a05cf475aa6b39137b0717726"
    },
	"schema":json.loads(open(schema_file).read()),  #读入schema文件
    "parse_options":{
        "crop_dewarp":1,
        "get_image":"both"
    },
    "extract_options":{
        "generate_citations": True,
        "stamp": True
    }
}
headers = {
    "x-ti-app-id": "<app-id>",  #需替换为你的x-ti-app-id
    "x-ti-secret-code": "<secret-code>",  #需替换为你的x-ti-secret-code
    "Content-Type": "application/json"
}
response = requests.post(url, json=payload, headers=headers)
print(response.json())

常见抽取场景的配置方式

抽取单值

当待抽取的字段在文件中仅会有一个值时,推荐单值抽取,使用string, number, integer, enum类型。 Extract V3 Mono Key Jp

抽取多值

当待抽取的字段存在多个并列的值时,推荐多值抽取,使用array/stringarray/number等类型。 Extract V3 Multi Value Jp Extract V3 Multi Value Demo Jp

抽取表格

当待抽取的内容有多组重复属性的数据组成,一般在原文档中呈现为类表格形式时,推荐表格抽取,使用array/object加单值字段嵌套表示。 Extract V3 Schema Table Sample Jp 如果文件中存在多个表格,可以添加多个array/object类型的字段。 Extract V3 Schema Multi Table Jp

抽取嵌套对象

当待抽取的内容由多个相关联的属性字段组成,推荐使用嵌套对象抽取,使用object类型。 Extract V3 Object Jp