POST
/
ai
/
service
/
v2
/
entity_extraction
智能文档抽取
curl --request POST \
  --url https://api.textin.com/ai/service/v2/entity_extraction \
  --header 'Content-Type: application/json' \
  --header 'x-ti-app-id: <api-key>' \
  --header 'x-ti-secret-code: <api-key>' \
  --data '{
  "file": "/9j/4AAQSk...",
  "prompt": "请从提供的列表信息中提取姓名、年龄字段,以数组形式返回。\n",
  "fields": [
    {
      "name": "姓名",
      "description": "<string>"
    }
  ],
  "table_fields": [
    {
      "title": "学生成绩表",
      "description": "<string>",
      "fields": [
        {
          "name": "姓名",
          "description": "<string>"
        }
      ]
    }
  ]
}'
{
  "version": "v1.6.5",
  "code": 200,
  "message": "success",
  "duration": 2825,
  "result": {
    "llm_json": {
      "确认日期": "2024/4/3",
      "基金代码": "011892",
      "持仓金额": "74178.80"
    },
    "raw_json": {
      "value": "011892",
      "pages": [
        1
      ],
      "bounding_regions": [
        {
          "position": [
            201,
            199,
            308,
            199,
            308,
            230,
            201,
            230
          ],
          "char_pos": [
            [
              202,
              202,
              218,
              201,
              218,
              230,
              201,
              229
            ],
            [
              220,
              202,
              235,
              202,
              236,
              228,
              220,
              229
            ]
          ],
          "page_id": 1,
          "value": "011892"
        }
      ]
    },
    "pages": [
      {
        "status": "success",
        "page_id": 0,
        "durations": 612.5,
        "image_id": "90u12adcad08r2",
        "origin_image_id": "90u12adcad08r2",
        "width": 123,
        "height": 123,
        "angle": 123
      }
    ],
    "usage": {
      "prompt_tokens": 100,
      "completion_tokens": 100,
      "total_tokens": 200
    },
    "details": {
      "row": [
        {}
      ]
    },
    "category": {
      "row": "item_list"
    },
    "detail_structure": [
      {
        "doc_type": "doc",
        "page_range": [
          1,
          2
        ],
        "tables": [
          {
            "position": [
              343,
              56,
              459,
              56,
              459,
              90,
              343,
              90
            ],
            "page_number": 1,
            "text": "<table><tr><td>姓名</td><td>年龄</td></tr><tr><td>张三</td><td>18</td></tr></table>"
          }
        ],
        "tables_relationship": [
          {
            "row_count": 2,
            "column_count": 2,
            "cells": [
              {}
            ],
            "title": "row"
          }
        ],
        "category": [
          "标题",
          "性别"
        ],
        "fields": {},
        "stamps": [
          {
            "color": "红色",
            "position": [
              956,
              583,
              1362,
              590,
              1355,
              990,
              950,
              983
            ],
            "stamp_shape": "圆章",
            "type": "公章",
            "value": "电力公司专用章"
          }
        ]
      }
    ],
    "rotated_image_width": 1000,
    "rotated_image_height": 2000,
    "page_count": 10,
    "image_angle": 90,
    "finish_reason": "stop"
  }
}

Authorizations

x-ti-app-id
string
header
required

登录Textin后前往 "工作台-账号设置-开发者信息" 查看 x-ti-app-id

x-ti-secret-code
string
header
required

登录Textin后前往 "工作台-账号设置-开发者信息" 查看 x-ti-secret-code

Query Parameters

page_start
integer
default:0

当上传的是pdf时,page_start 表示从第几页开始抽取,不传该参数时默认从首页开始

page_count
integer

当上传的是pdf时,page_count 表示要进行抽取的pdf页数。

  • Prompt模式总页数不得超过20页,默认为20页;
  • 字段(自定义key)模式总页数不得超过100页,默认为100页。
parse_mode
enum<string>
default:scan

pdf文档的解析模式,默认为scan模式。图片不用设置,均默认按scan模式处理。

  • auto 综合文字识别和解析模式:对pdf电子档解析,会直接提取pdf中的文字
  • scan 仅按文字识别模式:将pdf当成图片处理
Available options:
auto,
scan
get_image
enum<string>
default:objects

仅Prompt模式生效,获取图片,默认为objects,返回整页图像和图像对象。

  • none 不返回任何图像
  • page 返回每一页的整页图像:即pdf页的完整页图片
  • objects 返回页面内的子图像:即pdf页内的各个子图片
  • both 返回整页图像和图像对象
Available options:
none,
page,
objects,
both
crop_dewarp
enum<integer>
default:0

是否进行切边矫正处理,默认为0,不进行切边矫正

  • 0 不进行切边矫正
  • 1 进行切边矫正
Available options:
0,
1
remove_watermark
enum<integer>
default:0

是否进行去水印处理,默认为0,不去水印

  • 0 不去水印
  • 1 去水印
Available options:
0,
1
formula_level
enum<integer>
default:0

公式识别等级,默认为0,全识别。

  • 0 全识别
  • 1 仅识别行间公式,行内公式不识别
  • 2 不识别
Available options:
0,
1,
2
file_name
string

待抽取样本的文件名(含后缀名)

Example:

"temp_file.jpg"

Body

application/json

支持的文件格式:png, jpg, jpeg, pdf, bmp, tiff, webp, doc, docx, html, mhtml, xls, xlsx, csv, ppt, pptx, txt, ofd;

  • API支持的最大文档处理页数为100页,超出部分的文档信息将被忽略。

  • 支持两种模式:

    • prompt模式:
      • 提供一个prompt,系统将根据该prompt进行抽取;
      • 同时有prompt输入和key输入时,按prompt模式调用。
    • 自定义key模式:
      • 提供一个fields与table_fields列表,系统将根据该列表进行抽取。
  • API支持的最大抽取字段数量为fields数组中的元素数量与table_fields数组中每个对象的fields子数组的元素数量之和,总计不得超过100个字段。

  • 如果提供的字段总数超出限制,系统将优先抽取fields数组中的字段元素,超出部分的字段将被忽略。

The body is of type object.

Response

200 - application/json

抽取结果

The response is of type object.