文档解析 API 支持通过Documentation Index
Fetch the complete documentation index at: https://docs.textin.com/llms.txt
Use this file to discover all available pages before exploring further.
config 参数自定义解析行为。本文档详细说明所有可用的配置项。
配置结构总览
document(文档相关配置)
配置文档本身的处理参数。| 字段 | 类型 | 必填 | 说明 |
|---|---|---|---|
password | string | 否 | 加密文档的密码(如加密的 PDF 文件) |
- 处理受密码保护的 PDF 文档
- 确保加密文档能够正常解析
capabilities(解析策略与格式配置)
控制返回数据的详细程度和格式。开启更多能力会增加解析耗时和返回数据量。include_hierarchy
是否返回元素间的层级与关联字段。| 字段 | 类型 | 默认值 | 说明 |
|---|---|---|---|
include_hierarchy | boolean | true | 开启后,返回元素间的父子关系、引用关系等信息 |
parent_id:父元素 IDchildren_ids:子元素 ID 列表ref_element_id:关联元素 ID(如图片/表格与其标题的关联)
- 需要构建文档的结构化关系图谱
- 需要理解元素之间的从属关系
- 需要追踪标题与内容的层级关系
include_inline_objects
是否返回细粒度的行内对象。| 字段 | 类型 | 默认值 | 说明 |
|---|---|---|---|
include_inline_objects | boolean | false | 开启后,文本类元素会返回其中包含的细粒度对象 |
formula:数学公式(LaTeX 格式)handwriting:手写内容checkbox:复选框image:内嵌图片
- 需要精确定位和提取公式
- 需要识别手写签名或批注
- 需要处理表单中的复选框
- 需要提取文本段落中的内嵌图片
include_char_details
是否返回字符级详细信息。| 字段 | 类型 | 默认值 | 说明 |
|---|---|---|---|
include_char_details | boolean | false | 开启后,返回文本中每个字符的详细信息 |
- 字符坐标
- 识别置信度
- 候选字符列表
- 需要字符级别的精确定位
- 需要评估识别质量
- 需要处理低置信度字符
- 需要实现字符级别的纠错
include_image_data
是否返回图片数据。| 字段 | 类型 | 默认值 | 说明 |
|---|---|---|---|
include_image_data | boolean | false | 开启后,图片元素将返回完整的图片数据 |
- 图片 URL
- MIME 类型
- Base64 编码(可选)
- 需要下载或显示文档中的图片
- 需要对图片进行二次处理
- 需要获取图片的 Base64 编码用于嵌入
include_table_structure
是否返回表格的详细结构化信息。| 字段 | 类型 | 默认值 | 说明 |
|---|---|---|---|
include_table_structure | boolean | false | 开启后,以 JSON 格式返回表格的行、列以及每个单元格的详细信息 |
- 行数和列数
- 每个单元格的位置(行、列)
- 单元格的跨行跨列信息
- 单元格内容类型(文本、公式、图片、混合)
- 单元格坐标
- 需要程序化处理表格数据
- 需要提取表格单元格的精确位置
- 需要处理复杂表格(合并单元格)
- 需要识别表格单元格中的公式或图片
pages
是否返回页面元信息列表。| 字段 | 类型 | 默认值 | 说明 |
|---|---|---|---|
pages | boolean | false | 开启后,返回每一页的详细信息 |
- 页码
- 页面宽高
- 旋转角度
- 渲染图片地址(
page_image_url) - 包含的元素列表(
element_ids) - DPI
- 处理状态
- 需要按页面组织文档内容
- 需要获取页面的预览图
- 需要了解页面的物理属性(宽高、DPI)
- 需要定位某个元素所在的页面
title_tree
是否返回标题树(目录)。| 字段 | 类型 | 默认值 | 说明 |
|---|---|---|---|
title_tree | boolean | false | 开启后,返回文档的层级目录结构 |
- 标题文本
- 标题层级(1 为最高级)
- 所在页码
- 嵌套的子标题
- 需要生成文档目录导航
- 需要按章节组织内容
- 需要理解文档的大纲结构
table_view
表格在 Markdown 中的表达格式。| 字段 | 类型 | 默认值 | 可选值 | 说明 |
|---|---|---|---|---|
table_view | string | "html" | markdown, html | 控制 Markdown 字段中表格的渲染格式 |
table_view: "markdown"):
table_view: "html"):
- 需要简洁的 Markdown 表格格式
- 需要支持复杂表格结构(合并单元格)时使用 HTML
remove_watermark(去水印)
是否对文档进行去水印预处理。| 字段 | 类型 | 默认值 | 说明 |
|---|---|---|---|
remove_watermark | boolean | false | 开启后,自动检测并去除文档中的水印 |
- 去除文档中的水印干扰,提升识别准确率
- 获取无水印的干净解析结果
crop_dewarp(切边矫正)
是否对文档进行切边矫正预处理。| 字段 | 类型 | 默认值 | 说明 |
|---|---|---|---|
crop_dewarp | boolean | false | 开启后,自动检测并对文档进行切边矫正预处理 |
- 扫描文档存在多余边框或页面倾斜
- 拍照文档存在透视畸变(如书页弯曲)
- 需要获得正向、紧凑的页面图像,提升版面分析质量
scope(处理范围控制)
控制解析的页面范围,减少不必要的处理。| 字段 | 类型 | 必填 | 说明 |
|---|---|---|---|
page_range | string | 否 | 页码范围,从 1 开始,支持多个闭区间 |
- 单页:
"1" - 连续页:
"1-5" - 多个区间:
"1-2,3-4,5-10"
- 仅处理文档的特定页面
- 减少处理时间和成本
- 分批处理大型文档
config(高级配置)
专家模式配置,用于强制指定解析引擎和引擎参数。force_engine
强制指定内部解析引擎。| 字段 | 类型 | 可选值 | 说明 |
|---|---|---|---|
force_engine | string | textin, mineru, paddle_ocr, textin_gui | 强制使用特定的解析引擎 |
textin:TextIn 自研引擎,默认选项,综合性能最佳mineru:开源 MinerU 引擎,适用于学术文档paddle_ocr:百度 PaddleOCR 引擎,适用于多语种场景textin_gui:GUI 识别引擎,用于桌面/移动/网页应用界面截图识别
textin_gui 仅支持图片格式(JPEG、PNG、GIF、WebP),文件大小不超过 10MB,且返回结构有差异。详见 GUI 识别引擎特别说明- 对比不同引擎的效果
- 特定场景下需要使用特定引擎
- 调试和测试
engine_params
引擎级自定义参数,不同引擎支持的参数不同。| 字段 | 类型 | 说明 |
|---|---|---|
engine_params | object | 传递给解析引擎的自定义参数 |
| 参数 | 类型 | 可选值 | 说明 |
|---|---|---|---|
parse_mode | string | auto, scan, parse, lite, vlm | PDF 解析模式。 • auto:由引擎自动选择,适用范围最广• scan:全当图片解析• parse:仅电子档文字解析,速度最快• lite:轻量版,只输出表格和文字结果• vlm:视觉语言模型解析模式 |
formula_level | int | 0, 1 | 公式识别级别,0 为标准,1 为增强 |
image_output_type | string | url, base64 | 图片输出类型,url 或 base64 |
不同引擎支持的参数可能不同,具体参数请联系技术支持获取。
完整配置示例
基础配置(推荐)
适用于大多数场景的默认配置:最大化详细信息
返回所有可用的详细信息(会增加处理时间和数据量):最小化配置
仅返回基本的元素和 Markdown:处理加密 PDF
仅处理前 10 页
性能优化建议
按需开启能力
按需开启能力
只开启必需的能力开关,避免返回不必要的数据。例如,如果不需要字符级详情,就不要开启
include_char_details。合理使用 page_range
合理使用 page_range
对于大文档,可以先处理部分页面进行测试,确认效果后再处理全部页面。
异步处理大文件
异步处理大文件
对于超过 50 页的文档,建议使用异步 API,避免 HTTP 超时。
缓存处理结果
缓存处理结果
相同文档的重复处理会产生相同的
file_id,可以通过 file_id 实现结果缓存。相关链接
快速入门
5 分钟完成第一次文档解析
返回结构详解
了解完整的返回数据结构
API 参考
完整的 API 参数与响应 Schema
异步解析
使用异步 API 处理大文件

