文档处理流水线
文档处理流水线
Pipeline
执行文档处理流水线,可以组合使用 parse、chunk、embed、extract 四种处理阶段。
流水线规则
- parse 节点是必需的,且必须是第一个节点
- chunk、embed 和 extract 节点是可选的
- 如果同时使用 chunk 和 embed,chunk 必须在 embed 之前
- extract 节点必须与 parse 组合使用,且必须在 parse 之后
- extract 节点不能与 chunk、embed 同时使用
- 每种类型的节点最多只能出现一次
- stages 数组长度必须在 1-3 之间(parse + extract 组合为 2 个 stage)
POST
文档处理流水线
授权
请求体
multipart/form-data
流水线配置的 JSON 字符串,必须是 PipelineStage 数组。 注意:虽然这里是 string 类型(因为 form-data 限制),但内容必须是有效的 JSON 数组字符串。
Stages 说明:
Pipeline 接口使用 stages 数组来定义处理流程,每个 stage 包含:
type: 阶段类型,可选值:parse、chunk、embed、extractconfig: 该阶段的配置,具体字段取决于阶段类型
使用示例
仅解析:
[{"type": "parse", "config": {"provider": "textin"}}]解析 + 分块:
[
{"type": "parse", "config": {"provider": "textin"}},
{"type": "chunk", "config": {"strategy": "basic", "max_characters": 1000}}
]解析 + 分块 + 向量化:
[
{"type": "parse", "config": {"provider": "textin"}},
{"type": "chunk", "config": {"strategy": "by_title", "max_characters": 500}},
{"type": "embed", "config": {"provider": "qwen", "model_name": "text-embedding-v4"}}
]解析 + 抽取:
[
{"type": "parse", "config": {"provider": "textin"}},
{"type": "extract", "config": {"schema": {...}, "generate_citations": false, "stamp": false}}
]各阶段配置详细说明:
- Parse Stage (
type: "parse")
Parse 参数中有必填项provider,表示文档解析服务的供应商,目前可选项如下:
- textin: 合合信息提供的文档解析服务,在速度、准确性上均为行业领先,适合大多数场景(推荐)
- textin-lite: 全文识别文档解析服务,适合纯文本、表格图片、电子档 pdf 等场景,速度更快,价格更低
- mineru: 基于开源的最新 MinerU vlm 解析引擎,在学术论文等场景表现优异
- paddle: 基于开源的最新 PaddleOCR-VL 解析引擎,在多语言和复杂文档场景(如PPT)表现优异
更多解析参数与详情参考文档解析 - Parse。
- Chunk Stage (
type: "chunk")
- strategy (
string/必填): 分块策略,默认值:basicbasic: 基础分块,按字符数分割by_title: 按标题分块,保持章节完整性by_page: 按页面分块,保持页面完整性
- combine_text_under_n_chars (
int/可选): 将同一部分中的元素合并成一个数据块,直到该部分的总长度达到指定字符数。默认值:None。可用于将过短的小块合并成较长文本,提高语义连贯性。 - include_orig_elements (
bool/可选): 如果为true,用于构成数据块的原始元素会出现在该数据块的.metadata.orig_elements中。默认值:False。用于调试或需要保留原始元素追溯的场景。 - new_after_n_chars (
int/可选): 当文本长度达到指定字符数时,强制结束当前章节并开始新的章节(近似限制)。默认值:None。适用于需要控制章节最大长度的情况下。 - max_characters (
int/可选): 数据块中允许的最大字符数上限。默认值:None。用于硬性限制块大小,避免过大块带来的处理延迟或内存占用。 - overlap (
int/可选): 将前一个文本分块末尾指定数量的字符,作为前缀应用到由过大元素分割而成的第二个及后续文本块。默认值:None。常用于确保分块之间的上下文连续性。 - overlap_all (
bool/可选): 如果为true,重叠也会应用到由完整元素组合而成的"普通"块。默认值:False。谨慎使用,可能在语义上引入噪声。
更多分块参数与详情参考文本分块 - Chunk。
- Embed Stage (
type: "embed")
xparse-client当前支持的文本向量化模型如下:
qwen供应商,即通义千问:text-embedding-v3text-embedding-v4
doubao供应商,即火山引擎:doubao-embedding-large-text-250515doubao-embedding-text-240715
更多向量化参数与详情参考向量化 - Embed。
- Extract Stage (
type: "extract")
Extract 阶段用于从解析后的文档中提取结构化信息。
- schema (
object/必填): JSON Schema定义,用于指定要抽取的字段结构。参考文档抽取 - Extract了解详细的schema定义方法。 - generate_citations (
boolean/可选): 是否生成引用信息(坐标位置),默认值:false。当设置为true时,返回结果中会包含citations字段,包含每个抽取字段的坐标信息。 - stamp (
boolean/可选): 是否调用印章识别,默认值:false。当设置为true时,返回结果中会包含stamps字段,包含文档中的印章信息。
使用限制:
- Extract 必须与 Parse 组合使用
- Extract 必须在 Parse 之后
- Extract 不能与 Chunk、Embed 同时使用
更多抽取参数与详情参考信息抽取 - Extract。
示例:
"[{\"type\":\"parse\",\"config\":{\"provider\":\"textin\"}}]"
响应
200 - application/json
处理结果
错误信息
示例:
"success"
请求唯一标识符
示例:
"req_1234567890abcdef"

