执行文档处理流水线,可以组合使用 parse、chunk、embed、extract 四种处理阶段。
流水线规则
流水线配置的 JSON 字符串,必须是 PipelineStage 数组。 注意:虽然这里是 string 类型(因为 form-data 限制),但内容必须是有效的 JSON 数组字符串。
Stages 说明:
Pipeline 接口使用 stages 数组来定义处理流程,每个 stage 包含:
type: 阶段类型,可选值:parse、chunk、embed、extractconfig: 该阶段的配置,具体字段取决于阶段类型使用示例
仅解析:
[{"type": "parse", "config": {"provider": "textin"}}]解析 + 分块:
[
{"type": "parse", "config": {"provider": "textin"}},
{"type": "chunk", "config": {"strategy": "basic", "max_characters": 1000}}
]解析 + 分块 + 向量化:
[
{"type": "parse", "config": {"provider": "textin"}},
{"type": "chunk", "config": {"strategy": "by_title", "max_characters": 500}},
{"type": "embed", "config": {"provider": "qwen", "model_name": "text-embedding-v4"}}
]解析 + 抽取:
[
{"type": "parse", "config": {"provider": "textin"}},
{"type": "extract", "config": {"schema": {...}, "generate_citations": false, "stamp": false}}
]各阶段配置详细说明:
type: "parse")Parse 参数中有必填项provider,表示文档解析服务的供应商,目前可选项如下:
更多解析参数与详情参考文档解析 - Parse。
type: "chunk")string/必填): 分块策略,默认值:basic
basic: 基础分块,按字符数分割by_title: 按标题分块,保持章节完整性by_page: 按页面分块,保持页面完整性int/可选): 将同一部分中的元素合并成一个数据块,直到该部分的总长度达到指定字符数。默认值:None。可用于将过短的小块合并成较长文本,提高语义连贯性。bool/可选): 如果为 true,用于构成数据块的原始元素会出现在该数据块的 .metadata.orig_elements 中。默认值:False。用于调试或需要保留原始元素追溯的场景。int/可选): 当文本长度达到指定字符数时,强制结束当前章节并开始新的章节(近似限制)。默认值:None。适用于需要控制章节最大长度的情况下。int/可选): 数据块中允许的最大字符数上限。默认值:None。用于硬性限制块大小,避免过大块带来的处理延迟或内存占用。int/可选): 将前一个文本分块末尾指定数量的字符,作为前缀应用到由过大元素分割而成的第二个及后续文本块。默认值:None。常用于确保分块之间的上下文连续性。bool/可选): 如果为 true,重叠也会应用到由完整元素组合而成的"普通"块。默认值:False。谨慎使用,可能在语义上引入噪声。更多分块参数与详情参考文本分块 - Chunk。
type: "embed")xparse-client当前支持的文本向量化模型如下:
qwen 供应商,即通义千问:
text-embedding-v3text-embedding-v4doubao 供应商,即火山引擎:
doubao-embedding-large-text-250515doubao-embedding-text-240715更多向量化参数与详情参考向量化 - Embed。
type: "extract")Extract 阶段用于从解析后的文档中提取结构化信息。
object/必填): JSON Schema定义,用于指定要抽取的字段结构。参考文档抽取 - Extract了解详细的schema定义方法。boolean/可选): 是否生成引用信息(坐标位置),默认值:false。当设置为 true 时,返回结果中会包含 citations 字段,包含每个抽取字段的坐标信息。boolean/可选): 是否调用印章识别,默认值:false。当设置为 true 时,返回结果中会包含 stamps 字段,包含文档中的印章信息。使用限制:
更多抽取参数与详情参考信息抽取 - Extract。
"[{\"type\":\"parse\",\"config\":{\"provider\":\"textin\"}}]"
处理结果
错误信息
"success"
处理后的元素列表。
注意:当使用 extract 节点时,此字段不会返回。
抽取结果(仅在执行 extract stage 后存在)