xParse - 让文档处理像流水线一样简单
提供端到端的文档处理 AI 基础设施,从非结构化文档到向量数据库,一键完成全流程处理,您只需关心业务,剩下的交给 xParse。立即开始
快速启动
5 分钟快速上手,从安装到运行第一个 Pipeline
Agent/RAG 实战教程
完整 RAG 与 LangChain Agent 构建指南,覆盖企业知识库、客服 Copilot 等场景
API 参考
查看完整的 Pipeline API 接口文档
在线体验
免费试用文档解析能力,体验解析效果
核心优势
-
统一 Pipeline API,一键完成全流程:通过
/api/xparse/pipeline接口,一次性完成文档解析、智能分块、向量化和信息抽取,无需多次调用,大幅简化开发流程,提升处理效率。 - 多种解析引擎支持:支持 Textin 自研高性能解析引擎(推荐)、MinerU、PaddleOCR 等多种行业内先进的解析引擎,可根据文档类型和解析需求灵活选择最适合的解析方案。
- 灵活的数据源支持:支持兼容 S3 协议的对象存储(如 MinIO)、SMB 网络共享、FTP 协议文件系统和本地文件系统,轻松对接各种数据存储场景,满足企业级部署需求。
- 灵活的向量存储方案:支持 Milvus/Zilliz 向量数据库和本地文件系统输出,可根据业务需求选择云端或本地部署,灵活适配不同规模的应用场景。
-
智能分块策略:提供
basic、by_title、by_page三种分块策略,支持自定义字符数、重叠等参数,确保分块结果既保持语义完整性,又适合向量检索。 -
多模型向量化支持:支持通义千问(Qwen)和火山引擎(Doubao)的多种向量模型,包括
text-embedding-v3、text-embedding-v4等,可根据精度和性能需求灵活选择。 - 结构化信息抽取:支持基于 JSON Schema 的结构化信息抽取,可以从文档中提取指定字段的结构化数据,支持坐标定位和印章识别。
- 配置化处理,易于扩展:基于抽象类设计,支持灵活配置 parse、chunk、embed、extract 参数,同时易于扩展新的 Source 和 Destination,满足定制化需求。
- 详细统计信息:返回每个阶段的处理统计数据,包括原始元素数、分块后元素数、向量化元素数等,便于监控和优化处理流程。
- 完整日志和错误追踪:提供详细的处理日志和错误追踪,帮助快速定位问题,保障生产环境稳定运行。
适用场景
Agent 应用数据准备
为 AI Agent 应用准备结构化数据,将文档内容转化为向量表示,支持 Agent 进行知识检索和推理。RAG(检索增强生成)应用
将企业文档、技术资料、法律文件等非结构化文档处理成向量数据,构建智能问答系统,让大模型能够基于企业知识库进行准确回答。企业知识库构建
批量处理企业内部文档(如产品手册、技术文档、培训材料等),构建统一的知识库,支持语义检索和智能问答。文档智能检索系统
构建基于语义相似度的文档检索系统,支持从海量文档中快速找到相关内容,提升信息检索效率。信息提取和数据录入
从发票、合同、订单等表单文档中提取结构化信息,自动完成数据录入和验证,提升业务处理效率。技术架构
xParse 采用模块化设计,核心组件包括:- Source(数据源):抽象数据源接口,支持 S3Source、FtpSource、SMBSource、LocalSource 等实现
- Pipeline(处理管线):核心处理逻辑,调用统一 Pipeline API 完成文档处理
- Destination(目标存储):抽象目标存储接口,支持 MilvusDestination、S3Destination、LocalDestination 等实现
- Config(配置类):ParseConfig、ChunkConfig、EmbedConfig、ExtractConfig 等配置数据类,支持灵活的参数配置
快速体验
想要快速体验 xParse 的能力?可以:- 查看快速启动指南:5 分钟完成安装和第一个 Pipeline 运行
- 了解文档元素和元数据:了解 Pipeline 处理后的数据结构
- 配置数据源连接器:了解如何从 S3、本地文件夹或 FTP 读取文档
- 配置目的地连接器:了解如何将结果存储到 Milvus/Zilliz、S3 或本地文件系统
- 阅读Agent/RAG 实战教程:了解如何使用 xParse 构建完整的 Agent 与 RAG 应用
- 参考API 文档:查看详细的接口说明和参数配置
Pipeline API说明
Pipeline API是xParse的核心接口,支持组合多个处理阶段:- Parse:文档解析,必需的第一个阶段
- Chunk:文本分块,可选
- Embed:向量化,可选
- Extract:信息抽取,可选,必须与Parse组合
相关API文档
xParse还提供了其他API接口,适用于不同的使用场景:- Pipeline API:组合多个处理阶段
- Parse同步API:仅文档解析,同步返回
- Parse异步API:仅文档解析,异步处理
- Extract同步API:文档抽取,同步返回

