产品简介 - Textin 智能文档解析

xParse 是一个端到端文档处理 AI 基础设施，致力于将非结构化文档高效转化为可查询、可分析的向量数据资产。通过统一的 Pipeline API，一次性完成文档解析（Parse）、智能分块（Chunk）、向量化（Embed）和信息抽取（Extract）全流程，让文档数据无缝流入向量数据库，为 RAG、Agentic Workflow 等 AI 应用提供强大的数据底座。 xParse 持续与业界丰富的连接器生态集成。支持从 S3/MinIO、FTP、SMB、本地文件系统等多种数据源读取文档，经过智能处理后，将向量数据存储到 Milvus/Zilliz 等向量数据库本地文件系统，实现从文档到向量数据库的完整自动化链路。

xParse - 让文档处理像流水线一样简单

提供端到端的文档处理 AI 基础设施，从非结构化文档到向量数据库，一键完成全流程处理，您只需关心业务，剩下的交给 xParse。 Pipeline 架构图

立即开始

快速启动

5 分钟快速上手，从安装到运行第一个 Pipeline

Agent/RAG 实战教程

完整 RAG 与 LangChain Agent 构建指南，覆盖企业知识库、客服 Copilot 等场景

API 参考

查看完整的 Pipeline API 接口文档

在线体验

免费试用文档解析能力，体验解析效果

核心优势

统一 Pipeline API，一键完成全流程：通过 /api/xparse/pipeline 接口，一次性完成文档解析、智能分块、向量化和信息抽取，无需多次调用，大幅简化开发流程，提升处理效率。
多种解析引擎支持：支持 Textin 自研高性能解析引擎（推荐）、MinerU、PaddleOCR 等多种行业内先进的解析引擎，可根据文档类型和解析需求灵活选择最适合的解析方案。
灵活的数据源支持：支持兼容 S3 协议的对象存储（如 MinIO）、SMB 网络共享、FTP 协议文件系统和本地文件系统，轻松对接各种数据存储场景，满足企业级部署需求。
灵活的向量存储方案：支持 Milvus/Zilliz 向量数据库和本地文件系统输出，可根据业务需求选择云端或本地部署，灵活适配不同规模的应用场景。
智能分块策略：提供 basic、by_title、by_page 三种分块策略，支持自定义字符数、重叠等参数，确保分块结果既保持语义完整性，又适合向量检索。
多模型向量化支持：支持通义千问（Qwen）和火山引擎（Doubao）的多种向量模型，包括 text-embedding-v3、text-embedding-v4 等，可根据精度和性能需求灵活选择。
结构化信息抽取：支持基于 JSON Schema 的结构化信息抽取，可以从文档中提取指定字段的结构化数据，支持坐标定位和印章识别。
配置化处理，易于扩展：基于抽象类设计，支持灵活配置 parse、chunk、embed、extract 参数，同时易于扩展新的 Source 和 Destination，满足定制化需求。
详细统计信息：返回每个阶段的处理统计数据，包括原始元素数、分块后元素数、向量化元素数等，便于监控和优化处理流程。
完整日志和错误追踪：提供详细的处理日志和错误追踪，帮助快速定位问题，保障生产环境稳定运行。

适用场景

Agent 应用数据准备

为 AI Agent 应用准备结构化数据，将文档内容转化为向量表示，支持 Agent 进行知识检索和推理。

RAG（检索增强生成）应用

将企业文档、技术资料、法律文件等非结构化文档处理成向量数据，构建智能问答系统，让大模型能够基于企业知识库进行准确回答。

企业知识库构建

批量处理企业内部文档（如产品手册、技术文档、培训材料等），构建统一的知识库，支持语义检索和智能问答。

文档智能检索系统

构建基于语义相似度的文档检索系统，支持从海量文档中快速找到相关内容，提升信息检索效率。

信息提取和数据录入

从发票、合同、订单等表单文档中提取结构化信息，自动完成数据录入和验证，提升业务处理效率。

技术架构

xParse 采用模块化设计，核心组件包括：

Source（数据源）：抽象数据源接口，支持 S3Source、FtpSource、SMBSource、LocalSource 等实现
Pipeline（处理管线）：核心处理逻辑，调用统一 Pipeline API 完成文档处理
Destination（目标存储）：抽象目标存储接口，支持 MilvusDestination、S3Destination、LocalDestination 等实现
Config（配置类）：ParseConfig、ChunkConfig、EmbedConfig、ExtractConfig 等配置数据类，支持灵活的参数配置

快速体验

想要快速体验 xParse 的能力？可以：

查看快速启动指南：5 分钟完成安装和第一个 Pipeline 运行
了解文档元素和元数据：了解 Pipeline 处理后的数据结构
配置数据源连接器：了解如何从 S3、本地文件夹或 FTP 读取文档
配置目的地连接器：了解如何将结果存储到 Milvus/Zilliz、S3 或本地文件系统
阅读Agent/RAG 实战教程：了解如何使用 xParse 构建完整的 Agent 与 RAG 应用
参考API 文档：查看详细的接口说明和参数配置

Pipeline API说明

Pipeline API是xParse的核心接口，支持组合多个处理阶段：

Parse：文档解析，必需的第一个阶段
Chunk：文本分块，可选
Embed：向量化，可选
Extract：信息抽取，可选，必须与Parse组合

API文档：Pipeline API

Legacy xParse

文档解析
文档抽取

更多详情见：TextIn xParse 产品介绍

​xParse - 让文档处理像流水线一样简单

​立即开始

快速启动

Agent/RAG 实战教程

API 参考

在线体验

​核心优势

​适用场景

​Agent 应用数据准备

​RAG（检索增强生成）应用

​企业知识库构建

​文档智能检索系统

​信息提取和数据录入

​技术架构

​快速体验

​Pipeline API说明

​相关API文档

​Legacy xParse