跳转到主要内容
基于 TextIn xParse API 的命令行工具,支持 PDF、图片、Office 文档等 20+ 种格式转换为 Markdown 及结构化数据。

一键安装

Linux / macOS
source <(curl -fsSL https://dllf.intsig.net/download/2026/Solution/xparse-cli/install.sh)
Windows (PowerShell)
irm https://dllf.intsig.net/download/2026/Solution/xparse-cli/install.ps1 | iex

快速开始

1. 零配置解析(免登录, 每日 1000 页)

# 输出 Markdown 到终端
xparse-cli parse report.pdf

# JSON 视图
xparse-cli parse report.pdf --view json

# 保存到目录
xparse-cli parse report.pdf --output ./output/

# 指定页码范围
xparse-cli parse report.pdf --page-range "1-5"

# 加密 PDF
xparse-cli parse secret.pdf --password mypassword

2. 付费 API(可选,支持更多格式和高级选项)

前往 TextIn 控制台 获取凭证(x-ti-app-idx-ti-secret-code),然后运行:
xparse-cli auth
按提示输入 App ID 和 Secret Code,凭证将保存至 ~/.xparse-cli/config.yaml 也可通过环境变量配置(适合 CI/CD):
export XPARSE_APP_ID=your_app_id
export XPARSE_SECRET_CODE=your_secret_code
# 显式使用付费 API
xparse-cli parse report.pdf --api paid

命令一览

命令说明
xparse-cli parse解析文档,输出 Markdown / JSON
xparse-cli auth配置 API 凭证(交互式)
xparse-cli config管理配置(show / set / reset / path)
xparse-cli download下载解析结果中 elements 的图片
xparse-cli update自更新 CLI 到最新版本
xparse-cli version显示版本信息

parse 命令参数

参数默认值说明
--viewmarkdown输出视图:markdownjson
--api(auto)API 模式:freepaid
--page-range页码范围:"1-5""1-2,5-10"
--password加密文档密码
--include-char-detailsfalse返回字符级坐标和置信度
--list从文件读取输入列表(需配合 --output
--output(stdout)输出文件路径或目录(目录须已存在)
全局参数(所有命令均支持):
参数说明
--app-idTextin App ID(覆盖环境变量和配置文件)
--secret-codeTextin Secret Code(覆盖环境变量和配置文件)
--base-urlAPI 地址(私有化部署时使用)
--verbose调试模式,打印 HTTP 请求详情

API capabilities 默认值

CLI 默认开启以下能力,Agent 无需额外配置:
能力默认
标题层级开启
内嵌对象(图片)开启
图片数据开启
表格结构(HTML)开启
分页结果开启
目录树开启
字符级详情关闭--include-char-details 开启)

使用示例

管道组合

# 解析并搜索
xparse-cli parse report.pdf | grep "revenue"

# 解析并喂给 LLM
xparse-cli parse paper.pdf | llm "summarize this paper"

批量处理

# 从文件列表读取
xparse-cli parse --list files.txt --output ./results/

下载图片

# 从解析结果 JSON 中提取 elements 图片并下载
xparse-cli download --from result.json --output ./images/

# 直接下载图片 URL
xparse-cli download https://web-api.textin.com/ocr_image/external/abc123.jpg --output ./images/

凭证管理

优先级方式说明
1命令行参数--app-id--secret-code
2环境变量XPARSE_APP_IDXPARSE_SECRET_CODE
3配置文件~/.xparse-cli/config.yaml

支持的文件格式

类型格式
文档PDF, DOC, DOCX, TXT, RTF, OFD
图片PNG, JPG, JPEG, BMP, TIFF, WebP
表格XLS, XLSX, CSV
演示PPT, PPTX
网页HTML, MHTML
限制:
限制项免费 API付费 API
文件大小10MB500MB
页数1000 页/日
XLS/XLSX/CSV每 sheet ≤ 2000 行 × 100 列
TXT≤ 100KB
图片尺寸20~20000 像素20~20000 像素
了解更多:查看 Github