跳转到主要内容

概念

数据源连接器(Sources)用于从不同存储系统中读取文档文件。xParse 支持多种数据源类型,包括 S3 兼容的对象存储服务、FTP 远程文件服务、SMB 网络共享以及本地文件系统。 通过配置不同的数据源连接器,您可以灵活地从各种存储系统中读取文档,无需修改处理逻辑。

支持的数据源

xParse 目前支持以下数据源类型(点击可查看详细配置指南):

S3 兼容服务

其他数据源

通用配置

  1. recursiveboolean类型,是否递归遍历,开启后将递归遍历子文件夹中的文件,默认为 False
  2. patternlist[string]类型,文件匹配模式,配置后仅拉取符合规则的文件,例如 ['*.pdf', '*.docx', '**/*.txt'],默认为None,处理全部文件。
注意pattern 中包含递归通配符(如**/*.txt)时,recursive 参数必须为 True,否则不生效。

支持的文件格式

xParse 目前支持的文件格式有:png, jpg, jpeg, pdf, bmp, tiff, webp, doc, docx, html, mhtml, xls, xlsx, csv, ppt, pptx, txt, ofd, rtf。
  • 如果是xls/xlsx/csv文件,每个sheet行数不能超过2000,列数不能超过100。
  • 如果是txt文件,文件大小不超过100k。
  • 长宽比小于2的图片宽高需在20~20000像素范围内,其他图片的宽高需在20~10000像素范围内。
  • 单个文件大小不超过100M。

相关文档