跳转到主要内容
数据源连接器(Sources)用于从不同存储系统中读取文档文件。xParse 支持多种数据源类型,包括 S3 兼容的对象存储服务、FTP 远程文件服务、SMB 网络共享以及本地文件系统。
通过配置不同的数据源连接器,您可以灵活地从各种存储系统中读取文档,无需修改处理逻辑。
支持的数据源
xParse 目前支持以下数据源类型(点击可查看详细配置指南):
S3 兼容服务
其他数据源
通用配置
recursive:boolean类型,是否递归遍历,开启后将递归遍历子文件夹中的文件,默认为 False。
pattern:list[string]类型,文件匹配模式,配置后仅拉取符合规则的文件,例如 ['*.pdf', '*.docx', '**/*.txt'],默认为None,处理全部文件。
注意:pattern 中包含递归通配符(如**/*.txt)时,recursive 参数必须为 True,否则不生效。
支持的文件格式
xParse 目前支持的文件格式有:png, jpg, jpeg, pdf, bmp, tiff, webp, doc, docx, html, mhtml, xls, xlsx, csv, ppt, pptx, txt, ofd, rtf。
- 如果是xls/xlsx/csv文件,每个sheet行数不能超过2000,列数不能超过100。
- 如果是txt文件,文件大小不超过100k。
- 长宽比小于2的图片宽高需在20~20000像素范围内,其他图片的宽高需在20~10000像素范围内。
- 单个文件大小不超过100M。
相关文档