跳转到主要内容

本地文件夹

本地文件夹数据源用于从本地文件系统读取文档。

参数说明

参数类型必填说明
typestring固定为 "local"
directorystring本地文件夹路径(绝对路径或相对路径)
patternlist[string]文件匹配模式,支持通配符(如['*.pdf'])来过滤需要处理的文件,默认为 None,处理全部文件

文件匹配模式

pattern 参数支持以下通配符:
  • *:匹配任意字符(不包括路径分隔符)
  • **:匹配任意字符(包括路径分隔符)
示例
  • ['*.pdf']:匹配当前目录下所有 PDF 文件
  • ['*.pdf', '*.docx']:匹配当前目录下所有 PDF 和 Word 文件
  • ['**/*.txt']:递归匹配所有子目录下的 txt 文件,必须配合 recursive=True 参数使用

配置示例

source = LocalSource(
    directory='./documents',           # 相对路径
    pattern=['*.pdf']                     # 只匹配 PDF 文件
)
或使用绝对路径:
source = LocalSource(
    directory='/home/user/documents',  # 绝对路径
    pattern=['*.pdf']                     # 只匹配 PDF 文件
)

使用示例

from xparse_client import LocalSource, Pipeline

source = LocalSource(
    directory='./documents',
    recursive=True,
    pattern=['*.pdf']  # 递归处理所有 PDF 文件
)

# ... 其他配置

pipeline = Pipeline(
    source=source,
    # ...其他配置
)
pipeline.run()