跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://docs.textin.com/llms.txt

Use this file to discover all available pages before exploring further.

阿里云 OSS

阿里云 OSS(Object Storage Service)兼容 S3 协议,可以使用 S3 SDK 接入。

如何获取鉴权参数

  1. 登录 阿里云控制台
  2. 进入 OSS 服务,创建存储桶(Bucket) 创建Bucket
  3. 获取访问密钥:
    • 进入”访问控制 RAM” → “用户” → 创建用户或使用现有用户 创建用户
    • 为用户创建 AccessKey,获取 AccessKey IDAccessKey Secret 创建AccessKey
    • 为用户授予 OSS 读取权限,至少包括:
      • oss:HeadBucket:检查存储桶是否存在
      • oss:ListObjects:列出存储桶中的对象
      • oss:GetObject:获取对象内容 创建权限策略 授予权限
  4. 获取 OSS 端点:
    • 在存储桶概览页查看”Endpoint(地域节点)”
    • 格式:https://s3.oss-{region}.aliyuncs.com(S3 兼容端点)或 https://oss-{region}.aliyuncs.com
    • 例如:https://s3.oss-cn-shanghai.aliyuncs.comhttps://oss-cn-hangzhou.aliyuncs.com 获取Endpoint

配置示例

source = S3Source(
    endpoint='https://s3.oss-cn-shanghai.aliyuncs.com',  # 使用 S3 兼容端点
    access_key='your-access-key-id',
    secret_key='your-secret-access-key',
    bucket='your-bucket-name',
    prefix='documents/',  # 可选
    region='cn-shanghai'
)

使用示例

from xparse_client import S3Source, Pipeline

source = S3Source(
    endpoint='https://s3.oss-cn-shanghai.aliyuncs.com',
    access_key='your-access-key-id',
    secret_key='your-secret-access-key',
    bucket='my-documents',
    prefix='pdfs/',
    region='cn-shanghai'
)

# ... 其他配置

pipeline = Pipeline(
    source=source,
    # ...其他配置
)
pipeline.run()

参考文档