跳转到主要内容

阿里云 OSS

阿里云 OSS(Object Storage Service)兼容 S3 协议,可以使用 S3 SDK 接入。

如何获取鉴权参数

  1. 登录 阿里云控制台
  2. 进入 OSS 服务,创建存储桶(Bucket) 创建Bucket
  3. 获取访问密钥:
    • 进入”访问控制 RAM” → “用户” → 创建用户或使用现有用户 创建用户
    • 为用户创建 AccessKey,获取 AccessKey IDAccessKey Secret 创建AccessKey
    • 为用户授予 OSS 读取权限,至少包括:
      • oss:HeadBucket:检查存储桶是否存在
      • oss:ListObjects:列出存储桶中的对象
      • oss:GetObject:获取对象内容 创建权限策略 授予权限
  4. 获取 OSS 端点:
    • 在存储桶概览页查看”Endpoint(地域节点)”
    • 格式:https://s3.oss-{region}.aliyuncs.com(S3 兼容端点)或 https://oss-{region}.aliyuncs.com
    • 例如:https://s3.oss-cn-shanghai.aliyuncs.comhttps://oss-cn-hangzhou.aliyuncs.com 获取Endpoint

配置示例

source = S3Source(
    endpoint='https://s3.oss-cn-shanghai.aliyuncs.com',  # 使用 S3 兼容端点
    access_key='your-access-key-id',
    secret_key='your-secret-access-key',
    bucket='your-bucket-name',
    prefix='documents/',  # 可选
    region='cn-shanghai'
)

使用示例

from xparse_client import S3Source, Pipeline

source = S3Source(
    endpoint='https://s3.oss-cn-shanghai.aliyuncs.com',
    access_key='your-access-key-id',
    secret_key='your-secret-access-key',
    bucket='my-documents',
    prefix='pdfs/',
    region='cn-shanghai'
)

# ... 其他配置

pipeline = Pipeline(
    source=source,
    # ...其他配置
)
pipeline.run()

参考文档