编辑“︁Amazon S3”︁

{{Infobox software
| name = Amazon S3
| logo = 
| screenshot = 
| developer = [[Amazon Web Services]]
| released = 2006年3月14日
| latest_release_version = 
| latest_release_date = 
| operating_system = 跨平台
| genre = [[云存储]]
| license = 专有软件
| website = https://aws.amazon.com/s3/
}}

'''Amazon Simple Storage Service'''（简称'''Amazon S3'''）是由[[Amazon Web Services]]（AWS）提供的一种可扩展的[[云存储]]服务。它通过Web服务接口提供对象存储功能，适用于各种数据存储需求，包括备份、归档、大数据分析等场景。

== 概述 ==

Amazon S3于2006年推出，是AWS最早提供的服务之一。它采用对象存储架构而非传统的文件系统或块存储，每个对象由数据、元数据和唯一标识符组成。S3的设计目标是提供"99.999999999%"（11个9）的持久性和高可用性。

== 核心概念 ==

=== 存储桶（Bucket） ===
存储桶是S3中用于存储对象的容器，具有以下特点：
* 全局唯一名称
* 区域级部署
* 可配置的访问权限
* 支持版本控制
* 可设置生命周期策略

=== 对象（Object） ===
对象是S3中存储的基本单元，包含：
* 键（Key）：对象的唯一标识符
* 值（Value）：实际数据内容
* 版本ID（当启用版本控制时）
* 元数据
* 访问控制信息

=== 存储类别 ===
Amazon S3提供多种存储类别以满足不同需求：

{| class="wikitable"
|-
! 存储类别 !! 设计用途 !! 可用性 !! 持久性 !! 最小存储时长
|-
| S3 Standard || 频繁访问数据 || 99.99% || 99.999999999% || 无
|-
| S3 Intelligent-Tiering || 访问模式不定的数据 || 99.9% || 99.999999999% || 无
|-
| S3 Standard-IA || 不频繁访问但需快速检索的数据 || 99.9% || 99.999999999% || 30天
|-
| S3 One Zone-IA || 不频繁访问且可重建的数据 || 99.5% || 99.999999999% || 30天
|-
| S3 Glacier || 长期归档（检索时间分钟至小时） || - || 99.999999999% || 90天
|-
| S3 Glacier Deep Archive || 长期归档（检索时间小时级） || - || 99.999999999% || 180天
|}

== 技术特性 ==

=== 一致性模型 ===
Amazon S3提供：
* 新对象PUT操作的写后读一致性
* 覆盖和删除操作的最终一致性
* 版本控制操作的强一致性

=== 安全性 ===
* 传输中加密（SSL/TLS）
* 静态加密（服务器端和客户端）
* IAM策略和存储桶策略
* 访问控制列表（ACL）
* VPC端点
* 日志记录和监控

=== 性能 ===
* 单个对象最大5TB
* 单个PUT请求最大5GB
* 支持多部分上传
* 支持传输加速

== 与其他AWS服务集成 ==

Amazon S3可与多种AWS服务深度集成：
* [[AWS Lambda]]：触发无服务器函数
* [[Amazon Athena]]：直接查询S3数据
* [[Amazon EMR]]：大数据处理
* [[Amazon CloudFront]]：内容分发网络
* [[AWS Glue]]：ETL服务

== 使用示例 ==

=== AWS CLI操作示例 ===
<syntaxhighlight lang="bash">
# 创建存储桶
aws s3 mb s3://my-bucket-name

# 上传文件
aws s3 cp local-file.txt s3://my-bucket-name/

# 列出存储桶内容
aws s3 ls s3://my-bucket-name/

# 同步目录
aws s3 sync ./local-folder s3://my-bucket-name/remote-folder
</syntaxhighlight>

=== Python SDK示例 ===
<syntaxhighlight lang="python">
import boto3

# 创建S3客户端
s3 = boto3.client('s3')

# 上传文件
s3.upload_file('local-file.txt', 'my-bucket-name', 'remote-file.txt')

# 下载文件
s3.download_file('my-bucket-name', 'remote-file.txt', 'downloaded-file.txt')

# 列出存储桶对象
response = s3.list_objects_v2(Bucket='my-bucket-name')
for obj in response['Contents']:
    print(obj['Key'])
</syntaxhighlight>

== 应用场景 ==

* '''数据湖'''：作为集中式数据存储库
* '''静态网站托管'''：直接通过S3托管网站
* '''备份与归档'''：长期数据保留
* '''大数据分析'''：与[[Apache Hadoop]]、[[Apache Spark]]等集成
* '''内容分发'''：与[[Amazon CloudFront]]配合使用

== 与大数据技术的集成 ==

Amazon S3是大数据生态系统中的重要组件，可与多种技术集成：

* [[Apache Drill]]：支持直接查询S3上的数据
* [[Apache Spark]]：通过S3A连接器访问数据
* [[Presto (SQL查询引擎)]]：查询S3中的结构化数据
* [[Hive (数据仓库软件)]]：将S3作为外部表存储

== 定价模型 ==

Amazon S3采用按使用量付费的模式，主要计费因素包括：
* 存储量（GB/月）
* 请求次数
* 数据传输量
* 存储类别转换
* 数据检索（针对归档存储）

== 参见 ==

* [[Amazon Web Services]]
* [[云存储]]
* [[对象存储]]
* [[Apache Hadoop]]
* [[Apache Spark]]

== 参考资料 ==
{{Reflist}}

[[Category:云存储]]
[[Category:Amazon Web Services]]
[[Category:大数据技术]]
[[Category:分布式存储系统]]