HDFS文件上传下载[编辑 | 编辑源代码]

概述[编辑 | 编辑源代码]

HDFS（Hadoop Distributed File System）是Hadoop的核心组件之一，用于存储和管理大规模数据集。文件上传（写入）和下载（读取）是HDFS的基本操作，理解其工作原理对使用Hadoop至关重要。

关键特点：

分布式存储：文件被分割成块（默认128MB）并分布在集群节点上。
高容错性：通过副本机制（默认3份）保障数据安全。
流式访问：优化顺序读写，适合批处理场景。

文件上传流程[编辑 | 编辑源代码]

基本流程[编辑 | 编辑源代码]

当客户端上传文件到HDFS时，发生以下步骤：

客户端联系NameNode获取目标文件元数据
NameNode验证权限并返回可写入的DataNode列表
客户端将数据块直接写入第一个DataNode
第一个DataNode将数据复制到第二个节点，依次形成流水线复制
写入完成后，DataNode向NameNode确认块信息

命令行操作[编辑 | 编辑源代码]

通过Hadoop CLI上传本地文件到HDFS：

# 上传单个文件
hadoop fs -put /local/path/file.txt /hdfs/path/

# 上传整个目录
hadoop fs -put /local/directory /hdfs/path/

# 查看上传结果
hadoop fs -ls /hdfs/path/

输出示例：

Found 1 items
-rw-r--r--   3 hadoopuser supergroup    12345678 2023-08-15 10:15 /hdfs/path/file.txt

Java API示例[编辑 | 编辑源代码]

使用Hadoop Java API实现文件上传：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class HDFSUploader {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(conf);
        
        // 本地文件路径
        Path localPath = new Path("input.txt");
        // HDFS目标路径
        Path hdfsPath = new Path("/user/hadoop/input.txt");
        
        // 执行上传
        fs.copyFromLocalFile(localPath, hdfsPath);
        System.out.println("文件上传完成");
        
        fs.close();
    }
}

文件下载流程[编辑 | 编辑源代码]

基本流程[编辑 | 编辑源代码]

文件下载过程与上传对称：

客户端向NameNode请求文件位置信息
NameNode返回包含文件块的DataNode列表
客户端直接从最近的DataNode读取数据
数据在客户端本地重组为完整文件

命令行操作[编辑 | 编辑源代码]

从HDFS下载文件到本地：

# 下载单个文件
hadoop fs -get /hdfs/path/file.txt /local/path/

# 下载整个目录
hadoop fs -get /hdfs/directory /local/path/

Java API示例[编辑 | 编辑源代码]

使用Java API下载文件：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class HDFSDownloader {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(conf);
        
        // HDFS文件路径
        Path hdfsPath = new Path("/user/hadoop/output.txt");
        // 本地目标路径
        Path localPath = new Path("downloaded.txt");
        
        // 执行下载
        fs.copyToLocalFile(hdfsPath, localPath);
        System.out.println("文件下载完成");
        
        fs.close();
    }
}

高级配置与优化[编辑 | 编辑源代码]

块大小调整[编辑 | 编辑源代码]

通过修改hdfs-site.xml配置块大小：

<property>
    <name>dfs.blocksize</name>
    <value>134217728</value> <!-- 128MB -->
</property>

并行下载[编辑 | 编辑源代码]

使用DistCp工具并行下载大目录：

hadoop distcp hdfs://namenode:8020/source /local/target

校验和验证[编辑 | 编辑源代码]

上传下载时启用校验和验证：

// Java API中设置校验和验证
conf.setBoolean("dfs.client.read.shortcircuit.skip.checksum", false);

实际应用案例[编辑 | 编辑源代码]

案例：气象数据收集系统 1. 数据采集端：通过Flume将气象站数据上传至HDFS 2. 处理阶段：MapReduce作业读取HDFS上的原始数据 3. 结果存储：处理后的数据写回HDFS 4. 可视化层：从HDFS下载聚合结果生成报表

性能指标：

每日处理500GB原始数据
上传吞吐量：~120MB/s
下载延迟：<50ms（热数据）

常见问题解答[编辑 | 编辑源代码]

Q: 上传大文件时如何监控进度？ A: 使用以下方法之一：

CLI添加-v参数显示进度
Java API使用FSDataOutputStream.getPos()

Q: 下载文件时如何确保数据一致性？ A: 采用以下策略：

启用HDFS校验和验证（默认开启）
比较源文件和目标文件的MD5值
使用hadoop fs -checksum命令验证

Q: 上传失败如何处理？ A: 典型恢复流程： 1. 检查NameNode日志确认错误原因 2. 验证存储空间是否充足 3. 重试操作（HDFS客户端有自动重试机制） 4. 必要时手动清理临时文件

数学原理[编辑 | 编辑源代码]

HDFS的副本放置策略遵循机架感知原则，最小化跨机架流量。副本放置满足：

${\begin{cases} 副本1 & 同节点 \\ 副本2 & 不同机架 \\ 副本3 & 与副本2同机架的不同节点 \end{cases}$

网络带宽消耗模型： $T_{u p l o a d} = \frac{F}{B} + (n - 1) \times \frac{F}{B_{c r o s s - r a c k}}$ 其中：

F：文件大小
B：节点带宽
n：副本数
B_{cross-rack}：跨机架带宽