编辑“︁Pig”︁

{{NoteTA
|G1=IT
}}

'''Pig'''是构建在[[Hadoop]]之上的高级数据流语言和执行框架，主要用于简化大规模数据集的处理和分析。它提供了一种称为Pig Latin的脚本语言，允许用户以更直观的方式编写复杂的数据转换，而无需直接使用低级的[[MapReduce]]编程模型。

== 概述 ==
Pig最初由雅虎研究院开发，后来成为[[Apache软件基金会]]的顶级项目。其主要特点包括：
* 提供类似SQL的高级数据操作语言（Pig Latin）
* 自动优化执行计划
* 支持用户自定义函数（UDF）
* 可扩展的运算符集合

Pig特别适合以下场景：
* ETL（提取、转换、加载）流程
* 数据分析
* 迭代数据处理

== 架构 ==
Pig系统由以下主要组件构成：
* '''Pig Latin'''：数据流语言
* '''执行引擎'''：将Pig Latin脚本转换为MapReduce作业
* '''优化器'''：对执行计划进行优化

<mermaid>
graph LR
    A[Pig Latin脚本] --> B[逻辑计划]
    B --> C[逻辑优化]
    C --> D[物理计划]
    D --> E[MapReduce作业]
    E --> F[Hadoop集群]
</mermaid>

== Pig Latin基础 ==
Pig Latin是一种面向数据流的语言，主要操作包括：
* 加载数据（LOAD）
* 转换数据（FILTER, FOREACH, GROUP等）
* 存储数据（STORE）

=== 基本示例 ===
以下是一个简单的Pig Latin脚本示例，计算文本文件中单词的出现频率：

<syntaxhighlight lang="pig">
-- 加载数据
lines = LOAD 'input.txt' AS (line:chararray);

-- 将每行拆分为单词
words = FOREACH lines GENERATE FLATTEN(TOKENIZE(line)) AS word;

-- 按单词分组
grouped = GROUP words BY word;

-- 计算每个单词的出现次数
wordcount = FOREACH grouped GENERATE group, COUNT(words);

-- 存储结果
STORE wordcount INTO 'output';
</syntaxhighlight>

== 数据类型 ==
Pig Latin支持以下基本数据类型：
* 简单类型：int、long、float、double、chararray、bytearray、boolean、datetime
* 复杂类型：tuple、bag、map

== 操作符 ==
Pig Latin提供丰富的操作符来处理数据：
* 关系操作：LOAD, FILTER, FOREACH, GROUP, JOIN等
* 诊断操作：DUMP, DESCRIBE, EXPLAIN等
* 系统命令：REGISTER, DEFINE等

== 用户自定义函数 ==
Pig允许用户使用Java、Python等语言编写自定义函数（UDF）来扩展功能。

=== Java UDF示例 ===
<syntaxhighlight lang="java">
package com.example.pig.udf;

import java.io.IOException;
import org.apache.pig.EvalFunc;
import org.apache.pig.data.Tuple;

public class UpperCase extends EvalFunc<String> {
    public String exec(Tuple input) throws IOException {
        if (input == null || input.size() == 0)
            return null;
        try {
            String str = (String)input.get(0);
            return str.toUpperCase();
        } catch(Exception e) {
            throw new IOException("Error processing input", e);
        }
    }
}
</syntaxhighlight>

在Pig Latin中使用：
<syntaxhighlight lang="pig">
REGISTER 'myudfs.jar';
DEFINE toUpper com.example.pig.udf.UpperCase();
data = LOAD 'data' AS (name:chararray);
upper_data = FOREACH data GENERATE toUpper(name);
</syntaxhighlight>

== 性能优化 ==
提高Pig脚本性能的常用技术：
* 使用合适的JOIN策略
* 合理设置并行度
* 使用COGROUP代替多个JOIN
* 尽早使用FILTER减少数据量

== 与Hive的比较 ==
{| class="wikitable"
|-
! 特性 !! Pig !! [[Hive]]
|-
| 语言类型 || 过程式数据流语言 || 声明式SQL-like语言
|-
| 主要用途 || ETL流程 || 数据仓库查询
|-
| 执行引擎 || 转换为MapReduce || 转换为MapReduce/Tez/Spark
|-
| 学习曲线 || 中等 || 对熟悉SQL的用户更简单
|}

== 实际应用案例 ==
某电商公司使用Pig处理每日用户行为日志：
1. 清洗原始日志数据
2. 计算用户点击率
3. 生成商品推荐模型输入
4. 聚合生成日报表

== 参见 ==
* [[Hadoop]]
* [[Hive]]
* [[MapReduce]]
* [[Apache Spark]]

== 参考资料 ==
* 《Programming Pig》- Alan Gates
* Apache Pig官方文档

[[Category:大数据技术]]
[[Category:Apache软件基金会项目]]
[[Category:数据处理框架]]