Airflow与Prometheus集成[编辑 | 编辑源代码]

介绍[编辑 | 编辑源代码]

Apache Airflow是一个开源的工作流编排平台，用于调度和监控复杂的数据管道。Prometheus则是一个流行的开源监控和告警工具，专注于时序数据的收集与分析。将Airflow与Prometheus集成，可以实现对Airflow任务执行、资源使用情况以及DAG运行状态的实时监控，帮助用户快速定位性能瓶颈或故障。

通过本指南，您将学习：

为什么需要将Airflow与Prometheus集成
如何配置Airflow以暴露Prometheus指标
如何通过Prometheus抓取和可视化这些指标
实际应用案例与最佳实践

为什么需要集成Prometheus？[编辑 | 编辑源代码]

Airflow本身提供了基础的Web UI和日志功能，但在大规模生产环境中，需要更强大的监控能力：

实时监控任务延迟、失败率等关键指标
基于历史数据的趋势分析
自定义告警规则（如DAG运行超时）
与其他系统（如Grafana）集成实现可视化

Prometheus的拉取模型（Pull-based）和灵活的查询语言（PromQL）使其成为Airflow监控的理想选择。

配置Airflow暴露Prometheus指标[编辑 | 编辑源代码]

安装依赖[编辑 | 编辑源代码]

Airflow通过`apache-airflow-providers-prometheus`包提供Prometheus集成支持。安装命令如下：

  
pip install apache-airflow-providers-prometheus

修改Airflow配置[编辑 | 编辑源代码]

在`airflow.cfg`中添加以下配置（或通过环境变量设置）：

  
[metrics]  
statsd_on = False  
statsd_host = localhost  
statsd_port = 9125  
statsd_prefix = airflow  

# 启用Prometheus导出器  
metrics_exporter = airflow.providers.prometheus.exporters.prometheus.PrometheusStatsExporter  
metrics_exporter_port = 9110  # 默认端口

验证指标端点[编辑 | 编辑源代码]

启动Airflow后，访问`http://<airflow-server>:9110/metrics`应返回Prometheus格式的指标，例如：

  
# HELP airflow_dagrun_duration_seconds DagRun执行耗时  
# TYPE airflow_dagrun_duration_seconds histogram  
airflow_dagrun_duration_seconds_bucket{dag_id="example_dag",task_id="example_task",le="5.0"} 12  
airflow_dagrun_duration_seconds_sum{dag_id="example_dag",task_id="example_task"} 45.7  
airflow_dagrun_duration_seconds_count{dag_id="example_dag",task_id="example_task"} 20

Prometheus抓取配置[编辑 | 编辑源代码]

在Prometheus的`prometheus.yml`中添加Airflow作业：

  
scrape_configs:  
  - job_name: 'airflow'  
    scrape_interval: 15s  
    static_configs:  
      - targets: ['airflow-webserver:9110']

关键监控指标[编辑 | 编辑源代码]

以下是一些重要的Airflow指标示例：

核心监控指标
指标名称	类型	描述
Histogram \| DAG运行耗时分布
Counter \| 任务失败次数
Counter \| 任务成功次数
Gauge \| 当前运行中的任务数

可视化与告警[编辑 | 编辑源代码]

Grafana仪表板[编辑 | 编辑源代码]

使用Grafana可以创建丰富的监控面板。示例PromQL查询：

**任务成功率**：

  
  sum(rate(airflow_task_successes_total[5m])) by (dag_id) /  
  sum(rate(airflow_task_successes_total[5m] + airflow_task_failures_total[5m])) by (dag_id)

告警规则示例[编辑 | 编辑源代码]

在Prometheus的`rules.yml`中定义告警：

  
groups:  
- name: airflow-alerts  
  rules:  
  - alert: HighTaskFailureRate  
    expr: rate(airflow_task_failures_total[10m]) > 0.1  
    for: 5m  
    labels:  
      severity: critical  
    annotations:  
      summary: "High failure rate in {{ $labels.dag_id }}"

实际案例[编辑 | 编辑源代码]

电商数据处理管道[编辑 | 编辑源代码]

某电商公司使用Airflow调度每日用户行为分析任务。通过Prometheus监控发现：

每天高峰时段`order_processing`任务的延迟显著增加（通过`airflow_dagrun_duration_seconds`指标发现）
定位到原因是数据库连接池不足，通过扩容解决

数据仓库ETL[编辑 | 编辑源代码]

数据团队监控到`data_warehouse_load` DAG的失败率突然升高：

Prometheus告警触发后，检查日志发现是源系统API限流
解决方案：增加重试机制和指数退避

高级配置[编辑 | 编辑源代码]

自定义指标[编辑 | 编辑源代码]

通过Airflow的`Stats`接口推送自定义指标：

  
from airflow.stats import Stats  

def process_data(**context):  
    try:  
        # 业务逻辑  
        Stats.gauge("custom_processing_time_ms", 150)  
    except Exception as e:  
        Stats.incr("custom_process_failure")  
        raise

使用Pushgateway[编辑 | 编辑源代码]

对于短期任务，可通过Pushgateway临时存储指标：

常见问题[编辑 | 编辑源代码]

Q: 指标未出现在Prometheus中？

检查Airflow是否正确启动导出器（日志中搜索`Starting Prometheus metrics exporter`）
验证网络连通性（`curl http://localhost:9110/metrics`）

Q: 如何监控跨多节点的CeleryExecutor？

在每个Worker节点上单独配置指标导出器
使用Prometheus联邦模式聚合指标

总结[编辑 | 编辑源代码]

Airflow与Prometheus集成提供了强大的监控能力，帮助用户：

实时跟踪管道健康状态
快速定位性能问题
基于数据驱动优化调度策略

下一步建议：

探索Grafana的官方Airflow仪表板模板
结合Alertmanager配置电话/邮件告警
阅读Prometheus官方文档学习PromQL高级查询

指标名称	类型	描述
Histogram \| DAG运行耗时分布
Counter \| 任务失败次数
Counter \| 任务成功次数
Gauge \| 当前运行中的任务数