跳转到内容
主菜单
主菜单
移至侧栏
隐藏
导航
首页
最近更改
随机页面
MediaWiki帮助
代码酷
搜索
搜索
中文(中国大陆)
外观
创建账号
登录
个人工具
创建账号
登录
未登录编辑者的页面
了解详情
贡献
讨论
编辑“︁
Airflow UI界面介绍
”︁
页面
讨论
大陆简体
阅读
编辑
编辑源代码
查看历史
工具
工具
移至侧栏
隐藏
操作
阅读
编辑
编辑源代码
查看历史
常规
链入页面
相关更改
特殊页面
页面信息
外观
移至侧栏
隐藏
您的更改会在有权核准的用户核准后向读者展示。
警告:
您没有登录。如果您进行任何编辑,您的IP地址会公开展示。如果您
登录
或
创建账号
,您的编辑会以您的用户名署名,此外还有其他益处。
反垃圾检查。
不要
加入这个!
= Airflow UI界面介绍 = Apache Airflow的用户界面(UI)是管理和监控工作流的核心工具,为开发者提供可视化操作、任务状态跟踪及日志分析功能。本章将详细介绍UI的功能模块、导航结构及实际应用场景。 == 核心功能概述 == Airflow UI基于Flask框架构建,主要包含以下功能区域: * '''DAGs视图''':展示所有工作流(DAG)列表及其状态 * '''任务实例管理''':查看和操作具体任务实例 * '''日志查看器''':实时检索任务执行日志 * '''变量与连接配置''':管理系统级参数和外部服务连接 == 主界面导航 == <mermaid> graph TD A[Airflow UI] --> B[DAGs] A --> C[Graph View] A --> D[Task Instances] A --> E[Logs] A --> F[Admin] F --> F1[Variables] F --> F2[Connections] </mermaid> === DAGs列表视图 === 主界面默认显示所有已注册的DAG,关键信息包括: * '''DAG ID''':工作流唯一标识符 * '''Schedule''':调度间隔(cron表达式或时间差) * '''Last Run''':最近执行时间戳 * '''DAG Runs''':运行状态统计(成功/失败/运行中) === Graph View详解 === 点击DAG名称进入图形视图,展示: * '''任务节点''':矩形框表示,颜色反映当前状态(绿色=成功,红色=失败) * '''依赖关系''':箭头表示任务执行顺序 * '''上下文菜单''':右键点击任务可触发操作(如运行、清除状态) '''示例:查看简单DAG结构''' <syntaxhighlight lang="python"> # 示例DAG定义 from airflow import DAG from airflow.operators.bash import BashOperator with DAG('demo_ui', schedule_interval='@daily') as dag: task1 = BashOperator(task_id='extract', bash_command='echo "Data extraction"') task2 = BashOperator(task_id='transform', bash_command='echo "Data transformation"') task1 >> task2 # 设置依赖关系 </syntaxhighlight> 在UI中将显示两个相连的任务节点,可通过工具提示查看任务参数。 == 任务实例管理 == 通过''Task Instances''标签页可以: 1. 筛选特定时间段的任务 2. 查看任务元数据(执行时间、持续时间等) 3. 手动触发/重试任务 '''状态类型说明''': {| class="wikitable" |+ 任务状态编码 ! 状态 !! 颜色 !! 含义 |- | success || {{color|green|■}} || 任务成功完成 |- | failed || {{color|red|■}} || 任务执行失败 |- | running || {{color|blue|■}} || 任务正在执行 |- | queued || {{color|grey|■}} || 任务排队中 |} == 日志分析功能 == 日志查看器提供: * 按执行日期分组的日志文件 * 自动滚动更新的实时日志 * 多级日志过滤(DEBUG/INFO/WARNING/ERROR) '''典型日志片段''': <syntaxhighlight lang="text"> [2023-07-20 10:00:15,678] {taskinstance.py:1157} INFO - Starting attempt 1 of 2 [2023-07-20 10:00:16,002] {bash.py:158} INFO - Running command: echo "Data extraction" [2023-07-20 10:00:16,005] {bash.py:169} INFO - Output: Data extraction </syntaxhighlight> == 配置管理 == === Variables === 存储全局键值对,可通过UI或API管理。例如存储文件路径阈值: * Key: `max_file_size` * Value: `1024` === Connections === 配置外部服务连接(如数据库、API端点),支持以下类型: * Database (PostgreSQL/MySQL等) * HTTP * AWS * SSH == 实际应用案例 == '''场景:电商数据管道监控''' 1. 在DAGs视图发现`order_processing`状态变为{{color|red|■}} 2. 进入Graph View定位失败节点`validate_payment` 3. 通过日志发现错误: <syntaxhighlight lang="text"> ERROR: Payment gateway timeout (503 Service Unavailable) </syntaxhighlight> 4. 解决方案: * 在Connections中检查支付网关配置 * 手动重试任务(需设置重试次数<math>n \geq 1</math>) == 高级功能 == * '''甘特图(Gantt Chart)''':分析任务执行时间分布 * '''任务持续时间图表''':识别性能瓶颈 * '''自动刷新设置''':配置页面轮询间隔(默认30秒) == 最佳实践 == 1. 使用描述性DAG和任务ID 2. 重要任务设置电子邮件告警 3. 定期清理旧日志(通过`log_cleanup_interval`配置) 通过掌握Airflow UI,用户可以高效管理复杂的数据管道,快速定位问题并优化工作流性能。 [[Category:大数据框架]] [[Category:Airflow]] [[Category:Airflow基础]]
摘要:
请注意,所有对代码酷的贡献均被视为依照知识共享署名-非商业性使用-相同方式共享发表(详情请见
代码酷:著作权
)。如果您不希望您的文字作品被随意编辑和分发传播,请不要在此提交。
您同时也向我们承诺,您提交的内容为您自己所创作,或是复制自公共领域或类似自由来源。
未经许可,请勿提交受著作权保护的作品!
取消
编辑帮助
(在新窗口中打开)
该页面使用的模板:
模板:Color
(
编辑
)
模板:Color/styles.css
(
编辑
)
模板:Ifsubst
(
编辑
)