Kafka

Apache Kafka
Developer(s)	Apache软件基金会
Initial release	January 2011; 14 years ago
	模板:Infobox software/simple
Repository	{{URL\|example.com\|optional display text}};
Written in	Scala、Java
Engine
Operating system	跨平台
Type	消息中间件、流处理平台
License	Apache许可证 2.0
Website	kafka.apache.org

Apache Kafka是一个开源的分布式事件流处理平台，由LinkedIn开发并于2011年开源，现为Apache软件基金会顶级项目。它被设计用于高吞吐量、低延迟的实时数据管道和流应用程序。

核心概念[编辑 | 编辑源代码]

架构概述[编辑 | 编辑源代码]

Kafka采用分布式架构，主要包含以下组件：

Broker：Kafka服务器节点，负责消息存储和转发
Producer：消息生产者，向Kafka主题发布消息
Consumer：消息消费者，从主题订阅消息
Topic：消息类别/频道，生产者发布到特定主题，消费者订阅特定主题
Partition：主题的分区，实现并行处理和水平扩展
ZooKeeper：早期版本用于集群协调，3.0+版本开始逐步移除依赖

关键特性[编辑 | 编辑源代码]

高吞吐量：单机可支持每秒百万级消息
持久化存储：消息可持久化到磁盘并配置保留策略
水平扩展：通过增加节点轻松扩展集群
容错性：数据多副本存储，自动故障转移
流处理：提供Kafka Streams API进行实时处理

安装与配置[编辑 | 编辑源代码]

系统要求[编辑 | 编辑源代码]

Java 8或更高版本
ZooKeeper（Kafka 3.0+可选）
推荐Linux生产环境

快速启动[编辑 | 编辑源代码]

# 下载并解压
wget https://downloads.apache.org/kafka/3.7.0/kafka_2.13-3.7.0.tgz
tar -xzf kafka_2.13-3.7.0.tgz
cd kafka_2.13-3.7.0

# 启动ZooKeeper（单节点开发模式）
bin/zookeeper-server-start.sh config/zookeeper.properties

# 启动Kafka服务器
bin/kafka-server-start.sh config/server.properties

基本操作[编辑 | 编辑源代码]

创建主题[编辑 | 编辑源代码]

# 创建名为"test"的主题，1个分区，1个副本
bin/kafka-topics.sh --create --topic test \
                    --bootstrap-server localhost:9092 \
                    --partitions 1 --replication-factor 1

生产消息[编辑 | 编辑源代码]

# 启动控制台生产者
bin/kafka-console-producer.sh --topic test \
                              --bootstrap-server localhost:9092

消费消息[编辑 | 编辑源代码]

# 启动控制台消费者（从头开始消费）
bin/kafka-console-consumer.sh --topic test \
                              --bootstrap-server localhost:9092 \
                              --from-beginning

高级特性[编辑 | 编辑源代码]

消息保证[编辑 | 编辑源代码]

Kafka提供不同级别的消息可靠性保证：

至少一次（At least once）：消息不丢失但可能重复
至多一次（At most once）：消息可能丢失但不重复
精确一次（Exactly once）：Kafka 0.11+版本支持

流处理[编辑 | 编辑源代码]

使用Kafka Streams API实现实时处理：

StreamsBuilder builder = new StreamsBuilder();
KStream<String, String> source = builder.stream("input-topic");
source.mapValues(value -> value.toUpperCase())
      .to("output-topic");

KafkaStreams streams = new KafkaStreams(builder.build(), props);
streams.start();