# kafka 使用方法

# Spring Boot 集成kafka

Intro to Apache Kafka with Spring (opens new window)

Using Kafka with Spring Boot (opens new window)

# Kafka Vocabulary

Producer: A producer is a client that sends messages to the Kafka server to the specified topic.
Consumer: Consumers are the recipients who receive messages from the Kafka server.
Broker: Brokers can create a Kafka cluster by sharing information using Zookeeper. A broker receives messages from producers and consumers fetch messages from the broker by topic, partition, and offset.
Cluster: Kafka is a distributed system. A Kafka cluster contains multiple brokers sharing the workload.
Topic: A topic is a category name to which messages are published and from which consumers can receive messages.
Partition: Messages published to a topic are spread across a Kafka cluster into several partitions. Each partition can be associated with a broker to allow consumers to read from a topic in parallel.
Offset: Offset is a pointer to the last message that Kafka has already sent to a consumer.

# kafka groupId 设置规则

设置groupId改变消费数据的规则

只要不更改group.id，每次重新消费kafka，都是从上次消费结束的地方继续开始，不论"auto.offset.reset”属性设置的是什么

场景一：Kafka上在实时被灌入数据，但kafka上已经积累了两天的数据，如何从最新的offset开始消费？

（最新指相对于当前系统时间最新）

1.将group.id换成新的名字(相当于加入新的消费组)

2.网上文章写还要设置 properties.setProperty("auto.offset.reset", "latest”) 实验发现即使不设置这个，只要group.id是全新的，就会从最新的的offset开始消费
场景二：kafka在实时在灌入数据，kafka上已经积累了两天的数据，如何从两天前最开始的位置消费？

1.将group.id换成新的名字 2.properties.setProperty("auto.offset.reset", "earliest”)
场景三：不更改group.id，只是添加了properties.setProperty("auto.offset.reset", "earliest”)，consumer会从两天前最开始的位置消费吗？

不会，只要不更改消费组，只会从上次消费结束的地方继续消费
场景四：不更改group.id，只是添加了properties.setProperty("auto.offset.reset", "latest”)，consumer会从距离现在最近的位置消费吗？

不会，只要不更改消费组，只会从上次消费结束的地方继续消费

# kafka partition 规则

# partition的作用

Kafka是一种高性能的分布式消息系统，它使用分区（partitions）来实现数据的持久化和并行处理。每个主题（topic）在Kafka中都可以被划分为一个或多个分区，而每个分区都是有序且不可变的消息序列。

以下是Kafka分区的几个重要作用：

水平扩展：Kafka的分区机制允许将一个主题的负载分散到多个服务器上进行处理，从而实现水平扩展。每个分区都可以独立地分配给不同的机器，这样可以通过增加分区数量来增加整个集群的处理能力。
容错性：分区是Kafka提供的容错机制的基础。通过将消息存储在多个分区中，即使某个分区或服务器出现故障，其他分区仍然可以正常工作。消费者可以从其他可用的分区读取消息，确保数据的可靠性和持久性。
顺序保证：每个分区内的消息是有序的，并且Kafka保证了所有分区的消息总体有序。这意味着，无论是生产者还是消费者，在单个分区内的消息顺序是保证的，而在整个主题范围内的消息顺序也是保证的。
负载均衡：通过将消息分布在多个分区中，Kafka可以实现消费者的负载均衡。多个消费者可以同时从不同的分区读取消息，从而提高整个系统的吞吐量和并发性能。
基于分区的并行处理：Kafka的分区机制支持生产者和消费者的并行处理。多个生产者可以同时向不同的分区发送消息，而多个消费者也可以同时从不同的分区读取消息。这种并行处理方式使得Kafka能够满足高吞吐量、低延迟的需求。

Q1: 每个分区的数据是一样的吗?

kafka每个分区中的数据是有序且不可变的，但不要求每个分区中的数据完全相同。在Kafka中，每个主题可以划分为一个或多个分区，并且每个分区都是一个有序的消息日志。每个分区内的消息按照写入的顺序进行存储，并且每条消息都被赋予一个唯一的偏移量（offset）来表示其在分区中的位置。

此外，每个分区都有自己的一组副本（replicas），用于提供容错性。这些副本被分布在不同的服务器上，以防止分区的单点故障。副本之间的数据一致性由Kafka集群维护和管理。

Q2: kafka集群clusterA有两个broker：brokerA和brokerB,有一个topicA有两个partition,和2个replication。producer A生产了100条消息，到clusterA中，如果此时brokerA掉线了，消息会如何分布?

在这种情况下，当BrokerA掉线时，Kafka集群会自动进行故障转移，确保消息的可靠性和持久性。由于TopicA有两个分区且有两个副本，以下是消息的分布情况：

Partition 0：

Partition 1：

Leader：可以是BrokerA或BrokerB中的任何一个。 Replica 1：如果此时Leader是BrokerA，则Replica 1位于BrokerB；如果Leader是BrokerB，则Replica 1位于BrokerA。 Replica 2：如果此时Leader是BrokerA，则Replica 2位于BrokerB；如果Leader是BrokerB，则Replica 2位于BrokerA。当Producer A生产100条消息时，这些消息将被均匀地分发到两个分区中。由于BrokerA掉线，如果Leader是BrokerA，那么Leader将无法访问。此时，Kafka会从剩余的可用副本中选择新的Leader来接管该分区。

假设之前Leader是BrokerA，并且它掉线了，而副本1（Replica 1）和副本2（Replica 2）仍然可用。Kafka会选择其中一个副本作为新的Leader，例如选择副本1作为新的Leader。一旦新的Leader选举完成，消费者将可以从新的Leader中读取消息。

整个过程是由Kafka集群自动处理的，而Producer A无需关心具体的分区和副本情况，它只需要将消息发送到TopicA即可。 Kafka通过维护一致性和复制机制来保证消息的可靠性，以应对节点故障和数据丢失的情况。

Q3: 如果有两个broker,推荐几个partition和replication的组合?

Partition（分区）的数量：对于只有两个Broker的情况，最好将Partition设置为2的幂次方
Replication（复制）的数量：在两个Broker的情况下，设置每个Partition的Replication Factor为2是常见的做法。这意味着每个Partition都有两个副本，一个Leader副本和一个Follower副本。

Q4: 已经存在的topic如何修改分区呢?

在Kafka中，已经存在的Topic的分区数是无法直接修改的。但你可以通过以下步骤来实现类似于修改分区的效果：

创建一个新的Topic：首先，创建一个具有所需分区数的新Topic，并确保它的配置和原有Topic相同（例如，复制因子、清理策略等）。
使用消费者将消息从旧Topic中读取并发送到新Topic：使用一个专门编写的消费者应用程序，从旧Topic中读取消息，并将这些消息重新发送到新的Topic中。在重新发送之前，可以根据需要对消息进行处理或转换。
停止生产者向旧Topic发送消息：停止生产者向原来的Topic发送新的消息，以确保所有的消息都被消费者读取和发送到新的Topic中。
切换消费者到新Topic：将消费者应用程序重新配置为订阅新的Topic，并验证消费者能够正确消费新Topic中的消息。
删除旧Topic：在确认新的Topic正常运行后，你可以选择删除旧的Topic，以释放存储空间。

需要注意的是，上述过程可能会导致一段时间内的数据重复消费，因为消费者将读取并重新发送原有Topic中的消息。在执行此操作时，请确保考虑到数据一致性和处理幂等性。

场景1: kafka集群clusterA有两个broker：brokerA和brokerB,有一个topicA有两个partition,和2个replication。producer A生产了100条消息，到clusterA中，如果此时brokerA掉线了，消息会如何分布?

Partition 0：

Partition 1：

← kafka基本设置 kafka参数设置 →