advanced-java/docs/high-concurrency/how-to-ensure-the-order-of-messages.md

## 面试题
如何保证消息的顺序性？

## 面试官心理分析

其实这个也是用 MQ 的时候必问的话题，第一看看你了不了解顺序这个事儿？第二看看你有没有办法保证消息是有顺序的？这是生产系统中常见的问题。

## 面试题剖析

我举个例子，我们以前做过一个 mysql `binlog` 同步的系统，压力还是非常大的，日同步数据要达到上亿，就是说数据从一个 mysql 库原封不动地同步到另一个 mysql 库里面去（mysql -> mysql）。常见的一点在于说比如大数据 team，就需要同步一个 mysql 库过来，对公司的业务系统的数据做各种复杂的操作。

你在 mysql 里增删改一条数据，对应出来了增删改 3 条 `binlog` 日志，接着这三条 `binlog` 发送到 MQ 里面，再消费出来依次执行，起码得保证人家是按照顺序来的吧？不然本来是：增加、修改、删除；你愣是换了顺序给执行成删除、修改、增加，不全错了么。

本来这个数据同步过来，应该最后这个数据被删除了；结果你搞错了这个顺序，最后这个数据保留下来了，数据同步就出错了。

先看看顺序会错乱的俩场景：

* **RabbitMQ**：一个 queue，多个 consumer。比如，生产者向 RabbitMQ 里发送了三条数据，顺序依次是 data1/data2/data3，压入的是 RabbitMQ 的一个内存队列。有三个消费者分别从 MQ 中消费这三条数据中的一条，结果消费者2先执行完操作，把 data2 存入数据库，然后是 data1/data3。这不明显乱了。

![rabbitmq-order-01](./images/rabbitmq-order-01.png)

* **Kafka**：比如说我们建了一个 topic，有三个 partition。生产者在写的时候，其实可以指定一个 key，比如说我们指定了某个订单 id 作为 key，那么这个订单相关的数据，一定会被分发到同一个 partition 中去，而且这个 partition 中的数据一定是有顺序的。<br>消费者从 partition 中取出来数据的时候，也一定是有顺序的。到这里，顺序还是 ok 的，没有错乱。接着，我们在消费者里可能会搞**多个线程来并发处理消息**。因为如果消费者是单线程消费处理，而处理比较耗时的话，比如处理一条消息耗时几十 ms，那么 1 秒钟只能处理几十条消息，这吞吐量太低了。而多个线程并发跑的话，顺序可能就乱掉了。

![kafka-order-01](./images/kafka-order-01.png)

### 解决方案

#### RabbitMQ
拆分多个 queue，每个 queue 一个 consumer，就是多一些 queue 而已，确实是麻烦点；或者就一个 queue 但是对应一个 consumer，然后这个 consumer 内部用内存队列做排队，然后分发给底层不同的 worker 来处理。

![rabbitmq-order-02](./images/rabbitmq-order-02.png)

#### Kafka

* 一个 topic，一个 partition，一个 consumer，内部单线程消费，单线程吞吐量太低，一般不会用这个。
* 写 N 个内存 queue，具有相同 key 的数据都到同一个内存 queue；然后对于 N 个线程，每个线程分别消费一个内存 queue 即可，这样就能保证顺序性。

![kafka-order-02](./images/kafka-order-02.png)
-												Add how-to-ensure-the-order-of-messages.md

											
										
										
											2018-10-09 23:40:46 +08:00
+								## 面试题
 								如何保证消息的顺序性？
 								## 面试官心理分析
-												feat: add markdown formatter

											
										
										
											2020-05-06 20:23:11 +08:00
-												Add how-to-ensure-the-order-of-messages.md

											
										
										
											2018-10-09 23:40:46 +08:00
+								其实这个也是用 MQ 的时候必问的话题，第一看看你了不了解顺序这个事儿？第二看看你有没有办法保证消息是有顺序的？这是生产系统中常见的问题。
 								## 面试题剖析
-												feat: add markdown formatter

											
										
										
											2020-05-06 20:23:11 +08:00
-												docs: update doc description, fix #4

Update doc description
Update images
Fix #4

											
										
										
											2018-12-25 16:25:04 +08:00
+								我举个例子，我们以前做过一个 mysql `binlog` 同步的系统，压力还是非常大的，日同步数据要达到上亿，就是说数据从一个 mysql 库原封不动地同步到另一个 mysql 库里面去（mysql -> mysql）。常见的一点在于说比如大数据 team，就需要同步一个 mysql 库过来，对公司的业务系统的数据做各种复杂的操作。
-												Add how-to-ensure-the-order-of-messages.md

											
										
										
											2018-10-09 23:40:46 +08:00
-												docs: update doc to fix #128

* close #128 
* thanks @hhqiwei
											
										
										
											2019-11-27 16:56:06 +08:00
+								你在 mysql 里增删改一条数据，对应出来了增删改 3 条 `binlog` 日志，接着这三条 `binlog` 发送到 MQ 里面，再消费出来依次执行，起码得保证人家是按照顺序来的吧？不然本来是：增加、修改、删除；你愣是换了顺序给执行成删除、修改、增加，不全错了么。
-												Add how-to-ensure-the-order-of-messages.md

											
										
										
											2018-10-09 23:40:46 +08:00
 								本来这个数据同步过来，应该最后这个数据被删除了；结果你搞错了这个顺序，最后这个数据保留下来了，数据同步就出错了。
 								先看看顺序会错乱的俩场景：
-												feat: add markdown formatter

											
										
										
											2020-05-06 20:23:11 +08:00
 								* **RabbitMQ**：一个 queue，多个 consumer。比如，生产者向 RabbitMQ 里发送了三条数据，顺序依次是 data1/data2/data3，压入的是 RabbitMQ 的一个内存队列。有三个消费者分别从 MQ 中消费这三条数据中的一条，结果消费者2先执行完操作，把 data2 存入数据库，然后是 data1/data3。这不明显乱了。
-												Add how-to-ensure-the-order-of-messages.md

											
										
										
											2018-10-09 23:40:46 +08:00
-												feat: update duplicate files and generate pagination

移除冗余文件，激活页面底部导航

											
										
										
											2020-04-05 16:25:25 +08:00
+								![rabbitmq-order-01](./images/rabbitmq-order-01.png)
-												Add how-to-ensure-the-order-of-messages.md

											
										
										
											2018-10-09 23:40:46 +08:00
-												feat: add markdown formatter

											
										
										
											2020-05-06 20:23:11 +08:00
+								* **Kafka**：比如说我们建了一个 topic，有三个 partition。生产者在写的时候，其实可以指定一个 key，比如说我们指定了某个订单 id 作为 key，那么这个订单相关的数据，一定会被分发到同一个 partition 中去，而且这个 partition 中的数据一定是有顺序的。<br>消费者从 partition 中取出来数据的时候，也一定是有顺序的。到这里，顺序还是 ok 的，没有错乱。接着，我们在消费者里可能会搞**多个线程来并发处理消息**。因为如果消费者是单线程消费处理，而处理比较耗时的话，比如处理一条消息耗时几十 ms，那么 1 秒钟只能处理几十条消息，这吞吐量太低了。而多个线程并发跑的话，顺序可能就乱掉了。
-												Add how-to-ensure-the-order-of-messages.md

											
										
										
											2018-10-09 23:40:46 +08:00
-												feat: update duplicate files and generate pagination

移除冗余文件，激活页面底部导航

											
										
										
											2020-04-05 16:25:25 +08:00
+								![kafka-order-01](./images/kafka-order-01.png)
-												Add how-to-ensure-the-order-of-messages.md

											
										
										
											2018-10-09 23:40:46 +08:00
 								### 解决方案
-												feat: add markdown formatter

											
										
										
											2020-05-06 20:23:11 +08:00
-												Add how-to-ensure-the-order-of-messages.md

											
										
										
											2018-10-09 23:40:46 +08:00
+								#### RabbitMQ
 								拆分多个 queue，每个 queue 一个 consumer，就是多一些 queue 而已，确实是麻烦点；或者就一个 queue 但是对应一个 consumer，然后这个 consumer 内部用内存队列做排队，然后分发给底层不同的 worker 来处理。
-												feat: add markdown formatter

											
										
										
											2020-05-06 20:23:11 +08:00
-												feat: update duplicate files and generate pagination

移除冗余文件，激活页面底部导航

											
										
										
											2020-04-05 16:25:25 +08:00
+								![rabbitmq-order-02](./images/rabbitmq-order-02.png)
-												Add how-to-ensure-the-order-of-messages.md

											
										
										
											2018-10-09 23:40:46 +08:00
-												docs: update doc description, fix #4

Update doc description
Update images
Fix #4

											
										
										
											2018-12-25 16:25:04 +08:00
+								#### Kafka
-												feat: add markdown formatter

											
										
										
											2020-05-06 20:23:11 +08:00
 								* 一个 topic，一个 partition，一个 consumer，内部单线程消费，单线程吞吐量太低，一般不会用这个。
 								* 写 N 个内存 queue，具有相同 key 的数据都到同一个内存 queue；然后对于 N 个线程，每个线程分别消费一个内存 queue 即可，这样就能保证顺序性。
-												docs: update doc description, fix #4

Update doc description
Update images
Fix #4

											
										
										
											2018-12-25 16:25:04 +08:00
-												feat: update duplicate files and generate pagination

移除冗余文件，激活页面底部导航

											
										
										
											2020-04-05 16:25:25 +08:00
+								![kafka-order-02](./images/kafka-order-02.png)