千万级流量架构优化策略

一、导读

问题：

朋友自己做的项目稳步发展，但是受市场行情影响，访问量突然增多且不断地在进行增加，在这个情况下来咨询我应该怎么做。以下是我的一个简单思路，大家不妨一块来看一下。

做法：

1、了解现状

架构、业务特点；

2、给出一个最简单有效的应急方案

目标：改造时间短、可以短期内支撑住访问压力；

现状：

架构、业务都比较简单，只有一个热点业务。

技术架构：nginx+web集群（webserver）+主从数据库（MySQL）+Redis

业务：主要是一个热点业务。

千万级流量架构优化策略

方案：

1、CDN

减少静态资源的访问压力；（自动选择离用户最近的cdn故此能够减轻服务压力并提高用户体验度）

2、业务拆分

隔离热点，独立扩容；（将并发较高的业务独立拆分，使之即便挂掉了也不影响其他服务）

3、读写分离

分散数据库压力。（提高读写效率，对于读数据库进行负载均衡）

千万级流量架构优化策略

以上只是简单的处理，后期想要长期发展自然还需要进一步的做系统改造，咱们第一步先解决现有问题。

峰值QPS=（日总PV数*80%）/（日总秒数*20%）

这个公式的概念是：一般情况下每天80%的并发量集中在20%的时间内。

（PV*0.8）/（3600*24*0.2）

PV*0.8/17280

PV=1000,0000

1000,0000*0.8/17280=463

峰值为463

假设每台服务器能够承受的并发量是100，那么我们所需的服务器是

463/100=5

所以千万级服务器我们所需的服务器大概是5台服务器就足够了，当然这只是一个大概的值。

并且峰值QPS为100还有很大的优化空间，所以千万级的流量并不像大家所想的那么可怕！

二、策略

而我们所应考虑的是什么呢？

数据访问达到千万级后，访问量的快速增加所带来的架构变化。所以我们要在战略上藐视敌人，战术上重视敌人。

架构的设计以及演进是非常系统的，我们今天就以下几个点来重点聊一聊。

核心策略：拆分、队列、缓存、降级、限流等几个核心策略。

拆分：网站架构的演进过程，怎么从单机结构演进到异地多集群的分布式架构。方便大家更好的了解拆分的思想。

队列：咱们主要看一下，如何使用队列解决分布式事务的问题。

缓存：在更新数据时，你是应该先更新数据库呢还是先更新缓存呢？

降级：降级的场景以及如何做好降级。

限流：限流算法。

2.1、拆分策略

架构演进历程：混沌状态--->各自独立--->集群化--->分布式--->多集群部署--->异地部署

混沌状态：所有东西都放在一起，目标是快速起步。

千万级流量架构优化策略

各自独立：各司其职，资源独占。

千万级流量架构优化策略

集群化：增加人手，和工作分派角色。

千万级流量架构优化策略

分布式改造：业务分布式拆分，服务组件采用分布式体系。

千万级流量架构优化策略

集群和分布式的概念：

集群：多个人干活，每个人干的活都一样。每个人都负责全流程。

分布式：任务拆分来做，一个人负责一项，流程化协同。

多集群部署：使用硬件负载均衡器做集群间的请求分派。

千万级流量架构优化策略

异地部署：在多个地区部署，使用DNS根据用户地理位置就近分派。

千万级流量架构优化策略

拆分的维度：系统维度、功能维度、读写维度等。

系统维度：例如，做电商项目中，就拆分了商品系统、购物车系统、订单系统、日志系统等。

千万级流量架构优化策略

功能维度：例如，电商平台中的优惠券系统，还可以拆分为建券系统、领券系统、用券系统。

千万级流量架构优化策略

读写维度：例如，商品系统，读的量非常大，比写多得多，那么可以拆分为商品读服务、商品写服务。

千万级流量架构优化策略

2.2、队列策略

队列的核心：异步、平缓的处理。

案例：流量削峰

什么是流量削峰：瞬间流量巨大，比如秒杀场景下，几万人购买几百件商品。

削峰的目的：让服务器请求更加平缓，保护服务器资源。

千万级流量架构优化策略

直接调用模式：多个调用者一起请求，流量大的时刻产生调用高峰，被调用者压力大，有崩溃风险。

消息队列模式：所有调用请求都去排队，即使高峰期也不会对被调用者直接产生影响。（将同步请求转化为异步请求）相当于一个水库。

案例：分布式事务解决方案

千万级流量架构优化策略

案例场景：用户成功下单后，为用户增加相应的积分。

直接调用的问题：如果积分系统故障，订单系统不知道，已经生成的订单不好处理。（积分未正常累计或订单撤销后积分也未进行扣除）

分布式事务：需要保证订单系统、积分系统的执行结果一致，都成功，或者都失败。

千万级流量架构优化策略

改进：使用消息队列，从同步调用改为异步调用，可以不关心积分系统的状态，保证最终一致性。

问题：订单系统应该先写数据库，还是先发消息？

千万级流量架构优化策略

改进：把消息写入本地数据库的消息表，与订单操作放在一个事务里面。

问题：如何把消息发到消息队列？

千万级流量架构优化策略

改进：一个定时执行的后台程序，从消息表中获取发送状态未“未发送”的消息，发送给消息队列，消息的状态为“已发送”。

问题：消息重复发送怎么办？

千万级流量架构优化策略

改进：积分系统负责保证幂等性（多次同样的调用结果一致）。

分布式事务总结：

1、上游系统要保证消息不丢，是通过本地消息表和后台定时程序来实现的；

2、下游系统要保证消息不重复处理，也就是保证幂等性，可以通过判重表来实现。

适用场景：分布式事务的提交或回滚只取决于事务发起方，也就是无需回滚。

消息队列中还有很多模式来处理问题，之后我们再慢慢了解哦！

2.3、缓存策略

千万级流量架构优化策略

缓存类型：

客户端（浏览器、APP客户端）：适用于对实时性不敏感的数据，商品详情、评价、广告等。

网络（CDN）：网站静态资源的缓存，提高对用户的响应。（按流量收费，比较耗钱）。

接入层（nginx代理缓存）、应用层（Redis）。

Cache Aside与Read Write Through策略

Cache Aside策略：

先更新缓存还是数据库？

假设先更新数据库：

千万级流量架构优化策略

假设先更新缓存：

千万级流量架构优化策略

都会产生数据不一致。

Cache Aside策略：更新数据时不更新缓存，删除缓存中的数据。读取数据时，如果缓存中没有数据，从数据库中读取，更新到缓存中。

Cache Aside读写流程：

千万级流量架构优化策略

在上面的场景下是否可以先删除缓存？不可以！！！——读写不一致。

千万级流量架构优化策略

Read Write Through策略

核心：用户只与缓存打交道，由缓存和数据库通信，写入或读取数据。注意，这里有一个关键角色，就是“缓存组件，感觉有点像仓库管理员。

Read Write Through读写流程：

千万级流量架构优化策略

各自都有自己的弊端，所以我们要根据项目中的实际情况来进行。

缓存雪崩与缓存穿透解决方案

雪崩：大量数据同时失效，数据库压力过大。

千万级流量架构优化策略

解决方案：

为有效期增加随机值；

使用高可用分布式缓存；

热点数据永远不过期；

在缓存失效后，通过加锁或者队列来控制读数据库的线程数量。

缓存穿透：缓存中没有，需要访问数据库，这就是缓存穿透了。穿透后需要查询DB，量大的话就会压垮数据库。

千万级流量架构优化策略

解决方案：

缓存空值；

布隆过滤器。

缓存空值处理场景：正常请求不存在的数据，可能其他请求也会读取这个数据，为防止多次无效访问数据库，我们可以把这个空值也缓存will，用户下次再请求时，就直接返回空。

千万级流量架构优化策略

布隆过滤器处理场景：大量恶意请求不存在的数据，即使缓存空值也无效，大量请求读取数据库，需要使用布隆过滤器，帮助我们在不查数据库的情况下就知道此ID是否存在，把恶意请求直接过滤掉。

千万级流量架构优化策略

什么是布隆过滤器？

是由一个二进制数组和一个hash算法组成。建议大家具体了解一下，咱们这里就不赘述了。

千万级流量架构优化策略

如何使用布隆过滤器来解决缓存穿透的问题？

1、写入数据时，更新布隆过滤器；

2、查数据时，先查询布隆过滤器是否存在，如果不存在就直接返回空，如果存在，再去查询数据库。

千万级流量架构优化策略

布隆过滤器优点：除了能够解决以上问题外，还比较节省空间。

布隆过滤器缺点：

1、由于hash冲突，存在误判。例如hash(张三)=4，hash(李四)=4。那么可以使用多个hash函数一起计算提高精度。

千万级流量架构优化策略

2、不能删除。可以使用int数组计算。

千万级流量架构优化策略

2.4降级策略

降级的应用场景

功能降级

电商平台很普遍的推荐功能，可以提升销量，但不是购物的核心流程。

在系统压力大的时候，可以降级改为默认内容。

写服务降级

在较大数据量时，不更新数据库只更新缓存，把要写的数据放到消息队列，流量高峰过了以后，把消息队列里的数据回放到数据库。

千万级流量架构优化策略

降级的定义：整体负载、流量>阈值，为了保证重要的服务能正常运行：

1、拒绝部分请求；

2、延迟或暂停一些不重要的服务、任务。

降级的作用：

降级是系统保护的重要手段，保证系统的高可用。

简单理解，降级就是丢车保帅，保证系统核心功能的正常。

降级的实现方式

手动降级：使用开关配置，对系统中可降级的服务都设置好开关项。

就像一个总闸，可以预先把非核心的功能关闭，也可以在监控系统发现问题时人工介入。

配置文件实现开关配置：适用于系统部署结构简单的场景。系统自动监控配置文件的变化，配置文件变化后自动重新载入。

千万级流量架构优化策略

配置中心实现开关配置：适用于分布式系统，有统一配置中心，服务开关在配置中心定义。在配置中心界面修改相应参数，自动通知相应服务。实现技术有：zookeeper、Redis、consul、etcd等。

千万级流量架构优化策略

自动降级：超时降级（对于非核心服务，如果长时间响应慢，就可以自动降级）、限流降级（当触发了限流阈值时，可以使用暂时屏蔽的方式来进行降级）、统计失败次数降级（在一个时间段内，调用失败率超出阈值，自动降级）。当程序遇到这些情况的时候自动进行降级处理。

降级后的处理方案：使用默认值、兜底数据、缓存数据、排队页面、无货通知、错误页面等。

2.5限流策略

限流的应用场景

为什么要限流？

热门的旅游景点、地铁都会限制人流量，防止超出其接待能力。

对于系统，在应对高性能压力的场景时，限流已经成为了标配技术解决方案，保证了系统的平稳运行。

限流就是对请求进行限制，例如某一接口的请求限制为100个每秒，对超过限制的请求则不处理。

保护系统的手段：

缓存：提升系统的访问速度，增大系统处理能力；

降级：暂时屏蔽，过后打开；

限流：对稀缺资源限制请求量，限速、拒绝服务。

限流的常用算法

固定时间窗口算法：对每个时间窗口内的请求进行计数，如果计数器超过了限制数量，则本窗口内后续的请求都会被丢弃。当时间到达下一个窗口时，计数器重置。（但是无法应对两个窗口间的突发流量）

千万级流量架构优化策略

滑动时间窗口算法：记录在时间窗口内每个接口请求到达的时间点，判断当前时间窗口内的接口请求数是否小于限流值。

千万级流量架构优化策略

令牌桶算法：令牌以固定速率生成，如果令牌桶满了则多余的令牌会直接丢弃。当请求到达时，会尝试从令牌桶中提取令牌，取到令牌的请求可以执行。如果桶空了，那么尝试取令牌的请求会被直接丢弃。

千万级流量架构优化策略

漏桶算法：漏桶容量固定，按照固定的速率流出请求，可以任意速率流入请求。如果流入过快，会溢出，对其请求

千万级流量架构优化策略

限流形式

1、单机限流，每个应用实例自己本机实现限流；

2、分布式限流，一个应用集群统一做限流。

千万级流量架构优化策略

以上，大致是千万级流量的优化措施，当然方法还有很多，之后根据大家需要咱们慢慢来看。

千万级流量架构优化策略

一、导读

二、策略

2.1、拆分策略

2.2、队列策略

2.3、缓存策略

2.4降级策略

2.5限流策略

相关推荐