《大型网站系统与java中间件实践》读书笔记
As always,福利置顶,pdf下载链接:http://pan.baidu.com/s/1boE2xBp 密码:iu6o
书籍还算不错,把分布式系统各种可能的问题都细致地分析一遍,并给出几种解决方法和最佳的方案,这一点值得肯定。分布式系统最怕的问题就是一致性问题,很多章节都是围绕这个问题去阐述的,给出各种环节/节点可能出现不一致的原因,并给出解决方法。
第1章 分布式系统介绍
初识分布式系统
- 分布式系统的定义:A distributed system is one in which Components located at networked computers communicate and coordinate their actions only by passing messages.
- 分布式系统的意义
分布式系统出现的原因:升级单机处理能力的性价比越来越低;单机处理能力存在瓶颈;处于稳定性和可用性的考虑。
分布式系统的基础知识
- 组成计算机的要素:输入,输出,运算器,控制器和存储器;
- 线程与进程的执行模式:阿姆达尔定律;互不通信的多线程模式,基于共享容器协同的多线程模式,通过事件协同的多线程模式,多进程模式;
- 网络通信基础知识:OSI七层模型,TCP/IP模型;网络IO实现方式,BIO阻塞,NIO,基于事件驱动思想,Reactor模式,AIO异步IO,Proactor模式
- 如何把应用从单机扩展到分布式:5要素的变化
- 分布式系统的难点
第2章 大型网站及其架构演进过程
什么是大型网站:
海量数据、高并发访问量、本身业务的系统的复杂度;
大型网站的架构演进
- 用Java技术和单机来构建的网站
- 从一个单机的交易网站说起
- 单机负载告警,数据库与应用分离
- 应用服务器负载告警,如何让应用服务器走向集群
- 数据读压力变大,读写分离吧
- 弥补关系型数据库的不足,引入分布式存储系统(分布式文件系统、分布式KV系统和分布式数据库)
- 读写分离后,数据库又遇到瓶颈:垂直拆分和水平拆分;读写分离解决读压力大的问题,水平拆分解决数据量大或者更新量大的问题;垂直拆分带来的问题:原来单机中跨业务的事务,解决方法:1. 使用分布式事务,性能下降;2. 去掉事务或者不追求强事务支持;水平拆分带来的问题:SQL路由、主键处理、多个数据库源取数据,分页排序处理;
- 数据库问题解决后,应用面对的新挑战
- 初识消息中间件
增加应用服务器后需要解决的问题:
终端用户对多个应用服务器访问的选择问题;解决方法:DNS、负载均衡
Session问题;解决方法:Session sticky,Session replication,Session数据集中存储(引入网络操作),cookie based(问题:cookie长度限制、安全性、带宽消耗、性能影响,不推荐);
读写分离带来的问题:数据复制、应用对数据源的选择问题;
搜索引擎实际上是一个读库,构建搜索用的索引就是一个数据复制的过程。搜索系统构建索引的两个维度:全量/增量;实时/非实时;实时构建索引对数据源服务器有性能影响;
缓存:数据缓存和页面缓存;Apache ESI模块;
第3章 构建Java中间件
Java中间件的定义
构建Java中间件的基础知识
- 跨平台的Java运行环境——JVM
- 垃圾回收与内存堆布局
- Java并发编程的类、接口和方法
- 动态代理
- 反射
- 网络通信实现选择
Java并发编程的类、接口和方法
线程池、synchronized、ReentrantLock(公平锁和非公平锁,公平锁的好处是等待锁的线程不会饿死)、volatile、Atomics、wait/notify/notifyAll(对这个三个方法的调用都必须是在对象的synchronized块中)、CountDownLatch、CyclicBarrier、Semaphore、Exchanger、Future/FutureTask、并发容器(copyOnWrite & Concurrent);
分布式系统中的Java中间件
第4章 服务框架
网站功能持续丰富后的困境与应对
服务框架的设计与实现
- 应用从集中式走向分布式所遇到的问题
- 透过示例看服务框架原型
- 服务调用端的设计与实现
- 服务提供端的设计与实现
- 服务升级
实战中的优化
为服务化护航的服务治理
服务框架与ESB的对比
总结
第5章 数据访问层
数据库从单机到分布式的挑战和应对
- 从应用使用单机数据库开始
- 数据库垂直/水平拆分的困难
- 单机变为多机后,事务如何处理
- 多机的Sequence问题与处理
- 应对多机的数据查询
数据访问层的设计与实现
- 如何对外提供数据访问层的功能
- 按照数据层流程的顺序看数据层设计
- 独立部署的数据访问层实现方式
- 读写分离的挑战和应对
第6章 消息中间件
消息中间件的价值
- 消息中间件的定义
- 透过示例看消息中间件对应用的解耦
通过服务调用让其他系统感知事件发生的方式
通过引入消息中间件解耦服务调用
互联网时代的消息中间件
- 如何解决消息发送一致性
- 如何解决消息中间件与使用者的强依赖问题
- 消息模型对消息接收的影响
- 消息订阅者订阅消息的方式
- 保证消息可靠性的做法
- 订阅者视角的消息重复的产生和应对
- 消息投递的其他属性支持
- 保证顺序的消息队列的设计
- Push和Pull方式的对比
消息中间件的核心特点功能:应用之间的解耦以及操作的异步,其实是:消息的顺序保证、扩展性、可靠性、业务操作与消息发送一致性,以 及多集群订阅者等;
第7章 软负载中心与集中配置管理
初识软负载中心
两个最基础的职责:聚合地址信息;生命周期感知;
软负载中心的结构
两部分:服务端和客户端;
内部三类重要数据:聚合数据,订阅关系,连接信息;
内容聚合功能的设计
主要工作:保证数据正确性,高效聚合数据;
注意问题:并发下的数据正确性保证;数据更新、删除的顺序保证;大量数据同时插入/更新时的性能保证;
解决服务上下线的感知
软负载中心的数据分发的特点和设计
- 数据分发与消息订阅的区别
- 提升数据分发性能需要注意的问题
针对服务化的特性支持
- 软负载数据分组
- 提供自动感知以外的上下线开关
- 维护管理路由规则
从单机到集群
- 数据统一管理方案
- 数据对等管理方案
集中配置管理中心
- 客户端实现和容灾策略
- 服务端实现和容灾策略
- 数据库策略
第8章 构建大型网站的其他要素
- 加速静态内容访问速度的CDN
- 大型网站的存储支持
- 分布式文件系统
- NoSQL
- 缓存系统
- 搜索系统
- 爬虫问题
- 倒排索引
- 查询预处理
- 相关度计算
- 数据计算支撑
- 发布系统
- 应用监控系统
- 依赖管理系统
- 多机房问题分析
- 系统容量规划
- 内部私有云
引入CDN后浏览器访问网站的流程