Varnish代理缓存详解

Varnish理论知识

一、Varnish 简介

Varnish 是一款高性能且开源的反向代理服务器和 HTTP 加速器，其采用全新的软件体系机构，和现在的硬件体系紧密配合，与传统的 squid 相比，varnish 具有性能更高、速度更快、管理更加方便等诸多优点，很多大型的网站都开始尝试使用 varnish 来替换 squid，这些都促进 varnish 迅速发展起来。

挪威的最大的在线报纸 Verdens Gang(vg.no) 使用 3 台 Varnish 代替了原来的 12 台 Squid，性能比以前更好，这是 Varnish 最成功的应用案例。目前，Varnish可以在FreeBSD6.0/7.0、solaris、 Linux2.6内核上运行。

二、Varnish与Squid的对比

下面是Varnish与Squid之间的相同点。

都是一个反向代理服务器。

都是开源软件。

下面是它们的不同点，也是Varnish的优点。

Varnish的稳定性很高。两者在完成相同负荷的工作时，Squid服务器发生故障的几率要高于Varnish，因为Squid需要经常重启。

Varnish访问速度更快。Varnish采用了“Visual Page Cache”技术，所有缓存数据都直接从内存读取，而Squid是从硬盘读取缓存数据，因此Varnish在访问速度方面会更快。

Varnish可以支持更多的并发连接。因为Varnish的TCP连接释放要比Squid快，所以在高并发连接情况下可以支持更多的TCP连接。

Varnish可以通过管理端口，使用正则表达式批量清除部分缓存，而Squid做不到。

当然，与传统的Squid相比，Varnish也有缺点。

Varnish在高并发状态下CPU、I/O和内存等资源开销都高于Squid。

Varnish进程一旦挂起、崩溃或者重启，缓存数据都会从内存中完全释放，此时所有请求都会被发送到后端服务器，在高并发情况下，这会给后端服务器造成很大压力。

三、VCL简介

Varnish Configuration Language (VCL)是varnish配置缓存策略的工具，它是一种基于“域”(domain specific)的简单编程语言，它支持有限的算术运算和逻辑运算操作、允许使用正则表达式进行字符串匹配、允许用户使用set自定义变量、支持if判断语句，也有内置的函数和变量等。使用VCL编写的缓存策略通常保存至.vcl文件中，其需要编译成二进制的格式后才能由varnish调用。事实上，整个缓存策略就是由几个特定的子例程如vcl_recv、vcl_fetch等组成，它们分别在不同的位置(或时间)执行，如果没有事先为某个位置自定义子例程，varnish将会执行默认的定义。

VCL策略在启用前，会由management进程将其转换为C代码，而后再由gcc编译器将C代码编译成二进制程序。编译完成后，management负责将其连接至varnish实例，即child进程。正是由于编译工作在child进程之外完成，它避免了装载错误格式VCL的风险。因此，varnish修改配置的开销非常小，其可以同时保有几份尚在引用的旧版本配置，也能够让新的配置即刻生效。编译后的旧版本配置通常在varnish重启时才会被丢弃，如果需要手动清理，则可以使用varnishadm的vcl.discard命令完成。

四、VCL内置函数

（1）vcl_recv函数

用于接收和处理请求，当请求到达并成功接收后被调用，通过判断请求的数据来决定如何处理请求。

此函数一般以如下几个关键字结束：

pass：表示进入pass模式，把请求控制权交给vcl_pass函数。

pipe：表示进入pipe模式，把请求控制权交给vcl_pipe函数。

error code [reason]：表示返回“code”给客户端，并放弃处理该请求，“code”是错误标识，例如200、405等，“reason”是错误提示信息。

（2）vcl_pipe函数

此函数在进入pipe模式时被调用，用于将请求直接传递至后端主机，在请求和返回的内容没有改变的情况下，将不变的内容返回给客户端，直到这个链接关闭。

此函数一般以如下几个关键字结束：

error code [reason]

pipe：表示进入pipe模式，把请求控制权交给vcl_pipe函数。

（3）vcl_hit函数

在执行lookup指令后，如果在缓存中找到请求的内容，将自动调用该函数。

此函数一般以如下几个关键字结束：

deliver：表示将找到的内容发送给客户端，并把控制权交给函数vcl_deliver。

error code [reason]

pass

（4）vcl_miss函数

在执行lookup指令后，如果没有在缓存中找到请求的内容时自动调用该方法，此函数可以用于判断是否需要从后端服务器取内容。

此函数一般以如下几个关键字结束：

fetch：表示从后端获取请求的内容，并把控制权交给vcl_fetch函数。

error code [reason]

pass

（5）vcl_pass函数

此函数在进入pass模式时被调用，用于将请求直接传递至后端主机，后端主机应答数据后送给客户端，但不进行任何缓存，在当前连接下每次都返回最新的内容。

此函数一般以如下几个关键字结束：

error code [reason]

pass

lookup ：表示在缓存里查找被请求的对象，并且根据查找的结果把控制权交给函数vcl_hit或者函数vcl_miss。

（6）vcl_fetch函数

在从后端主机更新缓存并且获取内容后调用该方法，接着，通过判断获取的内容来决定是否将内容放入缓存，还是直接返回给客户端。

此函数一般以如下几个关键字结束：

error code [reason]

pass

deliver

（7）vcl_deliver函数

在缓存中找到请求的内容后，发送给客户端前调用此方法。此函数一般以如下几个关键字结束：

error code [reason]

deliver

（8）vcl_timeout 函数

此函数在缓存内容到期前调用。一般以如下几个关键字结束：

discard：表示从缓存中清除该内容。

fetch

（9）vcl_discard函数

在缓存内容到期后或缓存空间不够时，自动调用该方法，一般以如下几个关键字结束：

keep：表示将内容继续保留在缓存中。

discard

看到这么多的函数是不是有点头晕呢。。。其实它们彼此之间是有关系的，下面我们看一下它们的流程图。。

五、VCL处理流程图

处理过程大致分为如下几个步骤：

（1） Receive状态，也就是请求处理的入口状态，根据VCL规则判断该请求应该是Pass或Pipe，或者进入Lookup（本地查询）。

（2） Lookup状态，进入此状态后，会在hash表中查找数据，若找到，则进入Hit状态，否则进入miss状态。

（3） Pass状态，在此状态下，会进入后端请求，即进入fetch状态，在此状态下不进行任何缓存

（4） Fetch状态，在Fetch状态下，对请求进行后端的获取，发送请求，获得数据，更具VCL规则判断请求应该是 deliver还是pass。

（5） Deliver状态，将获取到的数据发送给客户端，然后完成本次请求。

六、内置公用变量

VCL内置的公用变量可以用在不同的VCL函数中，根据这些公用变量使用的不同阶段，下面依次介绍。

当请求到达后，可以使用的公用变量如表2所示：

表2

公用变量名称含义

req.backend 指定对应的后端主机

server.ip 表示服务器端IP

client.ip 表示客户端IP

req.request 指定请求的类型，例如GET、HEAD、POST等

req.url 指定请求的地址

req.proto 表示客户端发起请求的HTTP协议版本

req.http.header 表示对应请求中的http头部信息

req. restarts 表示请求重启的次数，默认最大值为4

Varnish 在向后端主机请求时，可以使用的公用变量如表3所示：

表3

公用变量名称含义

beresp.request 指定请求的类型，例如GET、HEAD等

beresp.url 指定请求的地址

beresp.proto 表示客户端发起请求的HTTP协议版本

beresp.http.header 表示对应请求中的http头部信息

beresp.ttl 表示缓存的生存周期，也就是cache保留多长时间，单位是秒

从cache或者后端主机获取内容后，可以使用的公用变量如表4所示：

表4

公用变量名称含义

obj.status 表示返回内容的请求状态代码，例如200、302、504等

obj.cacheable 表示返回的内容是否可以缓存，也就是说，如果HTTP返回是200、203、300、301、302、404、 410等，并且有非0的生存期，则可以缓存

obj.valid 表示是否是有效的HTTP应答

obj.response 表示返回内容的请求状态信息

obj.proto 表示返回内容的HTTP协议版本

obj.ttl 表示返回内容的生存周期，也就是缓存时间，单位是秒

obj.lastuse 表示返回上一次请求到现在的间隔时间，单位是秒

对客户端应答时，可以使用的公用变量如表5所示：

表5

公用变量名称含义

resp.status 表示返回给客户端的HTTP状态代码

resp.proto 表示返回给客户端的HTTP协议版本

resp.http.header 表示返回给客户端的HTTP头部信息

resp.response 表示返回给客户端的HTTP状态信息

以上变量只是varnish的常用变量，如需更多变量请访问Varnish官网

七、varnish的后端存储

varnish支持多种不同类型的后端存储，这可以在varnishd启动时使用-s选项指定。后端存储的类型包括：

(1)file：使用特定的文件存储全部的缓存数据，并通过操作系统的mmap()系统调用将整个缓存文件映射至内存区域(如果条件允许)；

(2)malloc：使用malloc()库调用在varnish启动时向操作系统申请指定大小的内存空间以存储缓存对象；

(3)persistent(experimental)：与file的功能相同，但可以持久存储数据(即重启varnish数据时不会被清除)；仍处于测试期；

varnish无法追踪某缓存对象是否存入了缓存文件，从而也就无从得知磁盘上的缓存文件是否可用，因此，file存储方法在varnish停止或重启时会清除数据。而persistent方法的出现对此有了一个弥补，但persistent仍处于测试阶段，例如目前尚无法有效处理要缓存对象总体大小超出缓存空间的情况，所以，其仅适用于有着巨大缓存空间的场景。

选择使用合适的存储方式有助于提升系统性，从经验的角度来看，建议在内存空间足以存储所有的缓存对象时使用malloc的方法，反之，file存储将有着更好的性能的表现。然而，需要注意的是，varnishd实际上使用的空间比使用-s选项指定的缓存空间更大，一般说来，其需要为每个缓存对象多使用差不多1K左右的存储空间，这意味着，对于100万个缓存对象的场景来说，其使用的缓存空间将超出指定大小1G左右。另外，为了保存数据结构等，varnish自身也会占去不小的内存空间。

为varnishd指定使用的缓存类型时，-s选项可接受的参数格式如下：

malloc[,size] 或

file[,path[,size[,granularity]]] 或

persistent,path,size {experimental}

file中的granularity用于设定缓存空间分配单位，默认单位是字节，所有其它的大小都会被圆整。

八、Varnish支持的算法

Varnish的director支持的挑选方法中比较简单的有round-robin和random两种。其中，round-robin类型没有任何参数，只需要为其指定各后端主机即可，挑选方式为“轮叫”，并在某后端主机故障时不再将其视作挑选对象；random方法随机从可用后端主机中进行挑选，每一个后端主机都需要一个.weight参数以指定其权重，同时还可以director级别使用.retires参数来设定查找一个健康后端主机时的尝试次数。

Varnish 2.1.0后，random挑选方法又多了两种变化形式client和hash。client类型的director使用client.identity作为挑选因子，这意味着client.identity相同的请求都将被发送至同一个后端主机。client.identity默认为cliet.ip，但也可以在VCL中将其修改为所需要的标识符。类似地，hash类型的director使用hash数据作为挑选因子，这意味着对同一个URL的请求将被发往同一个后端主机，其常用于多级缓存的场景中。然而，无论是client还hash，当其倾向于使用后端主机不可用时将会重新挑选新的后端其机。

转载于:https://my.oschina.net/jean/blog/189910

Varnish代理缓存详解

一、Varnish 简介

二、Varnish与Squid的对比

三、VCL简介

四、VCL内置函数

五、VCL处理流程图

六、内置公用变量

七、varnish的后端存储

八、Varnish支持的算法

相关推荐