关于《损失模型》的一点笔记——第二部分精算模型-1随机变量与分布函数

一般的精算模型尝试表现出未来不确定的支付流,不确定性包括事件是否会发生、发生的时间以及损失量。

一些概念:
1. 现象是指可以观测到的发生。
2. 试验是指在一定条件下对某给定现象的一个观测。
3. 一次试验的最终观测称为结果。
4. 事件是一个或多个结果的集合。
5. 随机现象是指试验可能会有一个以上的结果。
6. 具有随机现象的事件称为不确定结果。
7. 概率是对一个事件的结果发生可能性的度量,这个度量经过标准化处理,从0增加到1的数值表示。
8. 随机变量是一个函数,它对每一个可能结果赋予一个数值。

分布函数和4个模型

某随机变量X的累积分布函数F(x)满足以下四个必要条件
1.对所有x,0≤F(x)≤1。
2.F(x)是非降的。
3.F(x)是右连续的。
4. limxF(x)=0 limx+F(x)=1

基于此的4个模型大概长这个样子(灵魂画作)
关于《损失模型》的一点笔记——第二部分精算模型-1随机变量与分布函数

第一行左边是典型的 F(x)=ax+b,具体约束参照四个必要条件,abmn均为正数,不详细说了。
第一行右边是 F(x)=1b/xa
第二行左边是 F(x)={0x0m0x<anaxb1xb
第二行右边是 F(x)={0x01beaxx0,那个圈是画错的,无视就好了。(其实我是想画0和函数的值是区分的,手抖画错了2333)

以上4个模型就是常用的分布函数,前两个是连续分布,第三个是离散分布,第四个是混合分布。
从我个人的角度理解,分布函数常常用于描述事物本身。

生存函数

生存函数是分布函数的“补函数”,记为S(x)。S(x)=1-F(x),故而
1.对所有x,0≤S(x)≤1。
2.S(x)是不增的。
3.F(x)是右连续的。
4. limxS(x)=1 limx+S(x)=0

概率密度函数

概率密度函数f(x),简称为密度函数,它表示分布函数的导数或者生存函数导数的负值,即f(x)=F’(x)=-S’(x),有时缩写为pdf。
随机变量在密度函数比较高的区域,发生的可能性将高于比较低的区域。

概率函数

概率函数p(x),也称为概率质点函数,表示随机变量在概率值为非零点的概率。一般用在离散型分布函数或者混合型分布函数。

风险率

风险率h(x),也称作死亡力(也写作μ(x))或者失效率(也写作λ(x)),表示密度函数与生存函数的比值,即h(x)=f(x)/S(x)
所以,先前的4个模型变成了这个样子
关于《损失模型》的一点笔记——第二部分精算模型-1随机变量与分布函数

众数

众数是指最有可能发生的值,对于离散型则是概率函数最大的点,对于连续型则是密度函数最大值的点。

随机变量X的k阶原点矩,为随机变量k次幂的期望(平均)值(如果它存在的话)。用E(X^k)。一阶原点矩为随机变量的均值,通常记为μ。
μx={xkf(x)dxjxjkp(xj)

一个特殊的离散分布模型——经验分布模型

经验分布模型是基于一个样本量为n,并对每个数据点赋予概率1/n的离散分布模型。
模型中的均值等于算数平均值。

中心矩、变异系数、偏度与峰度

随机变量的k阶中心矩为该变量与其均值的偏差的k次幂的期望值,一般表示为E[(X-μ)^k]或μ_k。
通常称呼二阶中心矩为方差σ2,它的平方根叫做标准差σ。
标准差与均值的比值称作变异系数。
三阶中心矩与标准差立方的比值称为偏度,τ1=μ3/σ3,也称作偏度系数。
四阶中心矩与标准差的四次方的比值称为峰度,τ2=μ4/σ4,也称作峰度系数。

中心距计算公式:

μk=E[(Xμ)k]={(xμ)kf(x)dxj(xjμ)kp(xj)

标准差是对随机变量可能值的分散程度的一个度量。
变异系数是衡量标准差相对于均值的分散程度。
偏度是关于对称性的一种度量,完全对称的分布偏度为0,偏度为正表示概率相同时与左边的值相比,右边的值距离均值更远。
峰度度量了相对于正态分布的平坦程度(正态分布峰值为3),在标准差相同时,峰度大于3的分布相对于正态分布在远离均值点的概率更大。
原点矩与中心矩与均值的关系:

μ2=μ2μ2

矩若不存在意味着积分或者求和式的极限是正无穷。

超额损失函数

对于随机变量X与定值d,则定义超额损失变量Y=X-d。若X>d,则该变量的期望e(d)=E(Y)=E(X-d|X>d),称为平均超损函数。
这个函数也称作左截断平移变量,主要是把d以下的观测全部丢弃了。这个函数主要用于计算免赔额。
超额损失变量,把d以下的观测全部改为0,就称为左删失。

超额损失函数的余函数
定义限额损失变量Y=XΛu{XX<uuXu,这个变量称为右删失变量,它的数学期望值E[XΛu]称为限额期望值。

一般而言,购买了一份最大赔付额为d的保单同时,购买了免赔额为d的保单,相当于购买了全额保险。

分位数

书里写的太复杂了,简单来说,分位数函数就是分布函数的逆函数,而分位数就是所对应的那个值。
简单理解,以前你看的是x轴的数字找y,现在是看y轴数字找x,就这么简单。
50%分位数(也称作中位数)就找0.5,80%分位数就找0.8,简单粗暴。k

生成函数与随机变量的和

如果随机变量相互独立且前两阶符合一定条件,则limk[SkE(Sk)]/Var(Sk) 服从均值为0,方差为1的正态分布
矩母函数mgf,为随机变量X的关于t的函数,MX(t)=E(etX),只当期望存在时才有定义,一般用于连续随机变量。
概率生成函数pgf,为如下关于z的函数,PX(z)=E(zX),只当期望存在时才有意义,一般用于离散随机变量。

MSk(t)=j=1kMXj(t)

PSk(z)=j=1kPXj(z)

表明乘积是累增的。

参数的作用

※多少参数刻画一个适用的模型?
一个简单模型至少具备以下特点:
1.用较少参数确定模型,确定每个参数的精度应非常高。
2.模型对环境及时间稳定。
3.由于数据的不规则性,需要进行光滑处理。
一个复杂模型至少具备以下特点:
1.当必须用较多参数确定的模型,可尽量与现实吻合。
2.当必须用较多参数确定的模型,能尽量匹配数据的不规则性。
统计建模追求可以充分反应现实情况的最简单模型。

参数分布和尺度分布

参数分布是由分布函数构成的集合,其中每个函数由一个或多个特征值确定,这些值称作参数。参数的个数是固定且有限的。
比如正态分布,参数是µ和σ2
满足一个分布集合中任何一个分布的随机变量,在经过正实数乘数变换后所生成的随机变量还属于该分布的集合,被称作尺度分布。

参数分布族

参数分布族是指由某些参数分布组成的集合,这些分布之间存在某种关联关系。

有限混合分布

k元混合分布,如果其积累函数可以表示为 FY(y)=a1Fx1(y)+a2Fx2(y)++akFxk(y),其中对所有的j有aj>0,且a1+a2++ak=1成立。

一般混合分布(半参数模型)

一般混合分布(变元数不确定)的分布函数形式如下

F(x)=Σj=1KajFj(x),Σj=1Kaj=1,aj>0j=1,2,K,K=1,2,

这种模型被称为半参数的。(简单的理解,就是有的参数你是已知的,有的参数你是未知的,未知越多越复杂的一种分布模式)

数据依赖型分布

数据依赖型分布是其复杂程度至少不低于其提供的信息源或数据,并且“参数”的个数随其源信息数据增加而增加。
比如经验分布函数就是对1/n个取值,进行的n个观测,参数数量就是n。(简单理解,有一个常量可以代表某一些数据,那么这个常量就可以看做一个参数,函数即由这些参数组成的。)

厚尾

对于一个随机变量,如果任意的正数阶原点矩存在,那么说明分布的尾部很轻,如gamma分布。而正数阶矩存在最高阶数(或不存在正数阶矩),如Pareto分布,则说明分布的尾部很厚。

极限比

尾部厚度的比较可以通过计算两个生存函数的比值,在趋近于无限时的收敛性(厚的做分子),若比值收敛,则表示分子的分布函数在数值较大出有更大的概率。

损失率和平均剩余生命函数

损失率函数(风险率函数)是递减的,则在较低数值的概率变小,而较高数值的概率变大,因此尾部较厚。
若损失率函数是递减的,那么平均剩余生命函数是递增的。但反过来不一定成立。

新分布函数构造方法

倍数变换:如用于通胀因素下,将标度进行变换。
幂变换:用逆变换的时候比较多一些。常用的是韦伯分布、伽马分布等。
指数变换:对数正态分布的应用。
混合:这是针对无限多个随机变量的一般解决办法。

含瑕点的风险率模型:
在混合分布中,对随机变量Λ>0,并定义X的条件损失率(Λ=λ)为 hX|Λ(x|λ)=λa(x), a(x)是x的一个已知函数。含瑕点是指用一个随机风险变量对损失率函数进行量化(是对用常数表达任意值的复杂化表达)。
X|Λ的条件生存函数为SX|Λ(x|λ)=eλA(x)
其中A(x)=0xa(t)dt。定义随机变量Λ的矩生成函数为MΛ(t)=E(etΛ),则边缘生存函数为SX(x)=MΛ[A(x)]
各类型混合决定a(x)和A(x)的选择。重要的子类:混合指数分布(a(x)=1A(x)=x),韦伯分布a(x)=γxr1A(x)=xγ
最常用的是伽马含瑕点风险率模型,其他如逆高斯含瑕点风险率模型也很常用。

常用分布的关系

关于《损失模型》的一点笔记——第二部分精算模型-1随机变量与分布函数

离散分布

概率函数:pk表示恰巧发生k次事件的概率,离散随机变量N的概率生成函数P(z)=k=0pkzk
泊松分布:泊松分布概率函数为pk=eλλkk!,概率生成函数为 P(z)=eλ(z1),λ>0。其均值与方差相等。
如果一个随时间变化的索赔模型符合泊松分布,这个索赔可以随某些值可以分为N种类型,则超过某个定值的索赔个数依旧符合泊松分布。