关于《损失模型》的一点笔记——第二部分精算模型-1随机变量与分布函数
一般的精算模型尝试表现出未来不确定的支付流,不确定性包括事件是否会发生、发生的时间以及损失量。
一些概念:
1. 现象是指可以观测到的发生。
2. 试验是指在一定条件下对某给定现象的一个观测。
3. 一次试验的最终观测称为结果。
4. 事件是一个或多个结果的集合。
5. 随机现象是指试验可能会有一个以上的结果。
6. 具有随机现象的事件称为不确定结果。
7. 概率是对一个事件的结果发生可能性的度量,这个度量经过标准化处理,从0增加到1的数值表示。
8. 随机变量是一个函数,它对每一个可能结果赋予一个数值。
分布函数和4个模型
某随机变量X的累积分布函数F(x)满足以下四个必要条件
1.对所有x,0≤F(x)≤1。
2.F(x)是非降的。
3.F(x)是右连续的。
4.且
基于此的4个模型大概长这个样子(灵魂画作)
第一行左边是典型的,具体约束参照四个必要条件,abmn均为正数,不详细说了。
第一行右边是
第二行左边是
第二行右边是,那个圈是画错的,无视就好了。(其实我是想画0和函数的值是区分的,手抖画错了2333)
以上4个模型就是常用的分布函数,前两个是连续分布,第三个是离散分布,第四个是混合分布。
从我个人的角度理解,分布函数常常用于描述事物本身。
生存函数
生存函数是分布函数的“补函数”,记为S(x)。S(x)=1-F(x),故而
1.对所有x,0≤S(x)≤1。
2.S(x)是不增的。
3.F(x)是右连续的。
4.且
概率密度函数
概率密度函数f(x),简称为密度函数,它表示分布函数的导数或者生存函数导数的负值,即f(x)=F’(x)=-S’(x),有时缩写为pdf。
随机变量在密度函数比较高的区域,发生的可能性将高于比较低的区域。
概率函数
概率函数p(x),也称为概率质点函数,表示随机变量在概率值为非零点的概率。一般用在离散型分布函数或者混合型分布函数。
风险率
风险率h(x),也称作死亡力(也写作μ(x))或者失效率(也写作λ(x)),表示密度函数与生存函数的比值,即h(x)=f(x)/S(x)
所以,先前的4个模型变成了这个样子
众数
众数是指最有可能发生的值,对于离散型则是概率函数最大的点,对于连续型则是密度函数最大值的点。
矩
随机变量X的k阶原点矩,为随机变量k次幂的期望(平均)值(如果它存在的话)。用E(X^k)。一阶原点矩为随机变量的均值,通常记为μ。
一个特殊的离散分布模型——经验分布模型
经验分布模型是基于一个样本量为n,并对每个数据点赋予概率1/n的离散分布模型。
模型中的均值等于算数平均值。
中心矩、变异系数、偏度与峰度
随机变量的k阶中心矩为该变量与其均值的偏差的k次幂的期望值,一般表示为E[(X-μ)^k]或μ_k。
通常称呼二阶中心矩为方差,它的平方根叫做标准差σ。
标准差与均值的比值称作变异系数。
三阶中心矩与标准差立方的比值称为偏度,,也称作偏度系数。
四阶中心矩与标准差的四次方的比值称为峰度,,也称作峰度系数。
中心距计算公式:
标准差是对随机变量可能值的分散程度的一个度量。
变异系数是衡量标准差相对于均值的分散程度。
偏度是关于对称性的一种度量,完全对称的分布偏度为0,偏度为正表示概率相同时与左边的值相比,右边的值距离均值更远。
峰度度量了相对于正态分布的平坦程度(正态分布峰值为3),在标准差相同时,峰度大于3的分布相对于正态分布在远离均值点的概率更大。
原点矩与中心矩与均值的关系:
矩若不存在意味着积分或者求和式的极限是正无穷。
超额损失函数
对于随机变量X与定值d,则定义超额损失变量Y=X-d。若X>d,则该变量的期望e(d)=E(Y)=E(X-d|X>d),称为平均超损函数。
这个函数也称作左截断平移变量,主要是把d以下的观测全部丢弃了。这个函数主要用于计算免赔额。
超额损失变量,把d以下的观测全部改为0,就称为左删失。
超额损失函数的余函数
定义限额损失变量,这个变量称为右删失变量,它的数学期望值E[XΛu]称为限额期望值。
一般而言,购买了一份最大赔付额为d的保单同时,购买了免赔额为d的保单,相当于购买了全额保险。
分位数
书里写的太复杂了,简单来说,分位数函数就是分布函数的逆函数,而分位数就是所对应的那个值。
简单理解,以前你看的是x轴的数字找y,现在是看y轴数字找x,就这么简单。
50%分位数(也称作中位数)就找0.5,80%分位数就找0.8,简单粗暴。k
生成函数与随机变量的和
如果随机变量相互独立且前两阶符合一定条件,则 服从均值为0,方差为1的正态分布
矩母函数mgf,为随机变量X的关于t的函数,,只当期望存在时才有定义,一般用于连续随机变量。
概率生成函数pgf,为如下关于z的函数,,只当期望存在时才有意义,一般用于离散随机变量。
表明乘积是累增的。
参数的作用
※多少参数刻画一个适用的模型?
一个简单模型至少具备以下特点:
1.用较少参数确定模型,确定每个参数的精度应非常高。
2.模型对环境及时间稳定。
3.由于数据的不规则性,需要进行光滑处理。
一个复杂模型至少具备以下特点:
1.当必须用较多参数确定的模型,可尽量与现实吻合。
2.当必须用较多参数确定的模型,能尽量匹配数据的不规则性。
统计建模追求可以充分反应现实情况的最简单模型。
参数分布和尺度分布
参数分布是由分布函数构成的集合,其中每个函数由一个或多个特征值确定,这些值称作参数。参数的个数是固定且有限的。
比如正态分布,参数是µ和
满足一个分布集合中任何一个分布的随机变量,在经过正实数乘数变换后所生成的随机变量还属于该分布的集合,被称作尺度分布。
参数分布族
参数分布族是指由某些参数分布组成的集合,这些分布之间存在某种关联关系。
有限混合分布
k元混合分布,如果其积累函数可以表示为 ,其中对所有的j有,且成立。
一般混合分布(半参数模型)
一般混合分布(变元数不确定)的分布函数形式如下
这种模型被称为半参数的。(简单的理解,就是有的参数你是已知的,有的参数你是未知的,未知越多越复杂的一种分布模式)
数据依赖型分布
数据依赖型分布是其复杂程度至少不低于其提供的信息源或数据,并且“参数”的个数随其源信息数据增加而增加。
比如经验分布函数就是对1/n个取值,进行的n个观测,参数数量就是n。(简单理解,有一个常量可以代表某一些数据,那么这个常量就可以看做一个参数,函数即由这些参数组成的。)
厚尾
对于一个随机变量,如果任意的正数阶原点矩存在,那么说明分布的尾部很轻,如gamma分布。而正数阶矩存在最高阶数(或不存在正数阶矩),如Pareto分布,则说明分布的尾部很厚。
极限比
尾部厚度的比较可以通过计算两个生存函数的比值,在趋近于无限时的收敛性(厚的做分子),若比值收敛,则表示分子的分布函数在数值较大出有更大的概率。
损失率和平均剩余生命函数
损失率函数(风险率函数)是递减的,则在较低数值的概率变小,而较高数值的概率变大,因此尾部较厚。
若损失率函数是递减的,那么平均剩余生命函数是递增的。但反过来不一定成立。
新分布函数构造方法
倍数变换:如用于通胀因素下,将标度进行变换。
幂变换:用逆变换的时候比较多一些。常用的是韦伯分布、伽马分布等。
指数变换:对数正态分布的应用。
混合:这是针对无限多个随机变量的一般解决办法。
含瑕点的风险率模型:
在混合分布中,对随机变量Λ>0,并定义X的条件损失率(Λ=λ)为 , a(x)是x的一个已知函数。含瑕点是指用一个随机风险变量对损失率函数进行量化(是对用常数表达任意值的复杂化表达)。
X|Λ的条件生存函数为。
其中。定义随机变量Λ的矩生成函数为,则边缘生存函数为。
各类型混合决定a(x)和A(x)的选择。重要的子类:混合指数分布(),韦伯分布)
最常用的是伽马含瑕点风险率模型,其他如逆高斯含瑕点风险率模型也很常用。
常用分布的关系
离散分布
概率函数:表示恰巧发生k次事件的概率,离散随机变量N的概率生成函数
泊松分布:泊松分布概率函数为,概率生成函数为 。其均值与方差相等。
如果一个随时间变化的索赔模型符合泊松分布,这个索赔可以随某些值可以分为N种类型,则超过某个定值的索赔个数依旧符合泊松分布。