关于《损失模型》的一点笔记——第二部分精算模型-1随机变量与分布函数

一般的精算模型尝试表现出未来不确定的支付流，不确定性包括事件是否会发生、发生的时间以及损失量。

一些概念：
1. 现象是指可以观测到的发生。
2. 试验是指在一定条件下对某给定现象的一个观测。
3. 一次试验的最终观测称为结果。
4. 事件是一个或多个结果的集合。
5. 随机现象是指试验可能会有一个以上的结果。
6. 具有随机现象的事件称为不确定结果。
7. 概率是对一个事件的结果发生可能性的度量，这个度量经过标准化处理，从0增加到1的数值表示。
8. 随机变量是一个函数，它对每一个可能结果赋予一个数值。

分布函数和4个模型

某随机变量X的累积分布函数F(x)满足以下四个必要条件
1.对所有x，0≤F(x)≤1。
2.F(x)是非降的。
3.F(x)是右连续的。
4. $lim_{x \to - \infty} F (x) = 0$ 且 $lim_{x \to + \infty} F (x) = 1$

基于此的4个模型大概长这个样子（灵魂画作）
关于《损失模型》的一点笔记——第二部分精算模型-1随机变量与分布函数

第一行左边是典型的 $F (x) = a x + b$ ，具体约束参照四个必要条件，abmn均为正数，不详细说了。
第一行右边是 $F (x) = 1 - b / x^{a}$
第二行左边是 $F (x) = {\begin{cases} 0 & x ＜ 0 \\ m & 0 \leq x < a \\ n & a \leq x ＜ b \\ 1 & x \geq b \end{cases}$
第二行右边是 $F (x) = {\begin{cases} 0 & x ＜ 0 \\ 1 - b e^{- a x} & x \geq 0 \end{cases}$ ，那个圈是画错的，无视就好了。（其实我是想画0和函数的值是区分的，手抖画错了2333）

以上4个模型就是常用的分布函数，前两个是连续分布，第三个是离散分布，第四个是混合分布。
从我个人的角度理解，分布函数常常用于描述事物本身。

生存函数

生存函数是分布函数的“补函数”，记为S(x)。S(x)=1-F(x)，故而
1.对所有x，0≤S(x)≤1。
2.S(x)是不增的。
3.F(x)是右连续的。
4. $lim_{x \to - \infty} S (x) = 1$ 且 $lim_{x \to + \infty} S (x) = 0$

概率密度函数

概率密度函数f(x)，简称为密度函数，它表示分布函数的导数或者生存函数导数的负值，即f(x)=F’(x)=-S’(x)，有时缩写为pdf。
随机变量在密度函数比较高的区域，发生的可能性将高于比较低的区域。

概率函数

概率函数p(x)，也称为概率质点函数，表示随机变量在概率值为非零点的概率。一般用在离散型分布函数或者混合型分布函数。

风险率

风险率h(x)，也称作死亡力（也写作μ(x)）或者失效率（也写作λ(x)），表示密度函数与生存函数的比值，即h(x)=f(x)/S(x)
所以，先前的4个模型变成了这个样子
关于《损失模型》的一点笔记——第二部分精算模型-1随机变量与分布函数

众数

众数是指最有可能发生的值，对于离散型则是概率函数最大的点，对于连续型则是密度函数最大值的点。

矩

随机变量X的k阶原点矩，为随机变量k次幂的期望（平均）值（如果它存在的话）。用E(X^k)。一阶原点矩为随机变量的均值，通常记为μ。
$μ_{x}^{^{'}} = {\begin{cases} \int_{- \infty}^{\infty} x^{k} f (x) d x & 随机变量是连续的 \\ \sum_{j} x_{j}^{k} p (x_{j}) & 随机变量是离散的 \end{cases}$

一个特殊的离散分布模型——经验分布模型

经验分布模型是基于一个样本量为n，并对每个数据点赋予概率1/n的离散分布模型。
模型中的均值等于算数平均值。

中心矩、变异系数、偏度与峰度

随机变量的k阶中心矩为该变量与其均值的偏差的k次幂的期望值，一般表示为E[(X-μ)^k]或μ_k。
通常称呼二阶中心矩为方差 $σ^{2}$ ，它的平方根叫做标准差σ。
标准差与均值的比值称作变异系数。
三阶中心矩与标准差立方的比值称为偏度， $τ_{1} = μ_{3} / σ^{3}$ ，也称作偏度系数。
四阶中心矩与标准差的四次方的比值称为峰度， $τ_{2} = μ_{4} / σ^{4}$ ，也称作峰度系数。

中心距计算公式：

μ_{k} = E [(X - μ)^{k}] = {\begin{cases} \int_{- \infty}^{\infty} (x - μ)^{k} f (x) d x & 随 机 变 量 是 连 续 的 \\ \sum_{j} (x_{j} - μ)^{k} p (x_{j}) & 随 机 变 量 是 离 散 的 \end{cases}

标准差是对随机变量可能值的分散程度的一个度量。
变异系数是衡量标准差相对于均值的分散程度。
偏度是关于对称性的一种度量，完全对称的分布偏度为0，偏度为正表示概率相同时与左边的值相比，右边的值距离均值更远。
峰度度量了相对于正态分布的平坦程度（正态分布峰值为3），在标准差相同时，峰度大于3的分布相对于正态分布在远离均值点的概率更大。
原点矩与中心矩与均值的关系：

μ_{2} = μ_{2}^{^{'}} - μ^{2}

矩若不存在意味着积分或者求和式的极限是正无穷。

超额损失函数

对于随机变量X与定值d，则定义超额损失变量Y=X-d。若X>d，则该变量的期望e(d)=E(Y)=E(X-d|X>d)，称为平均超损函数。
这个函数也称作左截断平移变量，主要是把d以下的观测全部丢弃了。这个函数主要用于计算免赔额。
超额损失变量，把d以下的观测全部改为0，就称为左删失。

超额损失函数的余函数
定义限额损失变量 $Y = X Λ u {\begin{cases} X & X < u \\ u & X \geq u \end{cases}$ ，这个变量称为右删失变量，它的数学期望值E[XΛu]称为限额期望值。

一般而言，购买了一份最大赔付额为d的保单同时，购买了免赔额为d的保单，相当于购买了全额保险。

分位数

书里写的太复杂了，简单来说，分位数函数就是分布函数的逆函数，而分位数就是所对应的那个值。
简单理解，以前你看的是x轴的数字找y，现在是看y轴数字找x，就这么简单。
50%分位数（也称作中位数）就找0.5，80%分位数就找0.8，简单粗暴。k

生成函数与随机变量的和

如果随机变量相互独立且前两阶符合一定条件，则 $lim_{k \to \infty} [S_{k} - E (S_{k})] / \sqrt{V a r (S_{k})}$ 服从均值为0，方差为1的正态分布
矩母函数mgf，为随机变量X的关于t的函数， $M_{X} (t) = E (e^{t X})$ ，只当期望存在时才有定义，一般用于连续随机变量。
概率生成函数pgf，为如下关于z的函数， $P_{X} (z) = E (z^{X})$ ，只当期望存在时才有意义，一般用于离散随机变量。

M_{S_{k}} (t) = \prod_{j = 1}^{k} M_{X_{j}} (t)

P_{S_{k}} (z) = \prod_{j = 1}^{k} P_{X_{j}} (z)

表明乘积是累增的。

参数的作用

※多少参数刻画一个适用的模型？
一个简单模型至少具备以下特点：
1.用较少参数确定模型，确定每个参数的精度应非常高。
2.模型对环境及时间稳定。
3.由于数据的不规则性，需要进行光滑处理。
一个复杂模型至少具备以下特点：
1.当必须用较多参数确定的模型，可尽量与现实吻合。
2.当必须用较多参数确定的模型，能尽量匹配数据的不规则性。
统计建模追求可以充分反应现实情况的最简单模型。

参数分布和尺度分布

参数分布是由分布函数构成的集合，其中每个函数由一个或多个特征值确定，这些值称作参数。参数的个数是固定且有限的。
比如正态分布，参数是µ和 $σ^{2}$
满足一个分布集合中任何一个分布的随机变量，在经过正实数乘数变换后所生成的随机变量还属于该分布的集合，被称作尺度分布。

参数分布族

参数分布族是指由某些参数分布组成的集合，这些分布之间存在某种关联关系。

有限混合分布

k元混合分布，如果其积累函数可以表示为 $F_{Y} (y) = a_{1} F_{x_{1}} (y) + a_{2} F_{x_{2}} (y) + \dots \dots + a_{k} F_{x_{k}} (y)$ ，其中对所有的j有 $a_{j} > 0$ ，且 $a_{1} + a_{2} + \dots \dots + a_{k} = 1$ 成立。

一般混合分布（半参数模型）

一般混合分布（变元数不确定）的分布函数形式如下

F (x) = Σ_{j = 1}^{K} a_{j} F_{j} (x), Σ_{j = 1}^{K} a_{j} = 1, a_{j} > 0 ， j = 1, 2, \dots \dots K, K = 1, 2, \dots \dots

这种模型被称为半参数的。（简单的理解，就是有的参数你是已知的，有的参数你是未知的，未知越多越复杂的一种分布模式）

数据依赖型分布

数据依赖型分布是其复杂程度至少不低于其提供的信息源或数据，并且“参数”的个数随其源信息数据增加而增加。
比如经验分布函数就是对1/n个取值，进行的n个观测，参数数量就是n。（简单理解，有一个常量可以代表某一些数据，那么这个常量就可以看做一个参数，函数即由这些参数组成的。）

厚尾

对于一个随机变量，如果任意的正数阶原点矩存在，那么说明分布的尾部很轻，如gamma分布。而正数阶矩存在最高阶数（或不存在正数阶矩），如Pareto分布，则说明分布的尾部很厚。

极限比

尾部厚度的比较可以通过计算两个生存函数的比值，在趋近于无限时的收敛性（厚的做分子），若比值收敛，则表示分子的分布函数在数值较大出有更大的概率。

损失率和平均剩余生命函数

损失率函数（风险率函数）是递减的，则在较低数值的概率变小，而较高数值的概率变大，因此尾部较厚。
若损失率函数是递减的，那么平均剩余生命函数是递增的。但反过来不一定成立。

新分布函数构造方法

倍数变换：如用于通胀因素下，将标度进行变换。
幂变换：用逆变换的时候比较多一些。常用的是韦伯分布、伽马分布等。
指数变换：对数正态分布的应用。
混合：这是针对无限多个随机变量的一般解决办法。

含瑕点的风险率模型：
在混合分布中，对随机变量Λ＞0，并定义X的条件损失率（Λ=λ）为 $h_{X | Λ} (x | λ) = λ a (x)$ ， a(x)是x的一个已知函数。含瑕点是指用一个随机风险变量对损失率函数进行量化（是对用常数表达任意值的复杂化表达）。
X|Λ的条件生存函数为 $S_{X | Λ} (x | λ) = e^{- λ A (x)}$ 。
其中 $A (x) = \int_{0}^{x} a (t) d t$ 。定义随机变量Λ的矩生成函数为 $M_{Λ} (t) = E (e^{t Λ})$ ，则边缘生存函数为 $S_{X} (x) = M_{Λ} [- A (x)]$ 。
各类型混合决定a(x)和A(x)的选择。重要的子类：混合指数分布（ $a (x) = 1 和 A (x) = x$ ），韦伯分布 $（ a (x) = γ x^{r - 1} 和 A (x) = x^{γ}$ ）
最常用的是伽马含瑕点风险率模型，其他如逆高斯含瑕点风险率模型也很常用。

常用分布的关系

关于《损失模型》的一点笔记——第二部分精算模型-1随机变量与分布函数

离散分布

概率函数： $p_{k}$ 表示恰巧发生k次事件的概率，离散随机变量N的概率生成函数 $P (z) = \sum_{k = 0}^{\infty} p_{k} z^{k}$
泊松分布：泊松分布概率函数为 $p_{k} = \frac{e^{- λ} λ^{k}}{k!}$ ，概率生成函数为 $P (z) = e^{λ (z - 1)}, λ > 0$ 。其均值与方差相等。
如果一个随时间变化的索赔模型符合泊松分布，这个索赔可以随某些值可以分为N种类型，则超过某个定值的索赔个数依旧符合泊松分布。

关于《损失模型》的一点笔记——第二部分精算模型-1随机变量与分布函数

分布函数和4个模型

生存函数

概率密度函数

概率函数

风险率

众数

矩

一个特殊的离散分布模型——经验分布模型

中心矩、变异系数、偏度与峰度

超额损失函数

分位数

生成函数与随机变量的和

参数的作用

参数分布和尺度分布

参数分布族

有限混合分布

一般混合分布（半参数模型）

数据依赖型分布

厚尾

极限比

损失率和平均剩余生命函数

新分布函数构造方法

常用分布的关系

离散分布

相关推荐