【数据仓库】数据仓库设计前如何粗估所需的存储空间大小?
设计数仓前,粗略估计其所占空间大小是非常重要的。只有估计出空间大小,才能确定数仓将要在什么粒度级别下进行设计。下图给出基本步骤:
(1)确定数据仓库中将要创建的所有表
通常情况下,总是有一到两个非常大的表和一些小表。
(2)估计每张表中行的大小
不需要确切的大小,只需要一个上限和一个下限。
(3)估计一年内表中可能的最少行数和最多行数
(4)使用和估计一年所占空间大小同样的方法,估计未来5年的大小
(5)计算索引数据所占空间
(6)计算最终空间大小
将各表中行数可能的最大值和最小值分别乘以数据的最大长度和最小长度。另外,还要将索引项数目与关键字长度的乘积累计到总的数据量中确定出最终需要的数据总量。最后,还要考虑备份和恢复的所需空间大小。
--参考《数据仓库 第四版》