一、数据挖掘—初识数据挖掘

前言:

随着计算机技术、网络技术、通信技术和Internet技术的发展,各行各业的企业内积累了大量业务数据。面对大量的数据,迫使人们寻找新的工具,来对企业的运营规律进行探索,为商业决策提供有价值的信息,是企业获得更高的利润。能满足企业这一迫切需求的有力工具就是数据挖掘

对于且也而言,数据挖掘有助于发展业务的趋势,揭示已知事实,预测未知的结果。

1.1 什么是数据挖掘

数据挖掘(Data Mining,DM):就是从大量数据中挖掘出隐含的、未知的、对决策又潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决支持的方法,工具和过程;是利用各种分析工具在海量数据中发现模型和数据之间的关系的过程。

数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、模式和趋势的过程。它使用模式认知技术、统计技术和数据技术

数据挖掘是从一个大型数据库中提取以前不知道的可操作信息的知识挖掘过程。

1.2 数据挖掘在企业商务智能应用中的定位

报告和商业智能解决方案对于了解过去和现在的状况非常有用。但是,预测分析解决方案还能使用户预见未来的发展状况,使其能够先发制人,而不处于被动。数据分析和数据挖掘系统的目的是带给我们更多的决策支持信息,并不是取代数据报表。报表系统依然又不可取代的优势,并且会长期与数据分析、数据挖掘系统并存下去。

1.2.1 数据挖掘给企业带来最大的投资收益

         预测分析解决方案将复杂的统计方法和机器学习技术应用到数据之中,通过实用预测分析技术来揭示隐藏在交易系统或企业资源计划(ERP)、结构数据库和普通文件中的模式和趋势。

一、数据挖掘—初识数据挖掘

1.2.2 数据挖掘从本质上提升商务智能平台的价值

          传统的商务智能应用都局限在数据仓库、OLAP和各种类型的报表展现上。传统的OLAP和报表分析只能反映企业过去和现在的运营状况,而不能明确地、可量化的回答企业问题的原因、可能的解决方式并预测企业的经营活动。

         数据挖掘功能是现有商务智能系统的核心组成部分,数据挖掘工具能从本质上提升企业商务智能平台的价值,真正把企业积累的数据转化为企业营运和管理的知识。数据挖掘工具不但能够帮助企业定性、定量的去了解各 种业务问题的本质,而且能够帮助企业定性、定量地了解各种市场活动和企业内部运作可能带来的收益。从而不断发展新的收益增长点。

一、数据挖掘—初识数据挖掘

1.2.3 数据挖掘让商务智能流程真正形成闭环

数据挖掘的应用让企业的商务智能流程真正形成了闭环。他帮助企业不断了解自身运作中的各种问题、发现新的市场机会,并适时调整企业经营的策略,从而螺旋式的提高企业的经营状况和管理水平。如图:

一、数据挖掘—初识数据挖掘

1.3 信息类BI应用和知识类BI应用

        BI(Business Intelligence,商业智能)是一种运用了数据库仓库、在线分析和数据挖掘等技术来处理和分析数据的崭新技术,目的是为企业决策提供决策支持。

        BI是一个加工厂:

                    输入:海量数据。

                    输出:数据加工后获得的信息和知识。

BI应用的两大类别是信息类应用和知识类应用。主要区别如下:

信息类BI应用:

        指由原始数据加工而来的数据查询、报表图标、多为分析、数据可视化等应用,这些应用的共同特点是:将数据转换为决策者可接受的信息展现给决策者。例如:银行交易数据加工为银行财务报表。

         仅负责提供信息,而不会主动去分析数据。例如:银行财务报表工具没有深入分析客户流失和银行利率之间关系的能力,而只能靠决策者结合信息,通过人的思考得出知识。

知识类BI应用:

         指通过数据挖掘技术和工具,将数据中隐含的关系挖掘出来,利用计算机直接将数据加工为知识,展现给决策者。

         会主动去数据中查找关联关系,发掘那些决策者无法迅速发掘的隐含知识,并将其以可以理解的形式呈现给决策者。

信息类BI应用都局限在数据仓库、OLAP和各种而理性的报表展现上。

 知识类BI是现有商务智能平台的关键组成部分,能从本质上提升商务智能平台的价值,真正把企业积累的数据转化为企业营运和管理的知识。

1.4 数据挖掘现状及应用场景

“海量数据,信息缺乏”是大多金融企业所面对的尴尬。目前,金融业实施的大多数数据库只能实现数据的录入,查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息。

只要企业拥有有分析价值的数据源,皆可利用数据挖掘工具进行有目的的数据分析。一般较常用的应用案例多发生在零售业、制造业、财务金融保险、通信以及医疗服务等。数据挖掘的应用领域主要可以分为以下三类:

商业与电子商务数据。银行、管理部门、网络应用在商业运作过程中产生大量数据,这些行业需要通过数据分析做出有效决策。

科学、工程学和卫生保健数据。工程领域的数据往往比商业数据更复杂,此外,科学家和工程师越来越多的实用模拟系统。

网络数据。网络上的数据不仅在数量上日益膨胀,在内容上也越来越复杂。网络数据已经不仅仅包含图像、文本数据,还包括数据流和数值数据。

大部分企业并没有数据不足的问题,而过度的数据重复与不一致才是最大的问题,这使得企业无论在使用、有效管理、以及将这些数据用于决策过程方面都遇到了问题。因此市场需要的是能将数据转换成可靠和可用信息的系统。

不同领域的专家对数据挖掘都便显出了极大的兴趣,例如在信息服务也中出现了一些应用,在Internet数据仓储和线上服务中也给企业增加了许多生机。同时在产学合作下,又发展出了许多实用的系统,例如:MDT,Cover story and Spotlight、NichWork、Visualization System、LBS、FALCON、FAIS、NYNEX、TASA 等。目前已被许多研究者视为结合数据库系统和机器学习技术的重要领域。