Data Visualization [--0]
Data Visualization
通过对数据的可视化,来洞察数据当中隐藏的真相和信息
1.The difference between data, information, konwledge, and insight
2.The transformation of information into knowledge, and further, to insight
3.Collecting, processing, and organizing data
Data, information, knowledge, and insight
Data
很多东西都可以当作是数据,它可以是连续的,离散的,也可以是文本.但凡是可以量化的都可以作为数据,数据存储的格式也有很多种,但是主要有以下几种:
1.CSV file
2.Database tables
3.Document formats(excel, Pdf, word,等等)
4.HTML files
5.JSON files
6.Text files
7.XML files
Information
信息经过处理的数据,当我们从数据当中发现了relationship or association,这就是数据到信息的转换,有了信息我们可以用来做一些决策或者预测推断.
举个例子,假设我们得到了一个篮球运动员的一些信息,比如身高,体重,位置,场均分数,技巧特点,生日,自高分数等等信息,基于这些信息,可以用来预测下一场比赛,他的得分情况.
Knowledge
当我们把已知的信息组织起来,并通过这些信息来驱动决策的时候,知识就出现了,知识是通过经验获得的数据,信息和技巧.知识包括做出适当决策的能力和运用适当的技巧.
知识以增量的方式不断变化,特别是当信息被重新排列或者重新组合时,有或者算法发生的变化,但是知识指向的结果仍是算法基于数据历史信息的到的结果.大多数情况下,通过对数据的可视化也可以获得Knowledge.
Data analysis and insight
在过去的十年里,数据出现了激增,越来越多的人注意到,Data analysis的重要性,尤其在商业决策上,我们想通过已有的数据和信息得到一个最佳的商业决策.分析依赖于使用数学方法来洞察数据之间的隐藏的关系,
The transformation of data
收集数据,可以用数据来描述一些现象,通过进一步的分析可以用来解释或者回答出现这一现象的原因,所以,最重要的是我们要保证这些数据是准确的,没有错误的或者是不完整的.否则,基于这样的是数据的到的信息也是错误的不完整的.
数据的种类有很多,有历史数据,有实验数据,有基准数据,其中基准数据benchmark data是用来将两个不同的项目或产品与标准度量相比较的数据集合.
Transforming data into information
将数据转换为信息,这涉及到对数据的收集collection,处理processing,和组织organization.
在数据的收集的过程中也需要一些处理和组织,这是一些简单的处理,比如根据一个运动员的得分总数进行排序对数据,或者对收集的数据按照,地理位置的不同进行分类.
在数据到信息的转换过程中,也不局限于简单的排序,也可以用到统计模型或者计算方法来对数据进行一些复杂的变换和处理,比如:过滤,聚类,相关性,归一化,分类等等.
Data collection
数据收集是一个比较耗时的过程,现在数据的收集大都是使用了传感器等设备来进行自动收据采集,网络数据通过大规模爬虫来收集.
Data preprocessing
自动化的采集或收集数据很方便,但是,并不完美,传感器传回的数据总是包含一些噪声,爬虫采集的数据也肯能会有缺失,总之,总是会有一些意外情况发生,原始的数据总是不能很好的进行分析.所以我们需要采用一些预处理技术,对数据进行简单的清洗,比如缺失值的处理,异常值的处理,数据格式的转换,数据的减少等等.
数据的减少可以通过合并和聚合来实现,其实主要是通过消除冗余的特性来减少数据的大小.数据的转换是将数据缩放到更小的尺度范围内,这样可以提高处理和可视化数据的准确性和效率.
数据异常检测,数据的异常值主要是指那些不在正常数据的行为和模式之内的数据,这些异常也被称为离群值或者噪声,在信号数据当中异常的信号就是噪声,在交易数据中,异常值可能是一种欺诈性的交易,数据的完整性对于数据的收集来说是很重要的.尤其在一些金融反欺诈模型当中.
Data processing
数据处理是数据转换过程当中很重要的一步,重点在数据的质量上,一些处理方法可以更好的帮助我们分析和理解数据,比如:dependency modeling 和 clustering(聚类).
Dependency modeling
Dependency modeling is the fundamental principle of modelingt data to determine the nature and structure of the representation.This process searches for relationships between the data elements; for example:百货公司收集顾客的购买行为数据,从这个数据中百货公司可以获得用户频繁购买物品的信息.
Clustering
发现数据中的’group’,或者说,找到数据中的’similar pattern’,将属于同一group的聚在一块.
Organizing data
数据库管理系统,使用户可以以结构化的格式存储大量的数据,所以数据库只能存在磁盘上,内存的容量不足以加载数据库的内容.结构化的存储数据一般都包含多的数据结构,比如数组,文件,表格,树,列表,映射.每一种数据结构都是为了适应某种特定的需求来存储数据的,根据不同的需求选择合适的结构,有利于更快的访问,存储,操作数据.也有利于对数据和信息的理解.
Getting datasets
免费的数据集
http://grouplens.org
http://ichart.finance.yahoo.com/talbe.csv?s=YHOO&c=1962
http://datawrangling.com/some-datasets-available-on-the-web
http://weather-warehouse.com
http://bjs.gov/developer/ncvs/
http://census.ire.org/data/bulkdata.html
http://www.pro-football-reference.com
http://www.basketball-reference.com
http://www.baseball-reference.com
http://archive.ics.uci.deu/ml/datasets.html
http://www.pewresearch.org/data/download-datasets/
Transforming information into knowledge
信息通过discrete algorithms转换为knowledge,在一些特定的领域,knowledge会不断的经历一个循环进化,尤其实在当数据实时发生变化的时候,knowledge也会发生变化.
knowledge当作一个食谱,用信息制作面包,在这种情况下,面粉和酵母是原材料.或者换一个角度,把knowledge看做是数据和信息的结合,将经验和专家意见加入到决策当中,knowledge不仅仅是过滤和算法的结果.
Transforming knowledge into insight