踩实底子|每日学习|02-特征工程和文本特征提取
halo!我又来挖坑了,放着草稿箱的若干个深坑没有管,跟进这部分的学习,是为了安心毕业和强大技术栈,从应用角度再次学习机器学习。
这部分是机器学习中的第二个部分 特征工程和文本特征提取,在天池、Kaggle比赛的排名差异中,往往争得你死我活的地方不是选取牛plus的算法,而是在特征工程阶段大下苦工。那么今天就把这部分的引入介绍一下,大块的学习放在周六日两天来学。希望这次开始,能够重启每日更博学习、精进自我的征程。
这块学习分五个part:,主要是数据集组成、特征工程定义,还有字典特征数据抽取,文本特征抽取以及中文问题,和最后的TF-DF分析问题。这部分在我的论文也算是核心部分,虽然不是主要研究机器学习,工程技术也需要在整个实验落地中发挥非常重要的桥梁角色。所以学习过程中,更加强调理解和实际操作的相似性,而不是技术理论的强化。
机器学习确实在某种程度上减轻人力,用计算的方式降低工作量,上一讲的内容。
数据集的构成
存储形式:csv,txt....
为什么不存MySQL(传统数据库)?性能瓶颈,字段没有办法满足,读取速度跟不上(数据大情况),格式不太符合机器学习数据要求格式
->pandas为啥快?读取工具,numpy(GIL锁),多线程问题
主要有两种,两种之一又有这些:
讲完来源,不同维度属性构成了数据集结构。