python读取csv中所遇到的中文编码问题

由于本人准备学习使用一些机器学习算法,第一个是DecisionTree,然后使用到了西瓜案例:
python读取csv中所遇到的中文编码问题

因为涉及到讨厌的编码问题,所以找了好多办法去尝试读取csv文件:
1. pandas
pandas可谓是神奇,用python学习机器学习不可缺少的一个包。 使用pandas的时候也进行了尝试,起初encoding是utf-8,但是无法读取出来,所以改成了gbk,这个其实不用担心,等有了一些经验的时候,就不用为这个部分犯愁了
pandas.csv_reader(‘xxx.csv’,encoding=’gbk’)python读取csv中所遇到的中文编码问题
2. csv
这个库的使用确实比较恶心,读取内容为英文的csv还行,但是读取中文的csv的不会是unicode结构,因为机器默认的是ASCII码结构
python读取csv中所遇到的中文编码问题
python读取csv中所遇到的中文编码问题
比方说,我们把’编号取出来’,
我们会发现,那一堆乱七八糟的码就成了‘编号’
其实是python中str发挥了作用,它会把人看不懂的转成人能看懂的,这是通俗的说法,实则是会把ascii码进行转换
python读取csv中所遇到的中文编码问题
python读取csv中所遇到的中文编码问题
python读取csv中所遇到的中文编码问题