pandas从文件中读取数据
pandas可操作的数据类型:csv,excel,json…
pandas从文件中读取数据
1). csv文件的写入:to_csv
df = pd.DataFrame(
{'province': ['陕西', '陕西', '四川', '四川', '陕西'],
'city': ['咸阳', '宝鸡', '成都', '成都', '宝鸡'],
'count1': [1, 2, 3, 4, 5],
'count2': [1, 2, 33, 4, 5]
}
) #创建二维数组
df.to_csv('doc/csvFile.csv') #写入文件内容,保存文件
print("csv文件保存成功")
2). csv文件的读取:read_csv
df2 = pd.read_csv('doc/csvFile.csv')
print(df2)
3). excel文件的写入:.to_excel
df2.to_excel("/tmp/excelFile.xlsx", sheet_name="省份统计")
print("excel文件保存成功")
pandas——分组与聚合操作之group_by
pandas提供了一个灵活高效的groupby功能,
- 1). 它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。
- 2). 根据一个或多个键(可以是函数、数组或DataFrame列>名)拆分pandas对象。
- 3). 计算分组摘要统计,如计数、平均值、标准差,或用户自定义函数。
首先定义数组:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
df = pd.DataFrame(
{'province': ['陕西', '陕西', '四川', '四川', '陕西'],
'city': ['咸阳', '宝鸡', '成都', '成都', '宝鸡'],
'count1': [1, 2, 3, 4, 5],
'count2': [1, 2, 33, 4, 5]
}
)
根据某一列的key值进行统计分析;
grouped = df['count1'].groupby(df['province'])
print(grouped.describe()) #查看内容
print(grouped.median()) #求中值
根据城市统计分析cpunt1的信息;
grouped = df['count1'].groupby(df['city'])
print(grouped.max())
指定多个key值进行分类聚合;
grouped = df['count1'].groupby([df['province'], df['city']])
print(grouped) #显示根据key值进行统计的信息
print(grouped.max()) #取最大值
print(grouped.sum()) #求和
print(grouped.count()) #统计数量