pandas从文件中读取数据

pandas可操作的数据类型:csv,excel,json…

pandas从文件中读取数据

1). csv文件的写入:to_csv

df = pd.DataFrame(
    {'province': ['陕西', '陕西', '四川', '四川', '陕西'],
     'city': ['咸阳', '宝鸡', '成都', '成都', '宝鸡'],
     'count1': [1, 2, 3, 4, 5],
     'count2': [1, 2, 33, 4, 5]
     }
)	#创建二维数组

df.to_csv('doc/csvFile.csv')	#写入文件内容,保存文件
print("csv文件保存成功")

pandas从文件中读取数据
2). csv文件的读取:read_csv

df2 = pd.read_csv('doc/csvFile.csv')
print(df2)

pandas从文件中读取数据
3). excel文件的写入:.to_excel

df2.to_excel("/tmp/excelFile.xlsx", sheet_name="省份统计")
print("excel文件保存成功")

pandas从文件中读取数据

pandas——分组与聚合操作之group_by

pandas提供了一个灵活高效的groupby功能,

  • 1). 它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。
  • 2). 根据一个或多个键(可以是函数、数组或DataFrame列>名)拆分pandas对象。
  • 3). 计算分组摘要统计,如计数、平均值、标准差,或用户自定义函数。

首先定义数组:

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

df = pd.DataFrame(
    {'province': ['陕西', '陕西', '四川', '四川', '陕西'],
     'city': ['咸阳', '宝鸡', '成都', '成都', '宝鸡'],
     'count1': [1, 2, 3, 4, 5],
     'count2': [1, 2, 33, 4, 5]
     }
)

根据某一列的key值进行统计分析;

grouped = df['count1'].groupby(df['province'])
print(grouped.describe()) #查看内容
print(grouped.median()) #求中值

pandas从文件中读取数据
根据城市统计分析cpunt1的信息;

grouped = df['count1'].groupby(df['city'])
print(grouped.max())

pandas从文件中读取数据
指定多个key值进行分类聚合;

grouped = df['count1'].groupby([df['province'], df['city']])
print(grouped)  #显示根据key值进行统计的信息
print(grouped.max()) #取最大值
print(grouped.sum())	#求和
print(grouped.count())		#统计数量

pandas从文件中读取数据