Python /熊猫：使用日期差异的列值的加权平均值

问题描述：

我有一个数据框，我使用read_csv()导入，其中两列是日期（'StartDate'和'EndDate'），日期格式为dd/mm/yyyy。另一列包含可能的每日价格（'价格'）。Python /熊猫：使用日期差异的列值的加权平均值

的（很小）提取物看起来像：

DateStart DateEnd  Price 
01/01/2015 31/01/2015 100 
01/01/2015 02/01/2015 10

我需要计算每日平均价格，即是在这里：(31*100+2*10)/(31+2)，使用天作为权数。

如何获取开始日期和结束日期之间的天数？据我所知，这种格式化的dd/mm/yyyy不会被识别为日期吗？

一旦我有这段天数的区间，如何计算加权平均值？

答

import datetime, pandas as pd, numpy as np

首先，定义您的CSV您的日期格式

dateparse = lambda x: pd.datetime.strptime(x, '%d/%m/%Y')

然后阅读并指定日期列

df = pd.read_csv("file.csv", parse_dates=['DateStart','DateEnd'], date_parser=dateparse)

这里是你的结果：

number_of_days = ((df.DateEnd - df.DateStart + datetime.timedelta(1))/np.timedelta64(1, 'D')) 

result = (number_of_days * df.Price).sum()/number_of_days.sum() 

print result

瞧

开始=>

什么是不工作？ – YOBA

谢谢你的回答。您的解决方案几乎可行，但不完全。事实上，通过计算'（（df.DateEnd - df.DateStart + datetime.timedelta（1））* df.Price）'，可能会出现某种溢出，其结果在这里有好几天。例如，如果170天和价格是619，我得到105230结果，这是好的，但如果价格是640，我得到-104024！应该更改某些内容以指定Days * Price无单位。可能吗？ – Elsalex

因此，我可以得到一些积极的价格的负平均值。 – Elsalex

答

您可以通过dayfirst=True至to_datetime来解析这些日期。然后您可以计算差异并计算加权平均值。

In [82]: for c in ['DateStart','DateEnd']: 
    ...:  df[c] = pd.to_datetime(df[c], dayfirst=True) 

In [87]: df['day_diff'] = (df['DateEnd'] - df['DateStart']).dt.days + 1 


In [88]: df['Price'].dot(df['day_diff'])/df['day_diff'].sum() 
Out[88]: 94

Python /熊猫：使用日期差异的列值的加权平均值

相关推荐