阅读CSV试图跳过行,但有问题删除前6行

阅读CSV试图跳过行,但有问题删除前6行

问题描述:

我想阅读下面的文件,并在csv阅读有问题。 CSV文件在数据标题之前的文件顶部包含大量信息。我已经尝试过skiprows,内容跳过文件顶部的内容,但不起作用。阅读CSV试图跳过行,但有问题删除前6行

有人可以提供关于如何阅读此文件的建议吗?

当前程序

import urllib 
import pandas as pd 
import StringIO 
import datetime 
import sys 
if sys.version_info[0] < 3: 
    from StringIO import StringIO as stio 
else: 
    from io import StringIO as stio 
myfile=[] 
dls "http://www.spdrgoldshares.com/assets/dynamic/GLD/GLD_US_archive_EN.csv" 
f = urllib.urlopen(dls) 
myfile += f.readline() 
TESTDATA=stio(myfile) 
daily_prices = pd.read_csv(TESTDATA, sep=",", header=None, skiprows=13, 
names=["Date", "GLD Close", "LBMA Gold Price", "NAV per GLD in Gold", 
"NAV/share at 10.30 a.m. NYT", "Indicative Price of GLD at 4.15 p.m. NYT",\ 
"Mid point of bid/ask spread at 4.15 p.m. NYT","Premium/Discount of GLD mid 
point v Indicative Value of GLD at 4.15 p.m. NYT",\ 
"Daily Share Volume","Total Net Asset Value Ounces in the Trust as at 4.15 
p.m. NYT", "Total Net Asset Value Tonnes in the Trust as at 4.15 p.m. NYT", 
"Total Net Asset Value in the Trust"]) 

此前表标题上CSV下面的信息被包括在该文件。我尝试使用跳过行和内容,但都没有工作。

SPDR金ETF(纽约证券交易所Arca的),

“的‘SPDR’(麦格劳 - 希尔“)商标下从麦格劳 - 希尔集团,公司授权使用”不理财产品提供SPDR“Gold Trust或其关联公司由McGraw-Hill赞助,认可,出售或推广。”

“注意:本文档仅供参考,如有更改,恕不另行通知。未经SPDR Gold Shares [email protected]书面许可,不得以任何方式复制本文档的任何部分。在任何情况下,均不得将其用于或视为要约出售或征求任何要约购买其中所述的证券或其他工具的要约“

”注意:SPDR Gold Shares并不表示该信息是准确的或完整,不应该依赖于此。由于依赖本文档中包含的数据,SPDR Gold Shares概不负责任何损失,损害,费用或索赔,无论出现何种情况。“

”注意:在LBMA黄金价格不是发布最近使用的LBMA黄金价格。“

”*注意:自2015年3月20日起,本信托一直使用LBMA黄金价格PM作为黄金价格来确定本信托黄金的价值。在此之前,本信托使用了伦敦下午定盘,该定盘已于2015年3月19日终止。所有提及LBMA黄金价格的信息仅供参考。 ICE基准管理有限接受的价格或潜在的产品,其价格可参考的准确性不承担任何责任“

您可以使用:

import requests 
from pandas.compat import StringIO 
dls = "http://www.spdrgoldshares.com/assets/dynamic/GLD/GLD_US_archive_EN.csv" 

r = requests.get(dls) 
daily_prices = pd.read_csv(StringIO(r.text), skiprows=6) 

print (daily_prices.head()) 

      Date GLD Close LBMA Gold Price NAV per GLD in Gold \ 
0 18-Nov-2004  44.38   $442.00   100.000000 
1 19-Nov-2004  44.78   $445.60   99.998900 
2 22-Nov-2004  44.75   $447.80   99.995600 
3 23-Nov-2004  45.05   $448.15   99.994500 
4 24-Nov-2004  45.05   $448.60   99.993400 

    NAV/share at 10.30 a.m. NYT Indicative Price of GLD at 4.15 p.m. NYT \ 
0       44.2         44.305 
1     44.55951167         44.694 
2     44.77803823         44.903 
3     44.81255136         44.812 
4     44.85705902         44.952 

    Mid point of bid/ask spread at 4.15 p.m. NYT# \ 
0           $44.37 
1           $44.78 
2           $44.95 
3           $44.74 
4           $45.00 

    Premium/Discount of GLD mid point v Indicative Value of GLD at 4.15 p.m. NYT \ 
0            0.146%        
1            0.192%        
2            0.105%        
3           -0.160%        
4            0.095%        

    Daily Share Volume \ 
0    5992000 
1   11655000 
2   11976800 
3    3139000 
4    6052700 

    Total Net Asset Value Ounces in the Trust as at 4.15 p.m. NYT \ 
0           260000.00    
1           1859994.06    
2           2799952.98    
3           2799952.98    
4           3099933.30    

    Total Net Asset Value Tonnes in the Trust as at 4.15 p.m. NYT \ 
0            8.09    
1            57.85    
2            87.09    
3            87.09    
4            96.42    

    Total Net Asset Value in the Trust 
0      114920000.00 
1      828806907.20 
2      1253785205.50 
3      1254751438.19 
4      1390568824.08 

因为:

daily_prices = pd.read_csv(dls, skiprows=6) 
print (daily_prices.head()) 

HTTPError: Forbidden