麻烦从HTML

问题描述：

我试图从本网站刮整个图表刮痧整个图表：麻烦从HTML

http://stats.ncaa.org/team/stats/12021?org_id=749&sport_year_ctl_id=12021

但是当我运行这段代码：

library(XML) 
library(gsubfn) 

URL = 'http://stats.ncaa.org/team/stats?org_id=381&sport_year_ctl_id=12021' 


Player_Stats = readHTMLTable(URL, header = T, stringsAsFactors = F) 

Player_Stats

Player_Stats只返回数据对于球员来说，直到并不包括总线。

我想要的是团队总数和对手总数。

感谢

答

这些信息是在该表中，这就是为什么readHTMLTable()是不是就可以拿起底部的<tfoot>元素。您可以使用getNodeSet()分别提取<tfoot>位，如下所示。我最后将表格的两位绑定在一起，但您可能希望为应用程序保留不同类型的信息。

library(XML) 
library(gsubfn) 
URL = 'http://stats.ncaa.org/team/stats?org_id=381&sport_year_ctl_id=12021' 
Player_Stats = readHTMLTable(URL, header = T, stringsAsFactors = F) 
stats <- Player_Stats$stat_grid 

doc <- htmlTreeParse(URL, useInternalNodes=T) 
foot <- getNodeSet(doc,"//tfoot") 
totals <- readHTMLTable(unlist(foot)[[1]]) 
colnames(totals) <- colnames(stats) 
fulltable <- rbind(stats,totals)

相关推荐