麻烦从HTML
问题描述:
我试图从本网站刮整个图表刮痧整个图表:麻烦从HTML
http://stats.ncaa.org/team/stats/12021?org_id=749&sport_year_ctl_id=12021
但是当我运行这段代码:
library(XML)
library(gsubfn)
URL = 'http://stats.ncaa.org/team/stats?org_id=381&sport_year_ctl_id=12021'
Player_Stats = readHTMLTable(URL, header = T, stringsAsFactors = F)
Player_Stats
Player_Stats只返回数据对于球员来说,直到并不包括总线。
我想要的是团队总数和对手总数。
感谢
答
这些信息是在该表中,这就是为什么readHTMLTable()
是不是就可以拿起底部的<tfoot>
元素。您可以使用getNodeSet()
分别提取<tfoot>
位,如下所示。我最后将表格的两位绑定在一起,但您可能希望为应用程序保留不同类型的信息。
library(XML)
library(gsubfn)
URL = 'http://stats.ncaa.org/team/stats?org_id=381&sport_year_ctl_id=12021'
Player_Stats = readHTMLTable(URL, header = T, stringsAsFactors = F)
stats <- Player_Stats$stat_grid
doc <- htmlTreeParse(URL, useInternalNodes=T)
foot <- getNodeSet(doc,"//tfoot")
totals <- readHTMLTable(unlist(foot)[[1]])
colnames(totals) <- colnames(stats)
fulltable <- rbind(stats,totals)