提取文本

问题描述:

我从网页拉取的日期和有一个很难提取文本提取文本

date_ <- html_nodes(page_, xpath = '//*[@id="particular_con"]/div[2]/text()') 
## prints ## 
# {xml_nodeset (1)} 
# [1] 2017-03-27 

我尝试添加``[[(1L)date_[[1]] 但这打印

{xml_node} 
<text> 

我只想提取2017-03-27

只是用html_text

由于函数名称0123'返回指向节点的指针。为了从这些信息使用html_texthtml_attr

更改第一行:

date_ <- html_nodes(page_, xpath = '//*[@id="particular_con"]/div[2]/text()') %>% html_text()