在R中解析包含特殊字符的标签，其中包含“xml2”

问题描述：

我在R中使用xml2包来解析我的xml文件。除了这个标签名称中有一个短划线之外的所有东西都完美地工作。在R中解析包含特殊字符的标签，其中包含“xml2”

XML示例：

<?xml version="1.0" encoding="UTF-8"?> 
<abstracts-retrieval-response xmlns="http://www.elsevier.com/xml/svapi/abstract/dtd" xmlns:ait="http://www.elsevier.com/xml/ani/ait" xmlns:ce="http://www.elsevier.com/xml/ani/common" xmlns:cto="http://www.elsevier.com/xml/cto/dtd" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:prism="http://prismstandard.org/namespaces/basic/2.0/" xmlns:xocs="http://www.elsevier.com/xml/xocs/dtd" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"> 
    <coredata> 
    <prism:url>http://api.elsevier.com/content/abstract/scopus_id/85011891272</prism:url> 
    <dc:identifier>SCOPUS_ID:85011891272</dc:identifier> 
    <eid>2-s2.0-85011891272</eid> 
    <prism:doi>10.1186/s13638-017-0812-8</prism:doi> 
    <article-number>29</article-number> 
    <dc:title>Performance of emerging multi-carrier waveforms for 5G asynchronous communications</dc:title> 
    <prism:aggregationType>Journal</prism:aggregationType> 
    <srctype>j</srctype> 
    <citedby-count>0</citedby-count> 
    <prism:publicationName>Eurasip Journal on Wireless Communications and Networking</prism:publicationName> 
    <dc:publisher> Springer International Publishing </dc:publisher> 
    <source-id>18202</source-id> 
    <prism:issn>16871499</prism:issn> 
    <prism:volume>2017</prism:volume> 
    <prism:issueIdentifier>1</prism:issueIdentifier> 
    <prism:coverDate>2017-12-01</prism:coverDate> 
</coredata> 
</abstracts-retrieval-response>

我使用这行代码来提取棱镜中的文本：DOI节点（按预期工作）：

xml2::xml_text(xml2::xml_find_first(intermediateXML,"//prism:doi"))

相同的代码提取然而，“引用计数”的值确实会返回“NA”而不是实际值。

xml2::xml_text(xml2::xml_find_first(intermediateXML,"//citedby-count"))

我的猜测是，解析器与标签内部的“ - ”混淆。有没有可以避免这个问题？

答

你试试更新xml2？我的Mac上使用XML2版本1.1.1它的工作原理：

doc <- read_xml(txt) %>% 
    xml_find_first("/coredata") 

doc %>% xml_find_first("citedby-count") %>% xml_text # "0" 
doc %>% xml_find_first("//citedby-count") %>% xml_text # "0"

如果这不起作用，你可以尝试到指定NS为

doc %>% xml_find_first("citedby-count", ns = character()) %>% xml_text

数据和包

require(xml2) 
require(magrittr) 
txt <- '<coredata> 
    <prism:url>http://api.elsevier.com/content/abstract/scopus_id/85011891272</prism:url> 
<dc:identifier>SCOPUS_ID:85011891272</dc:identifier> 
<eid>2-s2.0-85011891272</eid> 
<prism:doi>10.1186/s13638-017-0812-8</prism:doi> 
<article-number>29</article-number> 
<dc:title>Performance of emerging multi-carrier waveforms for 5G asynchronous communications</dc:title> 
<prism:aggregationType>Journal</prism:aggregationType> 
<srctype>j</srctype> 
<citedby-count>0</citedby-count> 
<prism:publicationName>Eurasip Journal on Wireless Communications and Networking</prism:publicationName> 
<dc:publisher> Springer International Publishing </dc:publisher> 
<source-id>18202</source-id> 
<prism:issn>16871499</prism:issn> 
<prism:volume>2017</prism:volume> 
<prism:issueIdentifier>1</prism:issueIdentifier> 
<prism:coverDate>2017-12-01</prism:coverDate></coredata>'

如果我加载您的示例代码，它完美的作品。我也在使用最新版本的软件包。但是，该代码不适用于真实的服务器响应。我会及时通知你的。 – NachtmannM

答

我无法按照我的意图解决问题。最后，我的工作我倒过来使用XML2 :: as_list功能，选择元件通过

intermediateXML <- xml2::read_xml(serverResponse) 
listXML <- xml2::as_list(intermediateXML) 

listXML$coredata$`citedby-count`[[1]]

非常感谢@ Floo0

答

迟到的这一段。这里有一个解决方案，我发现可能会对其他人有所帮助：

doc %>% xml_find_all("//*[name()='my-dash-tag']")

在R中解析包含特殊字符的标签，其中包含“xml2”

相关推荐