如何处理XML数据集?

问题描述:

我是火花和编程语言的新手。我需要一些帮助来解析基于每个标签的XML文件。如何处理XML数据集?

这里是我的小例子 输入文件:

XML File: 
<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl" href="myfile.xsl" ?> 
<bookstore specialty="novel"> 
    <book style="autobiography"> 
    <author> 
     <first-name>Joe</first-name> 
     <last-name>Bob</last-name> 
     <award>Trenton Literary Review Honorable Mention</award> 
    </author> 
    <price>12</price> 
    </book> 
</bookstore> 

XPATH for above file: 

/bookstore[@specialty="novel"]/book[@style="autobiography"]/price 
/bookstore[@specialty="novel"]/book[@style="autobiography"]/author 
/bookstore[@specialty="novel"]/book[@style="autobiography"] 
/bookstore[@specialty="novel"] 

现在我想读的XPath和解析基于每个标签(bookstore.txt,book.txt,author.txt)

文件

Bookstore.txt:

UUID= 1233455 (onfly have to create) 
specialty="novel" 

Book.txt:

UUID= 1233455 (coming from bookstore) 
style="autobiography" 
<price>12</price> 

Author.txt:

UUID= 9876534(onfly generate and link to book file) 
<first-name>Joe</first-name> 
     <last-name>Bob</last-name> 
     <award>Trenton Literary Review Honorable Mention</award> 

可以请一些一个可以帮助我一下吧。

预先感谢您..

+1

请阅读[提问指南](https://stackoverflow.com/help/asking)。您应该首先尝试自己解决问题,表明您已经尝试搜索并**提供您迄今为止拥有的任何代码**。你不能只是陈述问题并要求准备好使用解决方案。 – laughedelic

使用星火SQL和spark-xml模块是:

库用于解析和使用Apache星火查询XML数据,星火SQL和DataFrames。