解析HTML,jsoup

问题描述:

我想在HTML中使用Jsoup提取特定内容。以下是示例html内容。解析HTML,jsoup

<span style="white-space:nowrap;"> 
       <a class="CategoryTitle ArticleAllDC" title="рубрика" href="http://tlt.ru/articles.php?category=3">Культура</a> 
       <span class="ArticleMainDCnew ArticleAllDC" title="источник">&nbsp;/&nbsp;TLT.ru</span> 
       <span class="ArticleMainDCnew ArticleAllDC" title="дата время [просмотры] (комментарии)">&nbsp;/&nbsp;02.04 12:35 [85] (0)</span> 
      </span> 
     </p> 

我想02.04 12:35 [85] (0)。请帮助我,我该怎么做?

没有任何的优化的最简单的方法:

String input = "<span style=\"white-space:nowrap;\">" + 
      "    <a class=\"CategoryTitle ArticleAllDC\" title=\"рубрика\" href=\"http://tlt.ru/articles.php?category=3\">Культура</a>" + 
      "    <span class=\"ArticleMainDCnew ArticleAllDC\" title=\"источник\">&nbsp;/&nbsp;TLT.ru</span>" + 
      "    <span class=\"ArticleMainDCnew ArticleAllDC\" title=\"дата время [просмотры] (комментарии)\">&nbsp;/&nbsp;02.04 12:35 [85] (0)</span>" + 
      "   </span>" + 
      "  </p>"; 
Document d = Jsoup.parse(input); 
Elements elements = d.select("span[title^=дата]"); 
System.out.println(elements.get(0).html().replaceAll("&nbsp;/&nbsp;","")); 

输出:

02.04 12:35 [85] (0) 

P.S.在Android的情况下,你应该使用Log类获得输出

在我的时间在这里在Oodles技术,我学到了一两件关于解析。我可以在这里添加。

步骤如下: -

步骤-1。从http://jsoup.org/download下载jsop jar文件并将其添加到您的grails/java项目中。

步骤-2。使用以下代码来解析HTML

String url = 'www.surveymyapp.com' // html file url 
def htmlPage = Jsoup.connect(url).get() // parse html from url 

步骤3。现在我们可以调用jsoup的不同方法来获取数据。

例如 - 要通过div名称获取数据 'divName'

def divData = htmlPage.select("div.divName").first().toString().text() 

为了让图像源 '标志'

def imageSrc = detailsInfo.select("img.logo").attr("src")