使用引入nokogiri
问题描述:
例如某些HTML标记解析网页:使用引入nokogiri
content=Nokogiri::HTML(open(url)).at_css(".appwindow").text
此示例解析来自.appwindow(纯文本)的文本。 如何使用<p>
标签解析此文本?
答
我想你想要找到具有appwindow
类的第一个元素的完整HTML,或者可能是内部HTML。如果是这样的话:
require 'nokogiri'
html = Nokogiri::HTML <<ENDHTML
<div id='menu'>menu</div>
<div class='appwindow'><p>Hello <b>World</b>!</p></div>
ENDHTML
puts html.at_css('.appwindow').text
#=> Hello World!
puts html.at_css('.appwindow').to_html
#=> <div class="appwindow"><p>Hello <b>World</b>!</p></div>
puts html.at_css('.appwindow').inner_html
#=> <p>Hello <b>World</b>!</p>
请参阅methods on Nokogiri::XML::Node
的列表以了解其他可用选项。
我不明白这个问题,你介意举个例子吗? – apneadiving 2011-04-25 21:35:47
此问题缺少足够的信息可以帮助。我们需要一个有关内容的URL,或者一些示例HTML – 2011-05-01 05:16:23