使用lxml获取div的HTML内容
问题描述:
我使用python和lxml从链接负载中获取div.article的内容。我想要div的实际html标记。但到目前为止,我只能获得剥去标记的链接的text_content()。使用lxml获取div的HTML内容
doc = html.fromstring(doc_text)
article = doc.cssselect("div.article")
if len(article) > 0:
text = article[0].text_content()
data = {
'product':product,
'content': text,
}
任何人都可以帮我获得文章[0]的标记吗?
感谢
答
您可以只使用节点的迭代功能,并建立您的字符串的方式。
def innerHTML(node):
buildString = ''
for child in node:
buildString += html.tostring(child)
return buildString
很好,谢谢! – iamjonesy 2013-03-12 09:12:14