使用lxml获取div的HTML内容

问题描述:

我使用python和lxml从链接负载中获取div.article的内容。我想要div的实际html标记。但到目前为止,我只能获得剥去标记的链接的text_content()。使用lxml获取div的HTML内容

doc = html.fromstring(doc_text) 

article = doc.cssselect("div.article") 

if len(article) > 0: 
    text = article[0].text_content() 

    data = { 
     'product':product, 
     'content': text, 
    } 

任何人都可以帮我获得文章[0]的标记吗?

感谢

您可以只使用节点的迭代功能,并建立您的字符串的方式。

def innerHTML(node): 
    buildString = '' 
    for child in node: 
     buildString += html.tostring(child) 
    return buildString 
+0

很好,谢谢! – iamjonesy 2013-03-12 09:12:14