Python在cssselect和text_content（）后保留lxml.html中的换行符

问题描述：

在python中，如何在使用lxml.html时保留段落（即保留换行符）？Python在cssselect和text_content（）后保留lxml.html中的换行符

例如，下面将剥离<p> </P >标签，并加入线，这是不是我想要的：

body = doc.cssselect("div.body")[0] 
content = body.text_content()

这是我已经试过了不起作用：

lxml.html.clean.clean_html：
- 将不保留换行。
content.replace（ “ ”* 3，“ \ n \ n”）：
- 没有一致地工作，因为结合的文本不具有相同的数量的空格。

答

的LXML TEXT_CONTENT是做什么的应该根据文档，它被剥离html标签，留下后面的文字。

您可以在输出内容前添加自己的换行符来解决这个问题。

body = doc.cssselect("div.body")[0] 
for para in body.xpath("*//p"): 
    para.text = "\n%s\n" % para.text 
content = body.text_content() 
print content

谢谢，这是我落得这样做：第= self.doc.cssselect（ '＃DIV体P'） paragraph_text = [paragraph.text_content（）在段段] 含量=“\ n \ n'.join（paragraph_text） – Lionel 2010-11-23 09:58:17

'body.xpath（“* // p”）'不适用于我，我将它改为'body.xpath（“./ p”）'。无论如何 – 2014-03-12 15:53:17

Python在cssselect和text_content（）后保留lxml.html中的换行符

相关推荐