如何打印已在python

问题描述：

解释HTML数据，我有以下数据结构的HTML文件：如何打印已在python

<tr> 
    <td valign="top"><img src="img.jpg"></td> 
    <td><a href="file.zip">file.zip</a></td> 
    <td align="right">24-Apr-2013 12:42 </td> 
    <td align="right">200K</td> 
</tr> 
...

它基本上是一个简单的表格，并在Firefox中查看时，它看起来是这样的：

file.zip 22-Apr-2013 12:42 200K

我想提取这三个值（文件名，日期，大小），我可以做到这一点，例如与split()但我想知道是否有可能在python中打印“html解释表单”这个？

import xyz 
print xyz.htmlinterpreted(htmlfile.html) 
>>> file.zip 22-Apr-2013 12:42 200K

这样我可以很容易地将数据拆分为split(" ")。这在Python中可能吗？

答

使用HTML解析器。 BeautifulSoup使这是一个breaze：

from bs4 import BeautifulSoup 

soup = BeautifulSoup(html_source) 
print list(soup.stripped_strings)

演示：

>>> from bs4 import BeautifulSoup                         >>> soup = BeautifulSoup('''<tr><td valign="top"><img src="img.jpg"></td><td><a href="file.zip">file.zip</a></td><td align="right">24-Apr-2013 12:42 </td><td align="right">200K</td></tr>''') 
>>> print list(soup.stripped_strings) 
[u'file.zip', u'24-Apr-2013 12:42', u'200K']

打我给它以秒为单位。 – ecline6 2013-04-24 18:26:41

如何打印已在python

相关推荐