python的html标签补全

问题：由于数据库中html文本中标签有部分没有闭合，导致使用htmltopdf转换时失败，如何将未闭合的标签进行补全？

解决：使用BeautifulSoup的prettify

方法：

from bs4 import BeautifulSoup as bs
a = '<p><a href="http://mantutu.com">mantutu</a><span>蛮兔兔</span>'
bs(a, 'lxml').prettify()
输出如下：
'<html>\n <body>\n  <p>\n   <a href="http://www.mantutu.com">\n    mantutu\n
 </a>\n   <span>\n    蛮兔兔\n   </span>\n  </p>\n </body>\n</html>'

bs(a, 'html.parser').prettify()
输出如下：
'<p>\n <a href="http://www.mantutu.com">\n  mantutu\n </a>\n <span>\n
 蛮兔兔\n </span>\n</p>'

所以根据需要，使用html.parser

参考：ttps://www.cnblogs.com/forward-wang/p/5978485.html

添加新评论

最受欢迎的文章

最近回复

友情链接