python的html标签补全

本文共有669个字,关键词:

问题:由于数据库中html文本中标签有部分没有闭合,导致使用htmltopdf转换时失败,如何将未闭合的标签进行补全?

解决:使用BeautifulSoup的prettify

方法:

from bs4 import BeautifulSoup as bs
a = '<p><a href="http://mantutu.com">mantutu</a><span>蛮兔兔</span>'
bs(a, 'lxml').prettify()
输出如下:
'<html>\n <body>\n  <p>\n   <a href="http://www.mantutu.com">\n    mantutu\n
 </a>\n   <span>\n    蛮兔兔\n   </span>\n  </p>\n </body>\n</html>'

bs(a, 'html.parser').prettify()
输出如下:
'<p>\n <a href="http://www.mantutu.com">\n  mantutu\n </a>\n <span>\n
 蛮兔兔\n </span>\n</p>'

所以根据需要,使用html.parser

参考:ttps://www.cnblogs.com/forward-wang/p/5978485.html

版权声明:本文为作者原创,如需转载须联系作者本人同意,未经作者本人同意不得擅自转载。
添加新评论
暂无评论