问题:由于数据库中html文本中标签有部分没有闭合,导致使用htmltopdf转换时失败,如何将未闭合的标签进行补全?
解决:使用BeautifulSoup的prettify
方法:
from bs4 import BeautifulSoup as bs
a = '<p><a href="http://mantutu.com">mantutu</a><span>蛮兔兔</span>'
bs(a, 'lxml').prettify()
输出如下:
'<html>\n <body>\n <p>\n <a href="http://www.mantutu.com">\n mantutu\n
</a>\n <span>\n 蛮兔兔\n </span>\n </p>\n </body>\n</html>'
bs(a, 'html.parser').prettify()
输出如下:
'<p>\n <a href="http://www.mantutu.com">\n mantutu\n </a>\n <span>\n
蛮兔兔\n </span>\n</p>'
所以根据需要,使用html.parser
参考:ttps://www.cnblogs.com/forward-wang/p/5978485.html