Python - Beautifulsoup to PDF with picture(相对路径)



我用mechanize来浏览网站。之后,我使用beautifulsoup来处理网页的内容(转换为unicode,删除一些行)。现在我想从Beautifulsoup获得的html源代码创建一个PDF文件。我使用pdfkit,它可以很好地处理文本。但现在我想创建一个pdf格式的图片在html代码中。通过使用相对路径'../.. '来指定url(也适用于图片)。

我怎么能改变所有的url考虑绝对路径,我怎么能获得pdf文件中的图片?路径的改变是否足以获得图片?

解决方案:(基于dudu1791提案)

#changement liens vers images
def ChangeLinkIMG(soup,baseurl):
    #parcours des images
    for imgLK in soup.findAll('img'):    
        #chemin relatif image
        try:
            relaIMG=imgLK['src'] 
            #creation lien absolu
            absoIMG=urljoin(baseurl,relaIMG)
            imgLK['src']=absoIMG
            print absoIMG
        except:
            pass
    return soup

这可能是答案的一半,但下面的代码可以帮助您将url转换为考虑绝对路径。我是这样做的。

def parse_all_links(self, soup):            
        for link in soup.find_all('a'):                
            if(link.get('href')):
                href = link.get('href')
                if href.startswith('http') or href.startswith('https'):
                    print(href)                        
                elif href =='#':
                    #print('No link present')
                    pass
                elif href =='/':
                    pass
                else:
                    href = baseurl + href
                    print(href)

最新更新