从html表制作数据帧时,是否可以在pandas read_html中保留换行符



我正在尝试使用pandasread_html将一个刮过的HTML表转换为python中的数据帧。问题是read_html在没有中断的情况下引入了我的一列数据,这使得这些单元格的内容很难解析。在原始HTML中;单词";列中的分隔符。有没有一种方法可以保持这种格式或以其他方式保持";单词";转换为数据帧时分离?

import requests
from bs4 import BeautifulSoup
import pandas as pd
url="https://www.who.int/en/activities/tracking-SARS-CoV-2-variants/"
html_content = requests.get(url).text
# Parse the html content
soup = BeautifulSoup(html_content, "lxml")
voc_html = soup.find("table")
#convert to dataframe
voc_df = pd.read_html(str(voc_html))[0]
#retain list of variants
voc_list=voc_df['Pango lineages']

来自voc_list的示例,其中单独的项目被弄脏在一起:voc_list[1]

`B.1.351xa0B.1.351.2B.1.351.3`

我希望它看起来像:B.1.3510 B.1.351.2 B.1.351.3(或者每个项目都在自己的行上(

摘录自原始html版本,其中包括中断:

<td style="width:13%;background-color:#69d4ef;text-align:left;vertical-align:middle;">Beta <br/></td><td style="width:12.9865%;background-color:#69d4ef;text-align:left;"><p>B.1.351 <br/>B.1.351.2<br/>B.1.351.3</p></td>

感谢您的指导!

也许。。。

import pandas as pd
import requests
url = r'https://www.who.int/en/activities/tracking-SARS-CoV-2-variants/'
page = requests.get(url)
table = pd.read_html(page.text.replace('<br />',' '))
df = table[0]

输出:

WHO label               Pango lineages GISAID clade Nextstrain clade  
0     Alpha                      B.1.1.7          GRY         20I (V1)   
1      Beta  B.1.351 B.1.351.2 B.1.351.3   GH/501Y.V2         20H (V2)   
2     Gamma              P.1 P.1.1 P.1.2   GR/501Y.V3         20J (V3)   
3     Delta          B.1.617.2 AY.1 AY.2    G/478K.V1              21A   
Additional amino acid changes monitored* Earliest documented samples  
0                          +S:484K +S:452R    United Kingdom, Sep-2020   
1                                  +S:L18F      South Africa, May-2020   
2                                  +S:681H            Brazil, Nov-2020   
3                                  +S:417N             India, Oct-2020   
Date of designation  
0                       18-Dec-2020  
1                       18-Dec-2020  
2                       11-Jan-2021  
3  VOI: 4-Apr-2021 VOC: 11-May-2021 
print(df)

同样,您可以用n替换<br />

最新更新