我正在构建一个抓取蜘蛛,我希望得到一些关于如何从Python中的每个响应中提取正确信息的帮助
response.css(".print-acta-temp::text").get()
"TEMPORADA 2021 - 2022">
我想知道如何只收集2021-2022。我应该使用str命令吗?
response.css(".print-acta-data::text").get()
'Data: 14-05-2022, 19:00h'
我只需要提取日期到一个变量和时间到另一个变量。
response.css(".print-acta-comp::text").get()
' CADET PRIMERA DIVISIÓ - group 2'
我需要收集第一个空格之前的数据,在2个空格之间收集的数据,最后将数字放入另一个变量。
response.css(".print-acta-jornada::text").get()
"Jornada 28">
我需要收集第一个空格后的数据。
如果您信任网站能够生成您想要的数据,则可以使用
tu_string = 'TEMPORADA 2021-2022'
nueva_string = tu_string.replace('TEMPORADA ','')
print (nueva_string)
就像,有正则表达式和所有这些,但是你可以稍后再学习。
一个简单的方法是分割我需要收集第一个空格之前的数据,收集到的数据在两个空格之间,最后将数字放入另一个变量。
teva_string = 'CADET PRIMERA DIVISIÓ - GRUP 2'
teva_lista = teva_string.split(' ')
print (teva_lista)
关于如何解析字符串的任何决定都将取决于一个人对字符串将采取何种形式的假设。在"TEMPORADA 2021-2022"的特殊情况下,执行my_string.split(' ')[1]
将获得年份。'Data: 14-05-2022, 19:00h'.split(' ')
将得到列表['Data: 14-05-2022,, '19:00h']
,而'Data: 14-05-2022, 19:00h'.split('-')
将得到列表['Data: 14-05-2022', ' 19:00h']
。您还可以使用日期时间库或正则表达式,如果数据的形式不同,后者允许更多的自定义。