我正在编写代码来处理URL列表,但是有些URL有问题,我需要在for循环中传递它们。我试过这个:
x_data = []
y_data = []
for item in drop['URL']:
if re.search("J", str(item)) == True:
pass
else:
print(item)
var = urllib.request.urlopen(item)
hdul = ft.open(var)
data = hdul[0].data
start = hdul[0].header['WMIN']
finish = hdul[0].header['WMAX']
start_log = np.log10(start)
finish_log = np.log10(finish)
redshift = hdul[0].header['Z']
length = len(data[0])
xaxis = np.linspace(start, finish, length)
#calculating emitted wavelength from observed and redshift
x_axis_nr = [xaxis[j]/(redshift+1) for j in range(len(xaxis))]
gauss_kernel = Gaussian1DKernel(5/3)
flux = np.convolve(data[0], gauss_kernel)
wavelength = np.convolve(x_axis_nr, gauss_kernel)
x_data.append(x_axis_nr)
y_data.append(data[0])
其中drop是先前定义的pandas DataFrame。之前关于这个主题的问题表明regex可能是一种方法,我已经尝试过过滤掉任何包含字母J的URL(这些只是不好的(。
我得到这个:
http://www.gama-survey.org/dr3/data/spectra/sdss/spec-0915-52443-0581.fit
http://www.gama-survey.org/dr3/data/spectra/sdss/spec-0915-52443-0582.fit
http://www.gama-survey.org/dr3/data/spectra/sdss/spec-0915-52443-0584.fit
http://www.gama-survey.org/dr3/data/spectra/sdss/spec-0915-52443-0587.fit
http://www.gama-survey.org/dr3/data/spectra/sdss/spec-0915-52443-0589.fit
http://www.gama-survey.org/dr3/data/spectra/sdss/spec-0915-52443-0592.fit
http://www.gama-survey.org/dr3/data/spectra/2qz/J113606.3+001155a.fit
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-8-2a3083a3a6d7> in <module>
14 finish_log = np.log10(finish)
15 redshift = hdul[0].header['Z']
---> 16 length = len(data[0])
17
18 xaxis = np.linspace(start, finish, length)
TypeError: object of type 'numpy.float32' has no len()
这和我在尝试删除J URL之前遇到的错误是一样的,所以很明显我的正则表达式不起作用。我很乐意就如何过滤这些信息提供一些建议,并乐意根据需要提供更多信息。
无需比较re.search
和True
的结果。从documentation
可以看到,当找到匹配时,search
返回一个match object
:
扫描字符串,查找正则表达式模式生成匹配的第一个位置,返回相应的匹配对象。如果字符串中没有与模式匹配的位置,则返回
None
;请注意,这与在字符串中的某个点找到零长度匹配不同。
因此,当比较match object
和True
时,返回的是False
,并且执行else
条件。
In [35]: re.search('J', 'http://www.gama-survey.org/dr3/data/spectra/2qz/J113606.3+001155a.fit') == True
Out[35]: False