如果有一个文件的范围按第一列排序(范围没有重叠):
1 10
12 15
18 19
另一个,按第一列排序(可以有重叠):
1 5
2 10
12 13
13 20
我想确定第二个文件中的每一行(范围),该行(范围)是否与第一个文件中的任何范围相交。到目前为止,我做了以下工作
df_1 = pd.read_csv('range1.txt',sep=' ')
df_2 = pd.read_csv('range2.txt',sep=' ')
for i in xrange(len(df_1)):
start_1 = df_1.iloc[i,0]
stop_1 = df_1.iloc[i, 1]
for j in xrange(len(df_2)):
start_2 = df_2.iloc[j,0]
stop_2 = df_2.iloc[j, 1]
if start_2 > stop_1:
break
elif stop_2 < start_1:
continue
else:
# add ranges from second file to list
我知道这可能非常低效,所以我想知道是否有一种计算效率更高/更快的方法来解决这个问题。
@Olivier Pellier-Cuit 提供了快速重叠测试的链接。如果需要成员资格检查而不是重叠测试,请使用此算法。
因此,使用此算法,我们可以执行以下操作:
df1['m'] = (df1.a + df1.b)
df1['d'] = (df1.b - df1.a)
df2['m'] = (df2.a + df2.b)
df2['d'] = (df2.b - df2.a)
df2[['m','d']].apply(lambda x: (np.abs(df1.m - x.m) < df1.d +x.d).any(), axis=1)
PS 我通过摆脱division by 2
稍微简化了m
和d
的计算,因为它可以消除常用术语。
输出:
In [105]: df2[['m','d']].apply(lambda x: (np.abs(df1.m - x.m) < df1.d +x.d).any(), axis=1)
Out[105]:
0 True
1 True
2 True
3 True
4 False
dtype: bool
设置:
df1 = pd.read_csv(io.StringIO("""
a b
1 10
12 15
18 19
"""), delim_whitespace=True)
df2 = pd.read_csv(io.StringIO("""
a b
1 5
2 10
12 13
13 20
50 60
"""), delim_whitespace=True)
注意:我特意在DF2中添加了一对(50,60),它与DF1的任何间隔都不重叠
包含计算m
和d
列的数据框:
In [106]: df1
Out[106]:
a b m d
0 1 10 11 9
1 12 15 27 3
2 18 19 37 1
In [107]: df2
Out[107]:
a b m d
0 1 5 6 4
1 2 10 12 8
2 12 13 25 1
3 13 20 33 7
4 50 60 110 10
只是想知道df2
的范围是否与df1
的范围重叠:
if df1.ix[:,0].min() >= df2.ix[:,0].max() or df1.ix[:,0].max() <= df2.ix[:,0].min():
print ("nope")
else:
print ("overlap")