如果我有一个像这样的表格
ID Date Disease
1 03.07 A
1 03.07 B
1 03.09 A
1 03.09 C
1 03.10 D
我写了一段代码,如下所示:
def combination(listData):
comListData = [];
for datum in listData :
start = listData.index(datum) + 1
while start < len(listData) :
if datum!=listData[start] :
comStr = datum+':'+listData[start]
if not comStr in comListData :
comListData.append(comStr)
start+=1;
return comListData
def insertToDic(dic,comSick):
for datum in comSick :
if dic.has_key(datum) :
dic[datum]+=1
else :
dic[datum] = 1
try:
con = mdb.connect('blahblah','blah','blah','blah')
cur = con.cursor()
sql ="select * from table"
cur.execute(sql);
data = cur.fetchall();
start = 0
end = 1
sick = []
dic = {}
for datum in data :
end = datum[0]
if end!=start:
start = end
comSick = combination(sick)
insertToDic(dic,comSick)
sick = []
sick.append(datum[2])
start = end
comSick = combination(sick)
insertToDic(dic,comSick)
for k,v in dic.items():
a,b = k.split(':')
print >>f, a.ljust(0), b.ljust(0), v
f.close()
然后我得到了:
From To Count
A B 1
A A 1
A C 1
A D 1
B A 1
B C 1
B D 1
A C 1
A D 1
C D 1
我得到的最终版本表是(在相同的 ID 中,相同的方向,例如 A --> C 计为 1 而不是 2。像A这样的疾病>A不算在内。A --> B 与 B 不同 --> A)
From To Count
A B 1
A C 1
A D 1
B A 1
B C 1
B D 1
C D 1
但我想要的是(不包括相同日期的情况版本):
From To Count
A A 1
A C 1
A D 1
B A 1
B C 1
B D 1
A D 1
C D 1
最后
From To Count
A C 1
A D 1
B A 1
B C 1
B D 1
C D 1
我应该编辑代码的哪一部分?
让我试着改写一下你的问题。对于每个ID
(不包括日期以使问题更简单),您希望所有可能的值对都位于Disease
列中,以及它们出现的频率,以及该对的重要性顺序。现在,前面有一个内置的函数Python
可以实现这一点:
from itertools import permutations
all_pairs = permutations(diseases, 2)
鉴于您的数据,我猜它是在 csv 文件中。如果不是,请自己调整我的代码(这是一种微不足道的谷歌搜索)。我们将在数据科学堆栈中使用著名的库,称为 Pandas
.事情是这样的:
from itertools import permutations
import pandas as pd
df = pd.read_csv('data.csv', header=0)
pairs_by_did = df.groupby('ID').apply(lambda grp: pd.Series(list(permutations(grp['Disease'], 2))))
all_pairs = pd.concat([v for i, v in pairs_by_did.iterrows()])
pair_counts = all_pairs.value_counts()
print pair_counts
对于您的示例,它打印
>>> print pair_counts
(A, B) 2
(D, A) 2
(A, D) 2
(C, A) 2
(B, A) 2
(A, C) 2
(A, A) 2
(C, B) 1
(D, C) 1
(C, D) 1
(D, B) 1
(B, D) 1
(B, C) 1
Name: 1, dtype: int64
现在按ID
分组,同时按date
分组,看看你得到了什么。