我在pandas数据框架中有一个字段,其中有一个文本字段,我想为其生成BioBERT嵌入。有一个简单的方法,我可以生成向量嵌入?我想在另一个模型中使用它们。
下面是数据帧
的一个假设样本访问代码 | 问题评估 | |
---|---|---|
1234 | ge回流工作诊断良好 | |
4567 | 药品补药单工作诊断说明在brand benicar中称为5mg qd 30 PRN补药 |
尝试如下安装:
pip install biobert-embedding==0.1.2 torch==1.2.0 -f https://download.pytorch.org/whl/torch_stable.html
我扩展了您的示例数据框架,以说明您现在如何计算problem assessments
的句子向量,并使用这些向量来计算类似visit codes
之间的余弦相似度。
>>> from biobert_embedding.embedding import BiobertEmbedding
>>> from scipy.spatial import distance
>>> import pandas as pd
>>> data = {'Visit Code': [1234, 1235, 4567, 4568],
'Problem Assessment': ['ge reflux working diagnosis well',
'other reflux diagnosis poor',
'medication refill order working diagnosis note called in brand benicar 5mg qd 30 prn refill',
'medication must be refilled diagnosis note called in brand Olmesartan 10mg qd 40 prn refill']}
>>> df = pd.DataFrame(data)
>>> df
问题评估ge回流工作诊断良好