生物域中的数据集,例如Word2Vec和Glove中使用的单词相似性数据集



我正在训练有关生物医学文本的Word2Vec。为了执行单词相似性和单词类比测试,我想拥有成对的生物医学术语具有相同关系(可能是任何关系),就像我们在Word2Vec中拥有全面的城市国家数据列表一样。我尝试搜索网络,但由于我是新来的域名,因此我发现它令人困惑。

那么,我在哪里可以找到与药物或蛋白质作用相关的列表?或我该如何挖掘这些数据。请公开提供此类数据集。另外,请提出任何其他有趣的关系,我也可以查询。

另一种方法是使用可用的本体学,因为它们包括诸如has-part,is-a a-a-away of doing,is-a a af as-a a as-a-a-a-a-symptom等概念之间的关系。我可以使用本体论提取这种对吗?如果是,那么什么本体论?如何?

是否已经有任何可以达到我目的的黄金标准数据集?

所以,我在哪里可以找到与药物或蛋白质效法相关的列表, 等?

看看Chembl,例如阿司匹林与其靶向环氧酶

有关

另一种方法是使用可用的本体学,因为它们包括 诸如hos-part,a-a a-away of doing of doing of to之间的概念之间的关系, 我可以使用本体论提取 这样的成对?如果是,那么什么本体论以及如何?

一个好的开始是Chebi本体学。

最新更新