我希望使用Senseval-2粗感数据集,但有相同的描述(关于数据集的格式)。
应该有决策数据,即两种感觉是否应该合并。中间值是信心度量吗?此外,他们还使用了Wordnet 1.7的预发布版。我可以使用Wordnet 1.7做同样的事情吗?
文件中的示例如下:
material%5:00:00:physical:00 3 material%5:00:00:world:00
material%3:00:03:: 3 material%5:00:00:worldly:00
material%3:00:04:: 2 material%3:00:01::
材料% 3:00:02::
post % 5:00:00:成功(a): 00
现在% 3:00:01::
现在% 3:00:02::
现在% 3:01:00::
石% 3:01:00::
石% 5:00:00:色:00
空气%1:15:00::4空气%1:27:00::
空气%1:19:00::4空气%1:27:00::
空气%1:27:01::4空气%1:27:00::
空气% 1:04:00::
空气% 1:10:02::
空气% 1:07:00::
空气% 1:10:01::
appeal%1:04:00:: 3 appeal%1:10:00::
appeal%1:10:02:: 3 appeal%1:10:00::
通过检查,中间的数字实际上描述了有多少个感官处于相同的合并意义。例如:
matrial%5:00:00:physical:00 3 material%5:00:00:worldly:00
material%3:00:03:: 3 material%5:00:00:worldly:00
基本上说有3种感觉被认为与material%5:00:00:worldly:00
相同,它们是两行提供的两种感觉,以及感觉本身。
您还可以看到没有数量的感觉没有合并,例如air%1:04:00
,并且对于感觉material%3:00:04:: 2 material$2:00:01::
,您可以看到有两个感觉。所以你可以通过将第一个位置的感觉映射到第二个位置的感觉来进行合并。