我已经下载了yago.n3数据集
但是,对于测试,我希望使用较小版本的数据集(因为数据集是 2 GB),即使我做了一个小的更改,也需要花费大量时间来调试。
因此,我尝试复制一小部分数据并创建一个单独的文件,但这不起作用并抛出了词汇错误。
我看到了早期的帖子,但是早期的帖子是关于大数据集的,而我正在寻找较小的数据集。
有什么方法可以让我获得较少数量的相同数据集?
如果你手头有一个RDF解析器来读取你的yago.n3文件,你可以解析它,并在一个单独的文件上写入尽可能多的RDF三元组,只要你想要/需要你的小数据集来运行你的实验。
如果你找到一些N-Triples格式的数据(即每行一个RDF三元组),你可以随心所欲地获取尽可能多的行,并使你的数据集尽可能小:head -n 10 filename.nt会给你一个10个三元组的小数据集。