句子的唯一ID



我正在用各种不同的语言(unicode(提供数百个文本片段。我需要为每个句子分配一个唯一的ID,这样我就可以训练ML算法。我写了自己的算法,大约有3万个重复的数字。然后我找到了这个解决方案:

def remapWord(word):
return int.from_bytes(word.encode(), 'little')

但显然int对numpy来说太大了,它抛出了

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

当我试图拟合数据时。有没有其他方法可以获得唯一的ID或防止出现值错误?

import hashlib 
def remap(word):
h = hashlib.md5()
h.update(word)
return int(h.hexdigest(), 16))

最新更新