Python:随机为语料库中的文档分配标题


  • 我有一个大型文档语料库,D它基本上是一个包含n条过滤推文的Python列表。

    例如,D[0]是"'远程破解Android手机'的新漏洞威胁着数百万台设备"

    此外,n 的顺序为 10^4。

  • 比如说,我的文档在Z中还有另一个 m = 10 个主题列表,我希望随机分配给每个文档,并且,

    Z = ['hack', 'tools', 'android', 'google', 'anonymous', ... ] .

我如何创建一个 n x 2 数组,以便主题的分配(尽可能接近)一个真正的随机过程?


编辑:

我不确定如何编码。抱歉,如果解释有点模糊,但没有太多信息可以提供。我只是想要一种从 Z 映射到 D 的方法,随机(获得 n x 2 数组而不是n x m 数组,诚实的错误)。

我认为这就是你所追求的。

>>> D = [1,2,3,4,5,6,7,8,9]
>>> Z = ['a','b','c','d','e','f','g']
>>> [[i, random.choice(Z)] for i in D]
[[1, 'a'], [2, 'd'], [3, 'c'], [4, 'f'], [5, 'b'], [6, 'g'], [7, 'f'], [8, 'f'], [9, 'f']]

此列表理解遍历D(您的语料库),并将每个元素与Z的随机元素(您的主题)进行匹配。

不过,元组可能是比单个对的列表更好的选择,因为它们更常用于表示不同事物的集合 - 请参阅此答案以了解何时使用列表与元组。

最新更新