我有一个包含英语语句的数据集。每个语句都被分配了一系列与该语句有关的主题。主题可以是经济、体育、政治、商业、科学等。每个陈述可以有一个以上的主题。有些语句可以有一个主题,有些语句可以具有两个主题,依此类推。对于语句本身,我使用TF-IDF向量将语句转换为特征向量。然而,我对如何将主题转换为用于机器学习训练的特征向量感到困惑。
您可以为每个主题创建一个二进制列,该列将显示语句是否具有此主题。
我有一个包含英语语句的数据集。每个语句都被分配了一系列与该语句有关的主题。主题可以是经济、体育、政治、商业、科学等。每个陈述可以有一个以上的主题。有些语句可以有一个主题,有些语句可以具有两个主题,依此类推。对于语句本身,我使用TF-IDF向量将语句转换为特征向量。然而,我对如何将主题转换为用于机器学习训练的特征向量感到困惑。
您可以为每个主题创建一个二进制列,该列将显示语句是否具有此主题。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium