表示或塑造具有 >700 个要素的数据以进行分类的最佳方式是什么?



我有一个火车数据文件,其中包含0或1个类别标签,其中包含一个包含数字的字符串。字符串是带有类标签的药物的分子结构。

文件看起来像这样:


0   118 307 367 478 505 512 807 878 939 1024 1095 1836 1915 1961 2261 2474 2521 2633 2673 2969 3143 3193 3292 3313 3593 3906 4073 4104 4605 4684 4720 5168 5264 5422 5456 5470 5537 5629 5895 5932 6052 6305 6319 6330 6601 6671 6891 6946 7065 7142 7260 7446 7517 7582 7609 7947 7965 7993 8015 8098 8367 8410 8490 8532 8549 8700 8837 9043 9086 9146 9247 9427 9735 10090 10141 10229 10235 10489 10614 10833 10955 11172 11238 11807 11820 11858 11989 12092 12216 12262 12533 12534 12923 13159 13306 13621 13677 13685 13824 14052 14053 14176 14179 14203 14222 14481 14600 14654 14732 14763 14782 14859 15105 15348 15956 16041 16073 16320 16490 16528 16558 16746 16835 16 74524 74560 74651 74765 74947 75069 75220 75504 75939 76317 76484 76571 76803 76826 77013 77256 77453 77546 77649 77789 77870 77891 77945 77981 78001 78157 78840 78998 79482 79864 79869 79920 80092 80104 80113 80200 80256 80376 80543 80592 80767 80897 81142 81261 81281 81381 81566 81690 82258 82517 82533 82538 82641 82684 82839 82871 83189 83427 83435 83620 83821 83914 84352 84516 84528 84530 84574 84879 85158 85378 85390 85517 85867 86106 86197 86207 86271 86306 86516 86818 87149 87207 87293 87385 87496 87662 87686 87744 87769 87775 87927 87939 88153 88174 88745 88767 88901 88946 88957 88990 88993 89106 89130 89283 89652 89872 90028 90123 90138 90220 90237 90349 90441 90446 90487 90818 91086 91160 91188 91237 91353 91593 91684 91737 91810 91943 92204 92346 92350 92381 92515 92779 92814 93085 93226 93357 93440 93531 94009 94026 94120 94173 94240 94518 94696 94757 94770 94852 94931 94979 95021 95130 95371 95758 95877 96172 96268 96271 96409 96427 96441 96480 96536 96593 96741 96815 96852 96886 96959 97018 97215 97385 97398 97848 97877 97889 98260 98268 98452 98676 98756 98801 98808 98928 99025 99104 99220 99606 99628 99801 
0   87 149 433 704 711 892 988 1056 1070 1234 1246 1289 1642 1669 1861 1924 1956 2081 2150 2909 3038 3070 3082 3589 3708 3709 3713 4011 4266 4404 4489 4534 4674 4688 5114 5133 5190 5253 5815 6114 6645 6750 6767 6862 6880 6960 6986 7028 7080 7112 7262 7426 7492 7494 7522 7614 8100 8258 8581 8631 8799 8824 8872 8958 9011 9146 9197 9202 9247 9249 9300 9324 9353 9391 9392 9669 10234 10314 10323 10341 10455 10471 10764 10811 10871 10938 10973 11210 11277 11317 11331 11470 11581 11588 11670 11820 12199 12250 12274 12372 12425 12471 12504 12505 12540 12575 12764 12801 13424 13457 13561 13587 13650 13700 13832 13873 13916 13974 14044 14203 14246 14386 14454 14676 14942 14952 15372 15555 15570 15938 16176 16233 16268 16274 16419 16765 16820 17236 17260 17287 17307 17319 17324 17369 17674 17714 17749 18091 18154 18327 18630 18957 19072 19395 19943 19962 20179 20355 20728 20807 20850 20958 21068 21424 21890 22029 22165 22314 22316 22548 22620 22764 22820 23018 23197 23326 23671 23707 24003 24178 24205 24258 24324 24347 24401 24405 24569 24820 24939 25172 25352 25541 25783 25952 26022 26376 26523 267295 36435 36605 36732 36931 37155 37242 37263 37347 37420 37431 37496 37589 37627 37824 38249 38385 38481 38551 38715 38752 38915 39157 45730 45770 45881 4595

每个字符串有不同数量的片段(数字序列)。我需要对这个训练集做一些特征约简可能使用随机森林或其他方法。我不清楚应该如何表示这些数据,以便我可以对其进行处理并将其传递给scikit-learn中的模型。我试着把它放到Python的数据框架中,但这导致了一个"参差不齐"的数据框架,这很难处理。我还需要计算方差阈值。

关于如何使用这个文件有什么建议吗?

您需要向量化您的数据,以便您有一个方阵,每个可能的值有一列。您可以使用CountVectorizer(这通常用于处理文本,但它也适用于您的数据)来完成此操作。输出将是一个稀疏矩阵,这取决于你想要使用的模型,你可能必须使用np.array

将其转换为密集数组。
from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer(binary=True, vocabulary=[str(i) for i in range(100000)])
X = vec.fit_transform(df[1])
X
# <162x56905 sparse matrix of type '<class 'numpy.int64'>'
#   with 147915 stored elements in Compressed Sparse Row format>
X.toarray()
# array([[0, 0, 0, ..., 0, 1, 0],
#        [0, 0, 0, ..., 0, 0, 0],
#        [0, 0, 0, ..., 0, 0, 0],
#        ...,
#        [0, 0, 0, ..., 0, 0, 0],
#        [0, 0, 0, ..., 0, 0, 0],
#        [0, 0, 0, ..., 0, 0, 0]])

相关内容

  • 没有找到相关文章

最新更新