如何从我的数据集中删除某些类别



我正在尝试制作一个ml模型,可以使用MNB预测给定句子的类别,但在训练数据中有不需要的类。如何删除数据

这是我使用的数据集

这个数据集不属于我

Misra, Rishabh and Prahal Arora。"混合神经网络的讽刺检测"[j] . arXivpreprint arXiv:1908.07414 (2019).

Misra, Rishabh和Jigyasa Grover。为机器学习雕刻数据:机器学习的第一步ISBN 9798585463570 (2021).

我想删除某些类别,如"美国"。"新闻"、"政治"等等。我怎么能做到呢?

我试图通过在python中使用json模块加载它来读取数据,但不知何故也不工作。

python中用于数据操作的常用库是pandas。

你可以用下面的函数加载这个json:

import pandas as pd
df = pd.read_json("path/to/the/file")

然后你可以删除你想要的列:

df.drop(["US.NEWS", "POLITICS"], axis=1)

当然你可以使用其他库,比如polars和pyspark!

相关内容

  • 没有找到相关文章

最新更新