我正在尝试制作一个ml模型,可以使用MNB预测给定句子的类别,但在训练数据中有不需要的类。如何删除数据
这是我使用的数据集
这个数据集不属于我
Misra, Rishabh and Prahal Arora。"混合神经网络的讽刺检测"[j] . arXivpreprint arXiv:1908.07414 (2019).
Misra, Rishabh和Jigyasa Grover。为机器学习雕刻数据:机器学习的第一步ISBN 9798585463570 (2021).
我想删除某些类别,如"美国"。"新闻"、"政治"等等。我怎么能做到呢?
我试图通过在python中使用json模块加载它来读取数据,但不知何故也不工作。
python中用于数据操作的常用库是pandas。
你可以用下面的函数加载这个json:
import pandas as pd
df = pd.read_json("path/to/the/file")
然后你可以删除你想要的列:
df.drop(["US.NEWS", "POLITICS"], axis=1)
当然你可以使用其他库,比如polars和pyspark!