Python Spark Databricks二进制分类教程 - 如何对未标记数据进行预测



我希望可以问一个与特定教程有关的问题。也许这里有人使用了相同的教程,并且知道答案。

我使用Kaggle Titanic Dataset关注Databricks Tutorial进行二进制分类。

该教程可与标记的数据集一起使用。执行以下步骤:

  • 预处理:索引所有分类功能,将所有功能都放在称为"功能"的向量中。
  • 建立模型
  • 评估模型
  • 进行预测

教程使用一个大标签的数据集,该数据集被分为火车和测试来构建模型并随后对其进行评估。我可以使用我的火车数据集使用此问题。

现在,我想对没有标签的单独的"测试"数据集做出预测(在我的情况下,"生存"列,如果丢失了"收入"列的教程,则缺少"收入"列(。

有人知道如何处理吗?我是否必须在测试数据集上分别执行教程的整个预处理部分,然后调用以下内容:?

finalPredictions = bestModel.transform(preprocessedUnlabelledTestDataset)

或我可能需要将缺少的标签列(收入/幸存(添加到测试数据集中,然后进行预处理,然后调用以上?

据我了解,您想为泰坦尼克号数据集使用教程模型。最简单的方法是:

添加cols名称,然后添加一个称为train_or_test的列。

然后进行SQL转换,然后进行预处理。

然后替换这条线

(trainingData, testData) = dataset.randomSplit([0.7, 0.3], seed = 100) 为了 trainData = dataset.filter([dataset.train_or_test ==1) # assuming train is set to 1 testData = dataset.filter(dataset.train_or_test ==0) # assuming test is set to 0 然后放下科尔斯并按照自己的状态进行。

最新更新