Python Spark Databricks二进制分类教程 - 如何对未标记数据进行预测 - Python Spark Databricks binary classification tutorial - How to make prediction for unlabelled data? 小贝子编程网

我希望可以问一个与特定教程有关的问题。也许这里有人使用了相同的教程，并且知道答案。

我使用Kaggle Titanic Dataset关注Databricks Tutorial进行二进制分类。

该教程可与标记的数据集一起使用。执行以下步骤：

预处理：索引所有分类功能，将所有功能都放在称为"功能"的向量中。
建立模型
评估模型
进行预测

教程使用一个大标签的数据集，该数据集被分为火车和测试来构建模型并随后对其进行评估。我可以使用我的火车数据集使用此问题。

现在，我想对没有标签的单独的"测试"数据集做出预测(在我的情况下，"生存"列，如果丢失了"收入"列的教程，则缺少"收入"列(。

有人知道如何处理吗？我是否必须在测试数据集上分别执行教程的整个预处理部分，然后调用以下内容：？

finalPredictions = bestModel.transform(preprocessedUnlabelledTestDataset)

或我可能需要将缺少的标签列(收入/幸存(添加到测试数据集中，然后进行预处理，然后调用以上？

据我了解，您想为泰坦尼克号数据集使用教程模型。最简单的方法是：

添加cols名称，然后添加一个称为train_or_test的列。

然后进行SQL转换，然后进行预处理。

然后替换这条线

(trainingData, testData) = dataset.randomSplit([0.7, 0.3], seed = 100)为了 trainData = dataset.filter([dataset.train_or_test ==1) # assuming train is set to 1 testData = dataset.filter(dataset.train_or_test ==0) # assuming test is set to 0然后放下科尔斯并按照自己的状态进行。

Python Spark Databricks二进制分类教程 - 如何对未标记数据进行预测

相关内容

最新更新

热门标签：