我总是在不使用prep()
、bake()
或juice()
:的情况下完成模型的拟合和预测
rec_wflow <-
workflow() %>%
add_model(lr_mod) %>%
add_recipe(rec)
data_fit <-
rec_wflow %>%
fit(data = train_data)
这些(prep
、bake
、juice
(函数是否仅用于目视检查数据的预处理结果,而不是拟合/训练过程所必需的?
R包装中的制备/烘焙/果汁之间的区别是什么;食谱"?
上面的代码是我在官方教程中学习的。
我在另一篇博客中读到,如果使用train_data
,就会产生数据泄漏。我想听听更多关于这方面的消息;这些功能与数据泄露有关吗?
简单回答:您是对的,当在工作流中使用配方时,如您的示例所示,不需要预处理功能。
这一点在教程中有所涉及。使用tidymodels:处理#TidyTuesday攀登探险数据中的类不平衡
我们将在工作流((中使用此配方,因此我们不需要太多关于是否准备((的压力。如果你想探索配方对你的数据做了什么,你可以先准备((配方来估计每个步骤所需的参数,然后烘焙(new_data=NULL(来提取应用了这些步骤的训练数据。
我推荐Julia博客上的所有教程来理解花絮模型。