Merge with Pyspark



我正在与pyspark合作,我的火花1.6。我想将一些值分组在一起。

+--------+-----+
|  Item  |value|
+--------+-----+
|  A     |  187|
|  B     |  200|
|  C     |    3|
|  D     |   10|

我将将所有项目少10%的总价值分组在一起(在这种情况下,C和D将分为新值"其他")

所以,新桌子看起来像

+--------+-----+
|  Item  |value|
+--------+-----+
|  A     |  187|
|  B     |  200|
| Other  |   13|

有些人知道这样做的功能或简单方法吗?非常感谢您的帮助

您可以两次过滤数据框架,以获取一个数据框,其中只需保留您要保留的值,而一个仅与其他值。对其他数据框进行汇总以将它们汇总,然后将两个数据框架重新集中在一起。根据数据,您可能需要在所有这些之前持续存在原始数据帧,以便不需要两次对其进行评估。

相关内容

  • 没有找到相关文章

最新更新