我正在与pyspark合作,我的火花1.6。我想将一些值分组在一起。
+--------+-----+
| Item |value|
+--------+-----+
| A | 187|
| B | 200|
| C | 3|
| D | 10|
我将将所有项目少10%的总价值分组在一起(在这种情况下,C和D将分为新值"其他")
所以,新桌子看起来像
+--------+-----+
| Item |value|
+--------+-----+
| A | 187|
| B | 200|
| Other | 13|
有些人知道这样做的功能或简单方法吗?非常感谢您的帮助
您可以两次过滤数据框架,以获取一个数据框,其中只需保留您要保留的值,而一个仅与其他值。对其他数据框进行汇总以将它们汇总,然后将两个数据框架重新集中在一起。根据数据,您可能需要在所有这些之前持续存在原始数据帧,以便不需要两次对其进行评估。