我使用Apache spark sql从数据库中查询数据。我知道Spark默认共享hive的同一个元存储。我已经根据列id对输入数据进行了分区,列id具有超过300k个不同的值。到目前为止,该表有超过30万个分区,而且还会定期增加。
是否因此而出现任何问题?
是的,那么多分区条目将在名称节点上产生跟踪每个分区条目的开销。
如果您只有一个表,那么对该列进行Hive索引是一个不错的选择。
我使用Apache spark sql从数据库中查询数据。我知道Spark默认共享hive的同一个元存储。我已经根据列id对输入数据进行了分区,列id具有超过300k个不同的值。到目前为止,该表有超过30万个分区,而且还会定期增加。
是否因此而出现任何问题?
是的,那么多分区条目将在名称节点上产生跟踪每个分区条目的开销。
如果您只有一个表,那么对该列进行Hive索引是一个不错的选择。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium