我知道,例如,使用Zeppelin笔记本的Qubole的Hive产品,我可以使用Spark SQL执行本机SQL命令以与Hive表进行交互。 我可以从外部表中读取并创建内部表,或者只是运行即席查询。
我正在 AWS 中从事一个项目。 我在 S3 中有数据,并在 Athena 中创建外部表。 我找到了文章,并按照它们设置了一些Jupyter笔记本,但我不明白如何让笔记本运行Spark SQL。 这可能吗?
如果不是,AWS 生态系统中封装逻辑以从外部表创建内部表以进行辅助数据处理的最佳机制是什么?
您有两个选择:
1) 在 EMR 上运行 Jupyter 笔记本:https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-managed-notebooks.html
2)在SageMaker上运行Jupyter笔记本:https://docs.aws.amazon.com/sagemaker/latest/dg/gs.html
两者都支持 PySpark,因此您应该能够在数据所在的任何后端上运行 SQL 查询。