"$path"到底是做什么用的?我刚刚运行了"从表限制 10 中选择"$path",在 athena 中它显示了数据指向的 S3 的文件路径。但是当我给出限制 10 时,它会显示相同的路径 10 次,如果我不限制语句,它就会扫描整个数据。可以取悦外星人。
"$path"
是一个伪列,它计算给定行来自的源文件的路径。这是由Presto的Hive连接器提供的。如果你有一个包含 100 行的文件,你将得到 100 次相同的路径。
如果你想得到前十条不同的路径,你应该尝试
select DISTINCT "$path" from table limit 10