试图将红移查询的一部分转换为SparkSQL或SQL和UDF的某些组合:
REGEXP_SUBSTR(referrer, '[^/]+\.[^/:]+') as referrer_domain,
尝试使用 regexp_extract(referrer, '[^/]+\.[^/:]+', 1)
,但这似乎并没有用相同的方式工作,并且返回结果不一致。
任何指针都赞赏!
您应该能够在Spark SQL中使用Regexp_extract,类似的东西 -
regexp_extract(columnName, '(YourRegex)', 1) as aliasName
请注意()周围的()以捕获该组。希望它有帮助!