使用计算字段/REGEX从URL中删除不同的域名



我正试图创建一个名为";页面";使用自定义CSV上传数据源-来自多个网站的URL列表合并为Datastudio中数十个不同域名的数千个URL的大列表。

在CSV中,我有一个名为";URL";。它包含每个页面的完整URL,包括根域名。

对于这些记录中的每一个,我都有另一个字段,称为";根域名";。它有每个URL的根域名。

我想从另一个字段中标识的URL中提取一个字段所标识的根域名;页面";路径根据顶级域名的不同,URL各不相同——有些是.com,有些是.co.uk,有些是.fr,等等。

最终,输出将是这样的:

  1. www.domain.com/test-page->测试页
  2. www.domain.co.uk/test-page->测试页
  3. www.domain.fr/test-page->测试页
  4. 等等

看起来是这样的,但显然不起作用,所以我今天出现在这里:

REGEXP_REPLACE(URL,Root Domain Name,'')

我认为将一个字段的值从另一个字段中删除是一种方法,但可能有一种更好的方法可以简单地操作URL字段,以删除第3/之前的所有内容。

我需要保留域名的第一个/后面(数据格式问题(。

我会仔细研究这一点,并认为肯定有人以前见过这一点——所以欢迎任何意见。

祝大家今天愉快。

我使用以下内容来分解Data Studio中的完整URL:

URL路径:REGEXP_EXTRACT(Url, '^https?://[^/]+(/[^?#]*)')

URL查询:REGEXP_EXTRACT(Url, '[^?]+\?(.+)')

最新更新