如何从Alteryx中的HTML标签中提取数字



i有一个刮擦数据集,其中包含以下数据的一列数据集:

<td>1,968</td>
<td>185</td>
<td>1,285<sup id="cite_ref-4" class="reference"><a href="#cite_note-4">[4]</a></sup></td>

我正在使用Alteryx处理数据,我想使用Regex提取HTML标签<td></td>之间的数字。因此,在上述情况下,我应该回到1968年,185和1285年。我尝试了以下正则表达式,但没有使用此测试仪。我相信REGEX的版本应该为Alteryx,但不确定。

>([0-9]+)<
>[0-9]+<

有人可以阐明这一点吗?谢谢!

一种替代的Alteryx方法:使用公式工具删除<td>以及逗号和空格,然后使用Select工具将其剩下的内容施加到您选择的数字类型...将自动将所有内容带到第一个非数字字符。

相关内容

  • 没有找到相关文章

最新更新