小贝子编程

如何从Alteryx中的HTML标签中提取数字

i有一个刮擦数据集，其中包含以下数据的一列数据集：

<td>1,968</td>
<td>185</td>
<td>1,285<sup id="cite_ref-4" class="reference"><a href="#cite_note-4">[4]</a></sup></td>

我正在使用Alteryx处理数据，我想使用Regex提取HTML标签<td>和</td>之间的数字。因此，在上述情况下，我应该回到1968年，185和1285年。我尝试了以下正则表达式，但没有使用此测试仪。我相信REGEX的版本应该为Alteryx，但不确定。

>([0-9]+)<
>[0-9]+<

有人可以阐明这一点吗？谢谢！

一种替代的Alteryx方法：使用公式工具删除<td>以及逗号和空格，然后使用Select工具将其剩下的内容施加到您选择的数字类型...将自动将所有内容带到第一个非数字字符。

相关内容