i有一个刮擦数据集,其中包含以下数据的一列数据集:
<td>1,968</td>
<td>185</td>
<td>1,285<sup id="cite_ref-4" class="reference"><a href="#cite_note-4">[4]</a></sup></td>
我正在使用Alteryx处理数据,我想使用Regex提取HTML标签<td>
和</td>
之间的数字。因此,在上述情况下,我应该回到1968年,185和1285年。我尝试了以下正则表达式,但没有使用此测试仪。我相信REGEX的版本应该为Alteryx,但不确定。
>([0-9]+)<
>[0-9]+<
有人可以阐明这一点吗?谢谢!
一种替代的Alteryx方法:使用公式工具删除<td>
以及逗号和空格,然后使用Select工具将其剩下的内容施加到您选择的数字类型...将自动将所有内容带到第一个非数字字符。