我想在HTML标签之间提取两种类型的数字:
>******</a></td>
*****
是一个长度可变的数字 [0-9]{1,5},可以用逗号"311,3454"分隔(逗号也是必需的)
提取这些数字的最佳方法是什么?哎呀,呵呵,呸
grep
可以做到:
grep -Po '(?<=>)[0-9,]*(?=</a></td>)' file
它获取 >
和 </a></td>
之间的数字和逗号的组合。
测试
$ cat a
>234,23</a></td>
>234,23</b></td>
$ grep -Po '(?<=>)[0-9,]*(?=</a></td>)' a
234,23