我使用Python从网站上抓取数据。结果非常好。仅仅是下班后的聚会就很烦人。
HTML源代码(当然)被各种类型的div class="abc123">
标记搞砸了。
我们有一个Excel极客技巧可以快速删除它们吗?
我手动搜索一个<div ...>
标签,并通过搜索的替换功能删除指定的标签。在我跳到下一个div标签后,以此类推…
这不是有点过分了吗;"老派";如何移除?当然,有一些在线服务(免费和付费)可以做到这一点,但我相信我们在Excel中有一个技巧,我只是现在不能把它拿出来。使用外部服务(如在线工具)来清理HTML代码也是一项额外的工作负载,这是不必要的。
在尝试了一些RegEx之后,我能够解决我的问题:
按Ctrl
+
H
打开Find and Replace
,然后输入我的模式<div *>
并将其替换为-whatever:
- 查找内容:
<div *>
- 替换为:
终于到了。