删除 HTML 或 TXT 之间<rt>和 </rt> HTML 或 TXT 中的任何内容的最佳方法



我在2000个文件中具有2GB文件的HTML文件我找到了将以下内容应用于所有事物的最佳方法:

1)删除<rt></rt>

之间的任何内容

2)删除<rt>, </rt>, <ruby>, </ruby>

这是一个示例输入和输出

输入:

<ruby>
    <span class="kobospan" id="calibre_link-78">唐</span>
    <rt>
        <span class="kobospan" id="calibre_link-79">とう</span>
    </rt>
    <span class="kobospan" id="calibre_link-80">突</span>
    <rt>
        <span class="kobospan" id="calibre_link-81">とつ</span>
    </rt>
</ruby>
<span class="kobospan" id="calibre_link-82"></span>

输出:

<span class="kobospan" id="calibre_link-78">唐</span>
<span class="kobospan" id="calibre_link-80">突</span>
<span class="kobospan" id="calibre_link-82"></span>

我正在寻找的最理想的解决方案是一个.bat文件,我可以将其拖动并使其应用更改。

最不理想的解决方案是一个带有命令代码的程序,我可以单击自动应用所有更改。

至少,我希望能够一个人手动执行此操作。

由于已经过去了两个星期,而且您没有得到任何答案,即使这不是理想的方法,我也可以为您提供此解决方案:

在记事本 中打开一个文件,然后进行正则调整:

找到什么:</?ruby>s+?^|<rt>.*?</rt>s+?^

在"替换"框中什么也没放置,然后单击"替换全"。

确保您选择了"正则表达式"搜索模式,并已选中了"匹配newline"