HtmlAgilityPack 从 HTML 中剥离嵌套的 div 和跨度,但保留内容



有用户试图将这样的内容粘贴到文本区域

    <p><span style="font-size:16px">
<span dir="RTL">در وقايع تاريخي صدر اسلام لفظ <span style="color:#008000">
<span style="font-size:22px">شيعه </span>
</span>تنها به معناي لغوي آن یعنی <span style="color:#FF0000">مناصره</span> و
<span style="color:#FF0000"> پیروی</span> و متابعه آمده است، بلكه مي‌بينيم كه در عهدنامه حکمیّت و واگذاري حكومت بين دو خليفه علي و معاويه </span>
<span dir="RTL">ب</span> 
<span dir="RTL">كلمه شيعه بر پيروان علي  اطلاق شده؛ همآن‏گونه که</span></span>بر پيروان معاويه نيز اطلاق شده و به پيروان علي اختصاص نيافته است.</p>

可以看到它有很多嵌套的span。我也从一些人那里得到了同样的答案。我该如何去剥离所有的跨度和div标签,但保持内容InnerText?所以我只剩下一大块文字被P标签包围了?

感谢您的帮助。

使用正则表达式如何?

// Remove all tags
string clean = Regex.Replace(dirty, "<[^>]*>", "");
// put back the P tag
string result = "<p>" + clean  + "</p>"

最新更新