从 Python 中的字符串中删除 Wiki 标记

我有一个字符串，其中包含从Wikia页面下载的信息。

为了解析其内容，我将如何从页面中删除所有 Wiki 格式，只留下原始文本？

下面是可能出现的情况的示例：

#REDIRECT[[Blah]]
{{
I have some stuff in here
}}
[[I also have some stuff in here|and here]]
[[http://blehthisisfake.com Link to a fake website]]
&lt;span class="plainlinks"&gt;This is quite useless. Why was [[this page]] even created?&lt;/span&gt;
&lt;nowiki&gt;There are more HTML tags, they should probably all be stripped...&lt;/nowiki&gt;
There is random text in here. bleh bleh bleh
I'm not sure what single [brackets] do, but they should be stripped too...

预期产出：

这里有随机文本。呜��我不确定单身做什么，但它们也应该被剥离......

有没有可以做到这一点的模块？

谷歌搜索"python wiki parser"会发现这段代码，它会剥离并替换标签（有关详细信息，请参阅链接中的源代码）。

相关内容

最新更新

热门标签：