Python正则表达式在多个Latex表达式匹配之间阻塞文本



我正试图从StackExchange语料库中清除对话文本,该语料库中包含可能包含Latex表达式的句子。Latex表达式由$符号分隔:例如$y=ax+b$

以下是包含多个Latex表达式的数据中的一行示例文本:

@Gruber-这是另一个例子,当这样应用时:$\mathrm{Var}\left(X^2 \right(=4 X^2 \mathrm{Var}(X($没有任何意义,左边有一个常数,右边有一个随机变量。你的意思是$4E(X(^2 Var(X($祝福那些走上人迹罕至之路的人吗。你的理论中的另一个例外是$4E(X(^2 Var(X($。你在想什么?:(

到目前为止,我所拥有的是:它似乎在每个Latex Expression匹配之间打断了文本,并给出了一个不正确的巨大匹配。

([$](.*)[$]){1,3}?

我不明白你为什么把{1,3}放在最后,你试图实现什么目标。无论如何,您的错误是使用了[$],它给了您一组两个字符——一个反斜杠和一个美元。我建议你使用

$([^$]*)$

并用一个空字符串替换它:在这里演示

最新更新