我正试图从StackExchange语料库中清除对话文本,该语料库中包含可能包含Latex表达式的句子。Latex表达式由$符号分隔:例如$y=ax+b$
以下是包含多个Latex表达式的数据中的一行示例文本:
@Gruber-这是另一个例子,当这样应用时:$\mathrm{Var}\left(X^2 \right(=4 X^2 \mathrm{Var}(X($没有任何意义,左边有一个常数,右边有一个随机变量。你的意思是$4E(X(^2 Var(X($祝福那些走上人迹罕至之路的人吗。你的理论中的另一个例外是$4E(X(^2 Var(X($。你在想什么?:(
到目前为止,我所拥有的是:它似乎在每个Latex Expression匹配之间打断了文本,并给出了一个不正确的巨大匹配。
([$](.*)[$]){1,3}?
我不明白你为什么把{1,3}
放在最后,你试图实现什么目标。无论如何,您的错误是使用了[$]
,它给了您一组两个字符——一个反斜杠和一个美元。我建议你使用
$([^$]*)$
并用一个空字符串替换它:在这里演示