如何忽略所有包含重音的单词(非英语单词)



我正在创建一个Java应用程序,我有一个段落,我想从它抓取单词。我想写一个正则表达式,只抓取英语单词,忽略其中有口音的任何单词(有1个或多个非英语字母)。

示例:berøres afeller afgørende for TEAM

我应该使用

p {M}或者什么?

这将匹配所有包含字母A-Z的单词。

(?:^|s)[a-zA-Z]+(?=s|$)

一些正则表达式将匹配b上的重音字符。因此,如果需要的话,您需要在前瞻中添加标点符号。

最新更新