是否有一种javaScript方法可以将不同语言的句子分割成单词数组?



是否有任何javascript方法可以在删除空格和标点符号后将不同语言的句子分成单词数组?

  • 示例(中文):"所以我们会彻底清洁每个房间的所有表面,并在必要的地方进行抛光。"像(we'd)这样的单词组合被作为一个整体保留而不分裂;
  • 示例(日本):"時間が過ぎて,あっという間に冬休みは過ぎてしまった。冬休みの生活を思い出して,嬉しくなった!";
  • 示例(韩文):[qh] [qh]

您可以查看Intl.segmenter:

const text = '時間が過ぎて、あっという間に冬休みは過ぎてしまった。冬休みの生活を思い出して、嬉しくなった!';
const words = [...new Intl.Segmenter('ja-JP', { granularity: 'word' }).segment(text)].map(({ segment }) => segment);
console.log(words);

最新更新