是否有任何javascript方法可以在删除空格和标点符号后将不同语言的句子分成单词数组?
- 示例(中文):"所以我们会彻底清洁每个房间的所有表面,并在必要的地方进行抛光。"像(we'd)这样的单词组合被作为一个整体保留而不分裂;
- 示例(日本):"時間が過ぎて,あっという間に冬休みは過ぎてしまった。冬休みの生活を思い出して,嬉しくなった!";
- 示例(韩文):[qh] [qh]
您可以查看Intl.segmenter
:
const text = '時間が過ぎて、あっという間に冬休みは過ぎてしまった。冬休みの生活を思い出して、嬉しくなった!';
const words = [...new Intl.Segmenter('ja-JP', { granularity: 'word' }).segment(text)].map(({ segment }) => segment);
console.log(words);