我的数据是一个嵌套的中文字符列表。
text1:
[['沒人',
'關心',
'屏東',
'是否',
'淹水',
'了',
'天龍',
'新聞台',
'只',
'關心',
'還沒來',
'的',
'颱',
'風'],
['不報', '沒人', '知道', '一報', '一堆', '人去', '看然', '後', '就']]
我想用这个列表推导式删除空字符串和停止词:
stopwords('zh')
{'即或', '那些', '哪', '如此', '别处', '她', '这就是说', '自打', '只', '赶', '其二', '对比', '它', ';', '乌乎', '其', '宁', '不是', '个', '来自', '啥', '么', '就要', '纵然', '俺', '二', '尽管如此', '让', '吗', '不成', '(', '依照', '的话', '过', '作为', '些', '七', '要是', '各自', '这么些', '们', '总的来看', '犹且', '或', '几', '本着', '因此', '&', '故', '如是', '<', '倘或', '~', '以免', '顺着', '矣哉', '任凭', '某个', '或者', '以为', '哟', '恰恰相反', '今', '0', '待', '或曰', '至', '若', '固然', '别说', '要不', '除非', '况且', '嘘', '嗡', '介于', '甚且', '如果', '有', '随着', '其次', '尔尔', '那个', '他们', '曾', '只怕', '个别', '更', '可', '如下', '及', '临', '故而', '一方面', '针对', '尽管', '喔唷', '哇', '加之', '此处', '这里', '以至', '因了', '哪些', '那时', '依', '跟', '凭', '嗳', '含', '》', '通过', '还有', '倘使', '截至', '直到', '那么些', '除外', '@', '一种', '乃至于', '纵令', '就是说', '呜', '否则', '啦', '往', '由此可见', '继后', '嗡嗡', '以期', '各位', '向着', '别是', '等等', '然则', '反过来说', '呀', '某些', '〉', '经过', '共', '呕', '何以', '非但', '该', '分别', '叫', '哪年', '除开', '这个', '这儿', '处在', '竟而', '趁', '相对而言', '比及', '后', '据此', '而', '那么样', '不问', '与其说', '假使', '呵', '比如', '打', '自从', '设或', '当地', '由于', '八', '再其次', '不', '及其', '一则', '设使', '是以', '多么', '诸', '当然', '这样', '哪儿', ':', '于是乎', '总之', '凡是', '人们', '那儿', '咦', '向', '不至于', '大', '再有', '替', '其余', '喏', '除了', '与', '却', '我', '有的', '当', '鉴于', '全部', '一个', '矣乎', '任何', '嘻', '照', '而外', '那么', '一何', '不仅', '说', '自后', '不得', '3', '望', '着', '开外', '得了', '既是', '离', '余外', '自个儿', '或是', '自', '哦', '云云', '一样', '以致', '故此', '|', '不只', '而是', '前后', '[', '不过', '。', '了', '那会儿', '来', '甚至', '者', '诸位', '借傥然', '非特', '还要', '沿着', '非独', '称', '经', '嘿嘿', '赖以', '管', '也', '连同', '然后', '咧', '一切', '自家', '同时', '}', '内', '只有', '极了', '起见', '不尽', '莫不然', '至若', '以故', '欤', '能', '哩', '旁人', '与否', '虽则', '首先', '无宁', '另外', '因而', '因着', '一来', '一些', '若夫', '+', '六', '说来', '总的说来', '与其', '而况', '且不说', '反过来', '尔后', '随时', '诚如', '再说', '不光', '结果', '这时', '别人', '之类', '从此', '人家', '难道说', '两者', '庶几', '呼哧', '呜呼', '叮咚', '而已', '倘', '只是', '不若', '做', '嗬', '彼', '5', '唉', '不外乎', '这', '省得', '2', '并', '越是', '且', '啐', '怎么办', '顺', '可是', '所在', '各个', '哪样', '矣', '多', '哎哟', '哈', '还', '又及', '靠', '什么样', '照着', '般的', '另悉', '已', '譬如', '无', '例如', '一', '下', '有及', '其他', '有时', '焉', '它们', '似的', ',', '再者说', '此地', '也好', '前者', '你', '因', '较', '兮', '嘛', '虽然', '呵呵', '再者', '但凡', '从而', '哼唷', '若非', '一般', '用来', '这么样', '抑或', '所有', '何', '呢', '所', '还是', '不特', '谁料', '正是', '第', '¥', '别', '不但', '慢说', '紧接着', '要么', '谁', '所以', '漫说', '以便', '哪边', '哪里', '由', '对于', '类如', '假若', '可见', '那样', '怎么', '不单', '吱', '九', '大家', '除', '莫若', '、', '腾', '打从', '乃', '和', '具体地说', '咱们', '本身', '嗯', '接着', '甚而', '有关', '他们们', '进而', '后者', '本', '不怕', '咳', '自各儿', '起', '我们', '这么点儿', '只限', '于', '才', '谁人', '仍', '不比', '为何', '即便', '设若', '之所以', '且说', '如上', '不管', '较之', '凭借', '反之', '小', '果真', '人', '再则', '冲', '彼此', '就算', '于是', '上', '总的来说', '既', '就是了', '1', '莫如', '为什么', '云尔', '每当', '兼之', '4', '先不先', '要不是', '以及', '何处', '得', '为着', '或则', '不惟', '最', '以至于', '那', '即使', '彼时', '至于', '眨眼', '但是', '在于', '贼死', '那边', '能否', '咋', '不拘', '由此', '乃至', '嘿', '甚么', '没奈何', '纵', '把', '他人', '哉', '吧', '自身', '五', '全体', '非', '遵照', '喽', '光是', '即令', '向使', '宁肯', '点', '继之', '岂但', '纵使', '上下', '这边', '宁愿', '好', '!', '倘然', '︿', '不独', '她们', '喂', '开始', '甚或', '这么', '尔', '继而', '看', '何况', '中', '冒', '所幸', '〈', '啪达', '果然', '你们', '6', '给', '本人', '月', '这些', '乎', '距', '怎么样', '巴巴', '如', '替代', '用', '逐步', '可以', '尽', '如同', '$', '使', '也罢', '与此同时', '几时', '始而', '不料', '只消', '甚至于', '正巧', '啊', '为', '此间', '不尽然', '去', '反而', '不如', '从', '关于具体地说', '日', '而且', '都', '儿', '到', '怎样', '为了', '哪个', '综上所述', '罢了', '哈哈', '谁知', '什', '才能', '加以', '借', '哼', '仍旧', '而后', '别的', '等', '对', '按', '其一', '#', '论', '诸如', '既往', '吧哒', '另一方面', '再', '咚', '换言之', '年', '如其', '那里', '若果', '多少', ')', '但', '9', '如若', '并且', '其它', '各', '是的', '正如', '要不然', '这次', '比方', '*', '毋宁', '《', '使得', '许多', '及至', '朝', '鄙人', '据', '何时', '出来', '其中', '7', '只当', '为此', '譬喻', '四', '来着', '咱', '简言之', '别管', '唯有', '哪天', '而言', '各种', '之一', '依据', '随', '乘', '在', '如上所述', '之', '按照', '朝着', '不论', '每', '地', '连', '此时', '已矣', '致', '很', '将', '一转眼', '基于', '关于', '吓', '巴', '换句话说', '哎呀', '倘若', '亦', '的确', '一旦', '8', '惟其', '即若', '具体说来', '被', '某某', '根据', '另', '受到', '就是', '万一', '尚且', '当着', '怎奈', '像', '要', '以上', '虽说', '着呢', '哪怕', '宁可', '不然', '孰料', '嘎登', '除此之外', '如何', '是', '则', '沿', '来说', '等到', '对待', '这一来', '为止', '即', '本地', '拿', '此', '然而', '请', '凡', ']', '哎', '您', '会', '这会儿', '这般', '三', '某', '>', '总而言之', '秒', '随后', '不妨', '虽', '庶乎', '时候', '则甚', '又', '自己', '遵循', '什么', '时', '呸', '只要', '比', '以来', '犹自', '无论', '既然', '区', '至今', '?', '对方', '呃', '同', '此外', '哗', '孰知', '他', '由是', '出于', '诚然', '若是', '因为', '那般', '己', '就', '俺们', '嘎', '{', '趁着', '便于', '非徒', '光', '在下', '假如', '边', '分', '归', '即如', '%', '零', '二来', '阿', '啷当', '归齐', '有些', '呗', '正值', '此次', '的', '以', '怎', '任', '前此'}
text2 = [w for x in text1 for w in x if not w in stopwords('zh') and w != '']
但是对于结果,每个字符都是分开的,并且内部列表似乎消失了。
text2:
['沒',
'關',
'心',
'屏',
'東',
'否',
'淹',
'水',
'天',
'龍',
'新',
'聞',
'台',
'關',
'心',
'還',
'沒',
'來',
'颱',
'風',
'央',
'山',
'脈',
'減',
'輕',
'風',
'勢',
'遇',
'初',
'十',
'潮',
'台',
'灣',
'西',
'部',
'海',
'區',
'樣',
'淹',
'水',
'給',
'報',
'沒',
'知',
'道',
'報',
'堆',
'然',
'後',
'稀',
'還',
'記',
'前',
'淹',
'水',
'淹',
'硬',
'碟',
'漲',
'兩',
'倍',
'價',
'格',
'結',
'果',
'變',
'旱',
'災',
'楊',
'璨',
'澤',
'台',
'南',
'新',
'市',
'毛',
'毛',
'雨',
'乖',
'乖',
'班',
'改',
'號',
'後',
'公',
'車',
'座',
'沒',
'拆',
'拜',
'託',
'們',
'回',
'家',
'讀',
'書',
'麼',
'爛',
'車',
'送',
'給',
'天',
'龍',
'國',
'新',
'北',
'雨',
'天',
'裡',
'面',
'會',
'淹',
'水',
'太',
'離',
'譜',
'台',
'市',
'個',
'爽',
'爆',
'們',
'免',
'費',
'爽',
'錢',
'們',
'台',
'市',
'付',
'錢',
'颱',
'風',
'不',
'報',
'沒',
'人',
'知',
'道',
'一',
'報',
'一',
'堆',
'人',
'去',
'看',
'然',
'後']
是否有一种方法来清除停止词,仍然保持它作为一个词(不是字符)和嵌套列表?
可以混合使用生成器和for循环。
text1 = [['沒人',
'關心',
'屏東',
'是否',
'淹水',
'了',
'',
'天龍',
'新聞台',
'只',
'關心',
'還沒來',
'的',
'颱',
'風'],
['不報', '沒人', '知道', '一報', '一堆', '人去', '看然', '後', '就']]
for i in range(len(text1)):
text1[i] = [j for j in text1[i] if j != '']