如何在 Python 中迭代空格分隔的 ASCII 文件



这里有一个奇怪的问题。

我有一个要迭代的.txt文件。我可以将所有单词从文件中放入数组中,这很好,但是我想知道如何做的是,如何遍历整个文件,但不是单个字母,而是单词本身。

我希望能够浏览包含文件中所有文本的数组,并基本上计算其中出现单词的所有实例。

唯一的问题是我不知道如何为它编写代码。

我尝试使用 for 循环,但当我想要整个单词时,它只是遍历每个字母。

此代码读取空格分隔的文件.txt

f = open("file.txt", "r")
words = f.read().split()
for w in words:
    print w
file = open("test")
for line in file:
    for word in line.split(" "):
         print word

未经测试:

def produce_words(file_):
   for line in file_:
     for word in line.split():
        yield word
def main():
   with open('in.txt', 'r') as file_:
      for word in produce_words(file_):
         print word

如果你想循环访问整个文件,那么明智的做法是迭代它,获取行并将它们拆分为单词。逐行工作是最好的,因为这意味着我们不会先将整个文件读入内存(对于大文件,这可能需要大量时间或导致内存不足):

with open('in.txt') as input:
    for line in input:
        for word in line.split():
            ...

请注意,如果要保留更多空格,可以使用line.split(" "),因为line.split()将删除所有多余的空格。

另请注意我使用 with 语句打开文件,因为它更具可读性并且可以处理关闭文件,即使在异常情况下也是如此。

虽然这是一个很好的解决方案,但如果您在第一个循环中没有执行任何操作,则效率也有些低下。为了将其简化为一个循环,我们可以使用 itertools.chain.from_iterable 和生成器表达式:

import itertools
with open('in.txt') as input:
    for word in itertools.chain.from_iterable(line.split() for line in input):
            ...

最新更新