我需要访问文件进行处理.这些文件具有相同的数据,但每行具有不同的分隔符类型(空格,逗号,制表符)



我需要访问文件进行处理。文件具有相同的数据,但具有不同的数据每行的分隔符类型(空格、逗号、制表符(。

我的代码如下:

import os
import glob
DIR = "directory_path"
FILES = glob.glob(os.path.join(DIR, "*"))
for file in FILES:
    if os.path.isfile(file):
        content = open(file).readlines()
        for lines in content:
            line = lines.split(" " or "t" or ":")
            .
            .
            .
            "processing content of line"

对于" "大小写,这些行拆分得很好,但对于其他情况则不然。如何处理不同的分隔符。

您可以导入 re 模块并利用其拆分功能来拆分文件的行。

import re
import os
import glob
DIR = "directory path"
FILES = glob.glob(os.path.join(DIR, "*"))
for file in FILES:
    if os.path.isfile(file):
        content = open(file).readlines()
        for lines in content:
            line = re.split(r'[s,t]s*',lines)
            .
            .
            .
            process content per line

使用 re.split

import re
line = re.split("s+|:",lines) # pass different delimiters using  | 

|基本上意味着 or,所以在任何空格或:上拆分

for line in content:
    split_line = re.split("[ t:]",line)

我认为是你想要的

最新更新