我需要访问文件进行处理。文件具有相同的数据,但具有不同的数据每行的分隔符类型(空格、逗号、制表符(。
我的代码如下:
import os
import glob
DIR = "directory_path"
FILES = glob.glob(os.path.join(DIR, "*"))
for file in FILES:
if os.path.isfile(file):
content = open(file).readlines()
for lines in content:
line = lines.split(" " or "t" or ":")
.
.
.
"processing content of line"
对于" "大小写,这些行拆分得很好,但对于其他情况则不然。如何处理不同的分隔符。
您可以导入 re 模块并利用其拆分功能来拆分文件的行。
import re
import os
import glob
DIR = "directory path"
FILES = glob.glob(os.path.join(DIR, "*"))
for file in FILES:
if os.path.isfile(file):
content = open(file).readlines()
for lines in content:
line = re.split(r'[s,t]s*',lines)
.
.
.
process content per line
使用 re.split
import re
line = re.split("s+|:",lines) # pass different delimiters using |
|
基本上意味着 or,所以在任何空格或:
上拆分
for line in content:
split_line = re.split("[ t:]",line)
我认为是你想要的