我在TSV中存储了一些数据。我看到DocArray提供了from_csv()
方法来导入它,但我找不到任何好的文档。有没有一个参数可以将分隔符从逗号改为制表符?
我在文档中唯一找到的是:docarray.dococument.generators.from_csv
您找到的文档提到了参数dialect
:
定义一组特定于特定CSV方言的参数。可以是表示系统中预定义方言的字符串,也可以是csv。将特定格式参数分组在一起的方言类。如果你不知道方言,并且默认的方言不适合你,你可以尝试将其设置为自动。
实际上,值auto
可以成功推断tsv文件类型和delimeter,您只需要做:
# run this command to download a sample file
# wget https://gist.githubusercontent.com/alaeddine-13/76b4aa7805a347cf2cdf12db78e0a81c/raw/a7df1a867e8cf80b4c226f72f219d0b6f2cea8a2/sample.tsv
da = DocumentArray.from_csv('sample.tsv', dialect='auto')
如果您需要一种特定的方言,您可以提供一个方言类,也可以在python的方言列表中提供一个可用的方言名称。