如何使用DocArray导入TSV文件



我在TSV中存储了一些数据。我看到DocArray提供了from_csv()方法来导入它,但我找不到任何好的文档。有没有一个参数可以将分隔符从逗号改为制表符?

我在文档中唯一找到的是:docarray.dococument.generators.from_csv

您找到的文档提到了参数dialect:

定义一组特定于特定CSV方言的参数。可以是表示系统中预定义方言的字符串,也可以是csv。将特定格式参数分组在一起的方言类。如果你不知道方言,并且默认的方言不适合你,你可以尝试将其设置为自动。

实际上,值auto可以成功推断tsv文件类型和delimeter,您只需要做:

# run this command to download a sample file
# wget https://gist.githubusercontent.com/alaeddine-13/76b4aa7805a347cf2cdf12db78e0a81c/raw/a7df1a867e8cf80b4c226f72f219d0b6f2cea8a2/sample.tsv
da = DocumentArray.from_csv('sample.tsv', dialect='auto')

如果您需要一种特定的方言,您可以提供一个方言类,也可以在python的方言列表中提供一个可用的方言名称。

相关内容

  • 没有找到相关文章

最新更新