属性错误:数据集字典"对象没有属性"to_tf_dataset"



我正在使用hugginface库为NLP项目微调数据。这是我面临挑战的代码。有人能解决这个问题吗?

从变压器导入带填充的DataCollator

data_collator=带填充的DataCollator(tokenizer=tokenizer,return_tensors="tf"(

tf_dataset = testdata.to_tf_dataset(
columns=["input_ids", "token_type_ids", "attention_mask"],
label_cols=["labels"],
batch_size=2,
collate_fn=data_collator,
shuffle=True
)

注意:我看到了关于升级到最新版本的建议,我已经这样做了,但问题消失了。

我也遇到了同样的问题。在我的案例中,我使用的是csv文件。我使用以下代码加载数据集:

from datasets import load_dataset
dataset_training = load_dataset("csv", file)

然后方法to_tf_dataset返回:

Attribute error: DatasetDict' object has no attribute 'to_tf_dataset'

为了克服这个问题,我将内容加载为熊猫数据帧,然后使用另一种方法再次加载:

import pandas as pd
data = pd.read_csv("file.csv") 
from datasets import Dataset     
dataset = Dataset.from_pandas(data)

之后,to_tf_dataset方法正确工作。我无法解释这个答案,但它对我有效

最新更新