属性错误：数据集字典"对象没有属性"to_tf_dataset"

我正在使用hugginface库为NLP项目微调数据。这是我面临挑战的代码。有人能解决这个问题吗？

从变压器导入带填充的DataCollator

data_collator=带填充的DataCollator(tokenizer=tokenizer，return_tensors="tf"(

tf_dataset = testdata.to_tf_dataset(
columns=["input_ids", "token_type_ids", "attention_mask"],
label_cols=["labels"],
batch_size=2,
collate_fn=data_collator,
shuffle=True
)

注意：我看到了关于升级到最新版本的建议，我已经这样做了，但问题消失了。

我也遇到了同样的问题。在我的案例中，我使用的是csv文件。我使用以下代码加载数据集：

from datasets import load_dataset
dataset_training = load_dataset("csv", file)

然后方法to_tf_dataset返回：

Attribute error: DatasetDict' object has no attribute 'to_tf_dataset'

为了克服这个问题，我将内容加载为熊猫数据帧，然后使用另一种方法再次加载：

import pandas as pd
data = pd.read_csv("file.csv") 
from datasets import Dataset     
dataset = Dataset.from_pandas(data)

之后，to_tf_dataset方法正确工作。我无法解释这个答案，但它对我有效

相关内容

最新更新

热门标签：