我正在使用hugginface库为NLP项目微调数据。这是我面临挑战的代码。有人能解决这个问题吗?
从变压器导入带填充的DataCollator
data_collator=带填充的DataCollator(tokenizer=tokenizer,return_tensors="tf"(
tf_dataset = testdata.to_tf_dataset(
columns=["input_ids", "token_type_ids", "attention_mask"],
label_cols=["labels"],
batch_size=2,
collate_fn=data_collator,
shuffle=True
)
注意:我看到了关于升级到最新版本的建议,我已经这样做了,但问题消失了。
我也遇到了同样的问题。在我的案例中,我使用的是csv文件。我使用以下代码加载数据集:
from datasets import load_dataset
dataset_training = load_dataset("csv", file)
然后方法to_tf_dataset
返回:
Attribute error: DatasetDict' object has no attribute 'to_tf_dataset'
为了克服这个问题,我将内容加载为熊猫数据帧,然后使用另一种方法再次加载:
import pandas as pd
data = pd.read_csv("file.csv")
from datasets import Dataset
dataset = Dataset.from_pandas(data)
之后,to_tf_dataset
方法正确工作。我无法解释这个答案,但它对我有效