TypeError:应为二进制或unicode字符串,实际为618.0



我一直在尝试在我的数据集中实现这个ML线性模型。(https://www.tensorflow.org/tutorials/estimator/linear)
语言:Python 3.8.3TensorFlow 2.4.0
数量:1.19.3
Pandas
Matplotlib
和其他:
import os
import sys
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from IPython.display import clear_output
from six.moves import urllib
import tensorflow.compat.v2.feature_column as fc
import tensorflow as tf

ss1517是我的数据集的名称。它是一个有4116行20列的CSV文件,有很多NaN值(没有一列没有NaN值(

traindata = ss1517.iloc[0:2470,:] # 60 % of my dataset is splitted by training set
evaldata = ss1517.iloc[2470:4116, :] # 40 % of my dataset is splitted by eval set
ytrain = traindata.pop("AvgOfMajor N")
yeval = evaldata.pop("AvgOfMajor N")

CATEGORICAL_COLUMNS是我的数据集中的分类列
NUMERIC_COLUMNS是我的数据集中的数字列。

CATEGORICAL_COLUMNS = ['Location Name', 'Location Code', 'Borough', 'Register', 'Building Name', 'Schools in Building', 'ENGroupA', 'RangeA']
NUMERIC_COLUMNS = ['Geographical District Code', '# Schools', 'Major N', 'Oth N', 'NoCrim N', 'Prop N', 'Vio N', 'AvgOfOth N', 'AvgOfNoCrim N', 'AvgOfProp N', 'AvgOfVio N']
feature_columns = []#Sadece linear regression'u eğitmek için kullanıyoruz
for feature_name in CATEGORICAL_COLUMNS:
vocabulary = traindata[feature_name].unique()
feature_columns.append(tf.feature_column.categorical_column_with_vocabulary_list(feature_name, vocabulary))
for feature_name in NUMERIC_COLUMNS:
feature_columns.append(tf.feature_column.numeric_column(feature_name, dtype=tf.float32))
def make_input_fn(data_df, label_df, num_epochs=10, shuffle=True, batch_size=32):
def input_function():# inner function, this will be returned.
ds = tf.data.Dataset.from_tensor_slices((dict(data_df), label_df)) # Create tf.data.Dataset object with data and its label
if shuffle:
ds = ds.shuffle(1000) # randomize order of data
ds = ds.batch(batch_size).repeat(num_epochs)
return ds # return a batch of dataset
return input_function # return the input_function
train_input_fn = make_input_fn(traindata, ytrain) 
eval_input_fn = make_input_fn(evaldata, yeval, num_epochs=1, shuffle=False) 
linear_est = tf.estimator.LinearClassifier(feature_columns=feature_columns)
linear_est.train(train_input_fn) #train
result = linear_est.evaluate(eval_input_fn) #get model metrics/stats by testing on testing data
clear_output() #clears console output
print(result["accuracy"]) #the result variable is simply dict of stats about our model

每次尝试用df.fillna(method="ffill")df.fillna(method="bfill")df.fillna(value = 0)df.fillna(value="randomstringvalues)填充NaN值时,我都会出现此错误(TypeError: Expected binary or unicode string, got 618.0(。我还尝试使用df.dropna()
删除NaN值。不用说,当我尝试使用NaN值运行代码时,它无法工作
我有两个问题
第一个问题,我如何处理我的NaN值,以便将来不会看到此错误(TypeError: Expected binary or unicode string, got 618.0(
第二个问题,我如何摆脱这个错误,并将我的数据集快速实现到这个模型中
P。S.:我确信我没有错别字。

我的猜测是您的数据中有一些非unicode字符。非unicode字符如下所示:�ä

任何不是字母、数字或符号的东西。这里有两个选项,一个是查找所有这些字符并用其他字符替换它们,另一个是删除它们。

或者,您可以在读取csv文件时使用正确的编码。pandas.read_csv

data = pandas.read_csv(myfile, encoding='utf-8', quotechar='"', delimiter=',') 

我看不到您的数据,所以这只是猜测。打开.csv文件并搜索618.0。也许,有些行没有所有期望的值,解析器试图在期望类别值的地方加载一个数值。另一种看你是否有";格式";问题是在excel中打开csv,看看所有行的格式是否正确。

最新更新