执行scikit-learn线性回归模型的问题



我有一个数据集,它的样本结构看起来像这样:

SV,Arizona,618,264,63,923
SV,Arizona,367,268,94,138
SV,Arizona,421,268,121,178
SV,Arizona,467,268,171,250
SV,Arizona,298,270,62,924
SV,Arizona,251,272,93,138
SV,Arizona,215,276,120,178
SV,Arizona,222,279,169,250
SV,Arizona,246,279,64,94
SV,Arizona,181,281,97,141
SV,Arizona,197,286,125.01,182
SV,Arizona,178,288,175.94,256
SV,California,492,208,63,923
SV,California,333,210,94,138
SV,California,361,213,121,178
SV,California,435,217,171,250
SV,California,222,215,62,92
SV,California,177,218,93,138
SV,California,177,222,120,178
SV,California,156,228,169,250
SV,California,239,225,64,94
SV,California,139,229,97,141
SV,California,198,234,125,182

记录顺序为:company_id,state,profit,feature1,feature2,feature3

现在我编写了这段代码,将整个数据集分解为12条记录的块(对于每个公司和该公司的每个州有12条记录),然后将其传递给process_chunk()函数。在process_chunk()内部,对块中的记录进行处理,并将其分解为test settraining set,记录号1011进入test set,其余记录号进入training set。我还将test set中记录的company_idstate存储到一个全局列表中,以便将来显示预测值。我还将预测值附加到全局列表final_prediction

现在我面临的问题是company_list, state_listtest_set列表具有相同的大小(约200条记录),但final_prediction的大小是其他列表(100条)记录的一半。如果testronget列表的大小为200,那么final_prediction不也应该是200吗?我现在的代码是:

from sklearn import linear_model
import numpy as np
import csv
final_prediction = []
company_list = []
state_list = []
def process_chunk(chuk):
    training_set_feature_list = []
    training_set_label_list = []
    test_set_feature_list = []
    test_set_label_list = []
    np.set_printoptions(suppress=True)
    prediction_list = []

    # to divide into training & test, I am putting line 10th and 11th in test set
    count = 0
    for line in chuk:
        # Converting strings to numpy arrays
        if count == 9:   
            test_set_feature_list.append(np.array(line[3:4],dtype = np.float))
            test_set_label_list.append(np.array(line[2],dtype = np.float))
            company_list.append(line[0])
            state_list.append(line[1])
        elif count == 10:
            test_set_feature_list.append(np.array(line[3:4],dtype = np.float))
            test_set_label_list.append(np.array(line[2],dtype = np.float))
            company_list.append(line[0])
            state_list.append(line[1])
        else:    
            training_set_feature_list.append(np.array(line[3:4],dtype = np.float))
            training_set_label_list.append(np.array(line[2],dtype = np.float))
        count += 1
    # Create linear regression object
    regr = linear_model.LinearRegression()
    # Train the model using the training sets
    regr.fit(training_set_feature_list, training_set_label_list)

    prediction_list.append(regr.predict(test_set_feature_list))
    np.set_printoptions(formatter={'float_kind':'{:f}'.format})
    for items in prediction_list:
        final_prediction.append(items)


# Load and parse the data
file_read = open('data.csv', 'r')
reader = csv.reader(file_read)
chunk, chunksize = [], 12
for i, line in enumerate(reader):
    if (i % chunksize == 0 and i > 0):
        process_chunk(chunk)
        del chunk[:]
    chunk.append(line)
# process the remainder
#process_chunk(chunk)

print len(company_list)
print len(test_set_feature_list)
print len(final_prediction)

为什么会出现这种大小差异,我在代码中犯了什么错误,我可以纠正(也许我做得很天真,可以用更好的方式完成)?

此处:

prediction_list.append(regr.predict(test_set_feature_list))
np.set_printoptions(formatter={'float_kind':'{:f}'.format})
for items in prediction_list:
    final_prediction.append(items)

prediction_list将是一个数组列表(因为predict返回一个数组)。

因此,您将向final_prediction添加数组,这可能会混淆您的计数:len(final_prediction)可能等于块的数量。

此时,如果prediction_list的长度与test_set_feature_list的长度相同,则长度是可以的。

你可能想这样使用extend:

final_prediction.extend(regr.predict(test_set_feature_list))

也更容易阅读。

那么final_prediction的长度应该是合适的,它应该是一个单独的列表,而不是列表的列表

相关内容

  • 没有找到相关文章

最新更新