我有两个数据集:一个包含数千行,其中包含有关客户端的信息(每个客户端一行(和100多个变量;另一个是机器学习过程的结果,该过程具有前10个最重要的客户端变量的一些重要值(每个变量一行(。
我想创建一个图表,该图表显示第一个数据集中第二个数据集中具有最高值的变量。第二个数据集中的变量为:
[数据集]:是对所有数据集都相同的变量,用于固定计算(字符串(。
[变量]:是包含最重要变量(字符串(名称的列表。
[与目标的相关性]:是该行中的变量与目标变量(浮点数(之间的相关性。
这是我所做的计算。第一个计算字段在第二个数据集中创建,其他两个计算字段在第一个数据集中创建。
最高相关性:
IF ABS([Correlation With Target])=={ FIXED [Dataset]:MAX(ABS([Correlation With Target]))} THEN [Variables] ELSE null END
可变数:
CASE ATTR([Sheet1 (Variable Dataset)].[Highest Correlation])
WHEN "Borrower Age" THEN 1
WHEN "Credit score - Borrower" THEN 2
WHEN "Monthly Disposable Income" THEN 3
WHEN "Loan Term" THEN 4
WHEN "LTV" THEN 5
WHEN "Monthly Interest Rate" THEN 6
WHEN "Outstanding Principal Balance" THEN 7
WHEN "Years at Address" THEN 8
WHEN "Years in Employment" THEN 9
END
相关图:
IF {[Highest Correlation]=1} THEN [Borrower Age]
ELSEIF {[Highest Correlation]=2} THEN [Credit Score]
ELSEIF {[Highest Correlation]=3} THEN [Income]
ELSEIF {[Highest Correlation]=4} THEN [Loan Term]
ELSEIF {[Highest Correlation]=5} THEN [LTV]
ELSEIF {[Highest Correlation]=6} THEN [Interest Rate]
ELSEIF {[Highest Correlation]=7} THEN [Outstanding Principal Balance]
ELSEIF {[Highest Correlation]=8} THEN [Years at Address]
ELSEIF {[Highest Correlation]=9} THEN [Years in Employment]
END
问题是在第 3 次计算中,当调用 [最高相关性] 字段时,它会抛出此错误:
"详细级别表达式中的所有字段必须来自同一数据源">
这个问题的转机是什么?
PS:我无法共享工作簿或数据,但我会回答与之相关的任何问题,以便帮助您帮助我。
我认为问题是字段[收入]来自不同的数据源。
如果可以,您可以发布数据源和字段?