如何使用Scala将JOIN密钥作为变量传递为变量



我正在尝试在两个varibale中的两个数据帧的加入键。我也想进入加入。在这里,我的变量包含一个密钥。我还可以通过多个密钥吗?

ex: 1st键:scala> val primary_key_col = scd_table_keys_df.first()。getString(2)primary_key_col:string = acct_nbr

第二个键:scala> val delta_primary_key_col =" delta _" primary_key_coldelta_primary_key_col:string = delta_acct_nbr

** My python Code which is working
cdc_new_acct_df = delta_src_rename_df.join(hist_tgt_tbl_Y_df ,(col(delta_primary_key_col) == col(primary_key_col)) ,'left_outer' ).where(hist_tgt_tbl_Y_df[primary_key_col].isNull())

我想在Scala中取得相同的成就。请建议。尝试多种方法。

val cdc_new_acct_df = delta_src_rename_df.join(hist_tgt_tbl_Y_df ,(delta_src_rename_df({primary_key_col.mkstring(",")}) == hist_tgt_tbl_Y_df({primary_key_col.mkstring(",")}),"left_outer" )).where(hist_tgt_tbl_Y_df[primary_key_col].isNull())

:121:错误:Value Mkstring不是字符串的成员

val cdc_new_acct_df = delta_src_rename_df.join(hist_tgt_tbl_Y_df ,(delta_src_rename_df(delta_primary_key_col.map(c => col(c))) == hist_tgt_tbl_Y_df(primary_key_col.map(c => col(c))),"left_outer" ))

:123:错误:键入不匹配; 找到:array [org.apache.spark.sql.column] 必要:字符串

无法解决。请建议。

我缺少变量替代。这对我有用。

scala> val cdc_new_acct_df = delta_src_rename_df.join(hist_tgt_tbl_Y_df ,delta_src_rename_df(**s"$delta_primary_key_col"**) === hist_tgt_tbl_Y_df(s"$primary_key_col"),"left_outer" )
    cdc_new_acct_df: org.apache.spark.sql.DataFrame = [delta_acct_nbr: string, delta_primary_state: string, delta_zip_code: string, delta_load_tm: string, delta_load_date: string, hash_key_col: string, delta_hash_key: int, delta_eff_start_date: string, acct_nbr: string, account_sk_id: bigint, primary_state: string, zip_code: string, eff_start_date: string, eff_end_date: string, load_tm: string, hash_key: string, eff_flag: string]

相关内容

  • 没有找到相关文章