合并大csv文件



我有4个非常大的csv文件。

  1. 为22GB,包含这些列的行数超过65000行"火焰"、"file_since_dt’,‘rpted_member_kob’,‘rpted_member’,‘rpted_rfc’,‘rpted_rfc_last3’,‘父亲’,‘母亲’,‘additionl_surname’,‘第一次’,"中产","前缀"、"后缀",‘marital_status’,‘resident_status’,‘country_code’,‘natlity’,‘性’,‘other_tax_num’,‘other_tax_natlity’,‘num_dependents’,‘birth_dt’,‘deceased_dt’,‘drivers_license’,‘profes_license’,‘voter_registr’,‘watch_flag’,‘dont_display’,‘no_promote’,‘merge_freeze’,‘officer_flag’,

  2. 是57GB,超过65000行,这些列

    "栓","line1"、"么","殖民地",‘市’,‘城市’,‘国家’,‘postal_section’,‘postal_last2’,‘postal_plus5’,‘phone_area_code’,‘phone_number’,‘phone_num’,‘phone_last5’,‘phone_ext’,‘fax_area_code’,‘fax_phone_number’,‘fax_phone_num’,‘fax_phone_last5’,‘special_indic’,‘use_cnt’,‘last_used_dt’,‘residence_dt’,‘rept_member_kob’,‘rept_member’,‘rpted_dt’,‘类型’,‘soundex_paternal’,‘soundex_maternal’,‘soundex_addt_surnm’,‘first_initial’,‘patnl_patnl_cnt’,‘patnl_matnl_cnt’,‘matnl_patnl_cnt’、‘matnl_matnl_问"、"country_code",

  3. 是最大的贸易,112GB

    ‘火焰’,‘serial_num’,‘file_since_dt’,‘bureau_id’,‘member_kob’,‘member_code’,‘member_short_name’,‘member_area_code’,‘member_phone_num’,‘acct_num’,‘account_status’,‘owner_indic’,‘posted_dt’,‘pref_cust_code’,‘acct_type’,‘contract_type’,‘terms_num_paymts’,‘terms_frequency’,‘terms_amt’,‘opened_dt’,‘last_paymt_dt’,‘last_purchased_dt’,‘closed_dt’,‘reporting_dt’,‘reporting_mode’,‘paid_off_dt’,‘间接’,‘currency_code’,‘high_credit_amt’,‘cur_balance_amt’,‘credit_limit’,‘amt_past_due’,‘paymt_pat_hst’,"paymt_pat_str_dt"、"paymt_pat_end_dt’,‘cur_mop_status’,‘remarks_code’,‘restruct_dt’,‘suppress_set_dt’,‘suppress_expir_dt’,‘max_delinqncy_amt’,‘max_delinqncy_dt’,‘max_delinqncy_mop’,‘num_paymts_late’,‘num_months_review’,‘num_paymts_30_day’,‘num_paymts_60_day’,‘num_paymts_90_day’,‘num_paymts_120_day’,‘appraise_value’,‘first_no_payment_dt’,‘saldo_insoluto’,‘last_paymt_amt’,‘crc_indic’,‘plazo_meses’,‘monto_credito_original’,‘last_past_due_dt’,‘interest_amt’,‘cur_interest_mop’,"days_past_due"、"电子邮件">

4。- 22gb,与文件3的内容相同,更像是文件3的第二个分区

它们都有约束fid。我从来没有遇到过这样的情况,我需要合并所有这些文件来创建一个单独的200gb文件。我不知道该怎么处理这件事。过去有人做过这样的实验吗?如果有,你介意分享一下解决方案吗?

将所有内容转储到真正的数据库中(在确保它的数据分区有足够的空间之后)。然后,如果你确实需要CSV,你可以很容易地导出你需要的东西。

相关内容

  • 没有找到相关文章

最新更新