我在python中有这两个文件
x = pandas.read_csv('x.csv', header=0, parse_dates=True)
y = pandas.read_csv('y.csv', header=0, parse_dates=True)
生产列的列,例如So
yyyymm cons_sent
0 200001 112.0
1 200002 111.3
2 200003 107.1
3 200004 109.2
yyyymm inv_sent
0 200001 0.58
1 200002 0.53
2 200003 0.90
另一个被称为z.csv
的文件,如下所示打印出来。我该如何获得它,以便此Z.CSV仅打印出yyyymm
和分数列(而不是其他所有(?
yyyymm count_neg count_pos count_all score
0 200002 135 111 12397 0.001936
1 200003 111 82 8969 0.003233
2 200005 140 67 8505 0.008583
完成之后,如何将所有三个文件放入一个?也就是说,如何将所有三个文件的内容合并为一个变量....?
这样做之后,一个大文件是否可以仅包含重叠的日期(yyymm(?例如,z.csv
文件不包括x
和y .csv
文件所做的第四个月。(要澄清,一个大文件的第一列是yyymm
,由于Excel表中的不同标签,我们以与" Inv_sent"one_answers" con_sent"相同的方式考虑"得分",因此这三列构成了第二列(
要使用列的子集获取数据框的A视图,您可以使用项目切片符号选择所需的列。例如:
z_reduced = z[['yyyymm','score']]
如果您想要在新的数据框架中而不是可以使用的原始视图:
z_copied = z[['yyyymm','score']].copy()
然后,要合并所有数据范围,您可能需要使用merge
方法。以下内容可能会为您带来所需的东西:
x.merge(y, on='yyyymm').merge(z_copied, on='yyyymm')
默认情况下合并的工作方式就像在SQL中的内部连接一样。您还可以传递how
参数,该参数将允许您有效地与左,右或外部连接相同。