有关打印Python系统结果的问题



我在python中有这两个文件

x = pandas.read_csv('x.csv', header=0, parse_dates=True)
y = pandas.read_csv('y.csv', header=0, parse_dates=True)

生产列的列,例如So

 yyyymm  cons_sent
0    200001      112.0
1    200002      111.3
2    200003      107.1
3    200004      109.2
 yyyymm  inv_sent
0    200001      0.58
1    200002      0.53
2    200003      0.90

另一个被称为z.csv的文件,如下所示打印出来。我该如何获得它,以便此Z.CSV仅打印出yyyymm和分数列(而不是其他所有(?

yyyymm  count_neg  count_pos  count_all     score
0  200002        135        111      12397  0.001936
1  200003        111         82       8969  0.003233
2  200005        140         67       8505  0.008583

完成之后,如何将所有三个文件放入一个?也就是说,如何将所有三个文件的内容合并为一个变量....?

这样做之后,一个大文件是否可以仅包含重叠的日期(yyymm(?例如,z.csv文件不包括xy .csv文件所做的第四个月。(要澄清,一个大文件的第一列是yyymm,由于Excel表中的不同标签,我们以与" Inv_sent"one_answers" con_sent"相同的方式考虑"得分",因此这三列构成了第二列(

要使用列的子集获取数据框的A视图,您可以使用项目切片符号选择所需的列。例如:

z_reduced = z[['yyyymm','score']]

如果您想要在新的数据框架中而不是可以使用的原始视图:

z_copied = z[['yyyymm','score']].copy()

然后,要合并所有数据范围,您可能需要使用merge方法。以下内容可能会为您带来所需的东西:

x.merge(y, on='yyyymm').merge(z_copied, on='yyyymm')

默认情况下合并的工作方式就像在SQL中的内部连接一样。您还可以传递how参数,该参数将允许您有效地与左,右或外部连接相同。

最新更新