有关打印Python系统结果的问题

我在python中有这两个文件

x = pandas.read_csv('x.csv', header=0, parse_dates=True)
y = pandas.read_csv('y.csv', header=0, parse_dates=True)

生产列的列，例如So

 yyyymm  cons_sent
0    200001      112.0
1    200002      111.3
2    200003      107.1
3    200004      109.2
 yyyymm  inv_sent
0    200001      0.58
1    200002      0.53
2    200003      0.90

另一个被称为z.csv的文件，如下所示打印出来。我该如何获得它，以便此Z.CSV仅打印出yyyymm和分数列(而不是其他所有(？

yyyymm  count_neg  count_pos  count_all     score
0  200002        135        111      12397  0.001936
1  200003        111         82       8969  0.003233
2  200005        140         67       8505  0.008583

完成之后，如何将所有三个文件放入一个？也就是说，如何将所有三个文件的内容合并为一个变量....？

这样做之后，一个大文件是否可以仅包含重叠的日期(yyymm(？例如，z.csv文件不包括x和y .csv文件所做的第四个月。(要澄清，一个大文件的第一列是yyymm，由于Excel表中的不同标签，我们以与" Inv_sent"one_answers" con_sent"相同的方式考虑"得分"，因此这三列构成了第二列(

要使用列的子集获取数据框的A视图，您可以使用项目切片符号选择所需的列。例如：

z_reduced = z[['yyyymm','score']]

如果您想要在新的数据框架中而不是可以使用的原始视图：

z_copied = z[['yyyymm','score']].copy()

然后，要合并所有数据范围，您可能需要使用merge方法。以下内容可能会为您带来所需的东西：

x.merge(y, on='yyyymm').merge(z_copied, on='yyyymm')

默认情况下合并的工作方式就像在SQL中的内部连接一样。您还可以传递how参数，该参数将允许您有效地与左，右或外部连接相同。

相关内容

最新更新

热门标签：