如何使用 DSBulk Loader 将数据导入 EC2 上的 Cassandra

我正在尝试使用dsbulkloader将数据导入EC2上的Cassandra。我配置了三个节点并按如下方式通信：

UN  172.31.37.60   247.91 KiB  256          35.9%             7fdfe44d-ce42-45c5-bb6b-c3e8377b0eba  2a
UN  172.31.12.203  195.17 KiB  256          34.1%             232f7d98-9cc2-44e5-b18f-f52107a6fe2c  2c
UN  172.31.23.23   291.99 KiB  256          30.0%             b5389bf8-c0e5-42be-a296-a35b0a3e68fb  2b

我正在尝试运行以下命令将 csv 文件导入我的数据库：

dsbulk load -url cassReviews/reviewsCass.csv -k bnbreviews -t reviews_by_place -h '172.31.23.23' -header true

我不断收到以下错误：

连接到节点时出错(endPoint=/172.31.23.23：9042，hostId=null，hashCode=b9b80b7(
无法联系到任何联系点，请确保您提供了有效的地址

我正在从集群外部运行导入，但在同一 EC2 实例中。在每个节点上，我将listen_address和rpc_address设置为其私有IP。端口 9042 已打开 - 所有三个节点都在同一区域内，我使用的是 Ec2Snitch。每个节点都在 ubuntu v18.04 服务器上运行。

在运行命令之前，我已经确保我的每个节点都已启动，并且我的.csv文件的路径是正确的。似乎当我运行 dsbulk 命令时，我用 -h 标志指定的节点会立即关闭。我的配置是否有问题，我缺少什么？DSBulk 加载程序在本地运行良好，但是是否有更理想的方法可以从 EC2 实例中的 csv 文件导入数据？谢谢！

编辑：我已经能够使用dsbulk加载器在块中加载数据，但是该过程偶尔会因此错误而中断：

[s0|/xxx.xx.xx.xxx:9042] 打开新通道时出错

我目前的解释是，指定 IP 上的节点已耗尽存储空间并崩溃，导致任何后续 dsbulk 操作失败。到目前为止，解决方法是从/var/log/cassandra 中清除多余的日志文件并重新启动节点，但我认为更好的方法是增加每个实例上的 SSD。

正如我的编辑中所述，通过增加每个节点实例上的音量解决了这个问题。DSBulk 失败并导致节点崩溃的原因是 EC2 实例因导入的数据、日志记录和快照的组合而耗尽存储空间。我最终在具有 30GB SSD 的 t2.medium 实例上运行我的主节点实例，其中我运行 DSBulk 命令，这解决了这个问题。

相关内容

最新更新

热门标签：