vm.syslog和内存使用中的错误不断增加



我在某些附录项目上遇到了问题,因为几天我开始看到很多错误(我注意到当健康检查到达时可能发生)我的vm.syslog logs来自StackDriver Logging。

在这些特定中是:

  • write_gcm:服务器响应(collectDtimeserRiesRequest)包含错误:#012 {#012" payloaderrors":[#012 {#012 {#012" index":71,#012"错误":012" messages":"预期4个标签。找到0.nstart_time { n秒:1513266364 n nanos:618061284 n} nend_time { n秒:1513266664 n nanos:618061284 n}类型: " ps_rss " n]在资源[类型:" gce_instance " nlabels { n key: n key:" instance_id " n value: xxx n} n} nlabels {"区域" n值:"欧洲 - west2-a " n} n]对于project xxx"#012}#012}#012}#012]#012}
  • write_gcm:失败的http请求400:{#012" error":{#012"代码":400,#012" message":" field timeseries [11] .metric.labels [1]" health_check_type ":未识别的公制标签。
  • write_gcm:错误与端点交谈。
  • write_gcm:wg_transmit_unique_segment失败。
  • write_gcm:wg_transmit_unique_segments失败。冲洗。

同时,我注意到,同一项目的附录仪表板中我的内存使用量正在增加,随着时间的流逝,在达到最大可用金额的时间的流逝,实例重新启动,当时,在502时抛出了502错误。访问该应用程序服务的网站。

所有这些都没有发生在至少2周以来没有更新的几个项目上(上面的错误或内存增加),但它确实发生在新创建的实例上,当健康项目。此外,在本地运行项目时,我碰巧不会看到内存的增加。

有人可以轻轻地告诉我他们是否经历了类似的事情,还是认为错误和记忆的增加是相关的?我最近还没有更改YAML文件以进行部署,也没有为健康检查指定任何自定义配置(该检查以默认率在旧模式下运行)。

谢谢您的帮助,尼古拉

simliar问题在此处延期:跟踪内存泄漏

在单个VM上浏览计算引擎中的同一件事。我尝试增加内存,但问题仍然存在。似乎与StackDriver方法调用有关。不确定该怎么办,会导致机器在24小时后停止。就我而言,我每3秒从一组API获取信息,但是串行端口1(控制台)中的每一分钟都会出现错误。更多来自Google的更多信息:https://cloud.google.com/monitoring/api/ref_v3/rest/v3/projects.collectdtimeseries/create。

我不确定所有错误,但对于" write_gcm:server响应(collectdtimeseriesrequest))",我遇到了同样的问题,并联系了Google Cloud Support。他们告诉我,StackDriver服务最近已更新,以接受有关ps_rss指标的更多详细信息,但它导致了来自老年代理商的指标。

您应该能够通过将StackDriver代理升级到最新版本来解决此问题。在计算引擎(我正在运行)上,您对此有控制权,我不确定您如何在附录上进行操作,也许触发新的部署?

最新更新