谷歌云上的GRPC运行:上游连接错误或标头前断开连接/重置.重置原因:远程重置



编辑

我描述的第一个错误似乎很容易重现。事实上,Google Run似乎无法在.NET5 GRPC服务器上运行任何GRPC查询(至少,它以前确实工作过,但截至今天,2月21日,似乎发生了变化(。复制:

  1. 创建一个.NET5 GRPC服务器(也与.NET6一起失败(:
dotnet new grpc -o TestGrpc
  1. 更改Program.cs,使其侦听$PORT,通常:
public static IHostBuilder CreateHostBuilder(string[] args)
{
var port = Environment.GetEnvironmentVariable("PORT") ?? "8080";
var url = string.Concat("http://0.0.0.0:", port);
return Host.CreateDefaultBuilder(args)
.ConfigureWebHostDefaults(webBuilder =>
{
webBuilder.UseStartup<Startup>().UseUrls(url);
});
}
  1. 一个非常简单的Dockerfile,为服务器提供一个映像(使用更标准的映像也会失败,如这里所示(:
FROM mcr.microsoft.com/dotnet/sdk:5.0
COPY . ./
RUN dotnet restore ./TestGrpc.csproj
RUN dotnet build ./TestGrpc.csproj -c Release
CMD dotnet run --project ./TestGrpc.csproj
  1. 构建并推送到Google Artifacts注册表
  2. 创建一个启用HTTP/2的Cloud Run实例(Ketrel需要HTTP/2,因此我们需要设置HTTP/2端到端,但我也测试了没有,但它并不更好(
  3. 以Grpcurl为例,然后尝试:
grpcurl {CLOUD_RUN_URL}:443 list

你会得到与我的(更复杂的(项目相同的错误:

Failed to list services: rpc error: code = Unavailable desc = upstream connect error or disconnect/reset before headers. reset reason: remote reset

在Google Cloud Run实例上,我只有日志:

2022-02-21T16:44:32.528530Z POST 200 1.02 KB 41 ms grpcurl/v1.8.6 grpc-go/1.44.1-dev https://***/grpc.reflection.v1alpha.ServerReflection/ServerReflectionInfo

(我真的不明白为什么它是200……而且似乎从来没有到达实际的服务器实现,就好像有某种中间件阻止查询到达实现一样……(

我敢肯定,当我以这种方式开始我的项目时(然后更改了原型、服务等(,这曾经是有效的。如果有人有线索,我会非常感激:-(


初始POST(不如上面的解释准确,但如果它能提供线索,我就把它留在这里(

我有一个在Docker(.NET5 GRPC应用程序(中运行的服务器。此服务器在本地部署时运行良好。但最近我在Google Cloud Run上部署它时遇到了一个错误:upstream connect error or disconnect/reset before headers. reset reason: remote reset,当时它以前工作得很好。我一直从我使用的任何客户端收到这个错误,例如Curl:

curl -v https://{ENDPOINT}/{Proto-base}/{Method} --http2

*   Trying ***...
* TCP_NODELAY set
* Connected to *** (***) port 443 (#0)
* ALPN, offering h2
* ALPN, offering http/1.1
* successfully set certificate verify locations:
*   CAfile: /etc/ssl/certs/ca-certificates.crt
CApath: /etc/ssl/certs
* TLSv1.3 (OUT), TLS handshake, Client hello (1):
* TLSv1.3 (IN), TLS handshake, Server hello (2):
* TLSv1.3 (IN), TLS handshake, Encrypted Extensions (8):
* TLSv1.3 (IN), TLS handshake, Certificate (11):
* TLSv1.3 (IN), TLS handshake, CERT verify (15):
* TLSv1.3 (IN), TLS handshake, Finished (20):
* TLSv1.3 (OUT), TLS change cipher, Change cipher spec (1):
* TLSv1.3 (OUT), TLS handshake, Finished (20):
* SSL connection using TLSv1.3 / TLS_AES_256_GCM_SHA384
* ALPN, server accepted to use h2
* Server certificate:
*  subject: CN=*.a.run.app
*  start date: Feb  7 02:07:06 2022 GMT
*  expire date: May  2 02:07:05 2022 GMT
*  subjectAltName: host "***" matched cert's "*.a.run.app"
*  issuer: C=US; O=Google Trust Services LLC; CN=GTS CA 1C3
*  SSL certificate verify ok.
* Using HTTP2, server supports multi-use
* Connection state changed (HTTP/2 confirmed)
* Copying HTTP/2 data in stream buffer to connection buffer after upgrade: len=0
* Using Stream ID: 1 (easy handle 0x5564aad30860)
> GET /{Proto}/{Method} HTTP/2
> Host: ***
> user-agent: curl/7.68.0
> accept: */*
>
* TLSv1.3 (IN), TLS handshake, Newsession Ticket (4):
* TLSv1.3 (IN), TLS handshake, Newsession Ticket (4):
* old SSL session ID is stale, removing
* Connection state changed (MAX_CONCURRENT_STREAMS == 100)!
< HTTP/2 503 
< content-length: 85
< content-type: text/plain
< date: Mon, 21 Feb 2022 13:51:31 GMT
< server: Google Frontend
< traceparent: 00-5a74487dafb5687961deeb17e0158ca9-5ab63cd23680e7d7-01
< x-cloud-trace-context: 5a74487dafb5687961deeb17e0158ca9/6536478782730069975;o=1
< alt-svc: h3=":443"; ma=2592000,h3-29=":443"; ma=2592000,h3-Q050=":443"; ma=2592000,h3-Q046=":443"; ma=2592000,h3-Q043=":443"; ma=2592000,quic=":443"; ma=2592000; v="46,43"
<
* Connection #0 to host *** left intact
upstream connect error or disconnect/reset before headers. reset reason: remote reset

Grpcurl:也是如此

grpcurl ***:443 list {Proto-base}
Failed to list methods for service "***.Company": rpc error: code = Unavailable desc = upstream connect error or disconnect/reset before headers. reset reason: remote reset

我找不到关于这个错误的太多资源,因为我读到的大多数线程都处理另一种类型的reset reason(如协议或连接等(。但我完全不知道remote reset是什么意思,也不知道我做错了什么。

查看Google Cloud Run中的日志,我可以看到服务器确实被击中了,尽管我在未触发的路由中添加了跟踪日志,因此它从未到达我的代码:

2022-02-21T14:44:22.840580Z  POST 200 1.01 KB 1 msgrpc-python/1.44.0 grpc-c/22.0.0 (linux; chttp2) https://***/{Protos-base}/{Method}

(如果我到达我的代码,它应该在任何地方打印一些"Hellos",但它没有(

有人发现过这个吗?

附言:关于Envoy有很多东西,但我甚至不使用这个。我只是有一个Cloud Run实例(使用HTTP/2,我尝试过不使用,但由于协议问题,它失败了(。

这是Envoy和Google Cloud Run的一个实际错误。如果你使用的是.NET6,有一个快速的解决方案,否则会有点麻烦。我将在这里复制Amanda Tarafa Mas从谷歌云平台提供的关于我打开的github问题的答案:

以下是潜在的修复:

  • 使用.NET 6时,可以将KestrelServerOptions.AllowAlternateSchemes设置为true
  • 如果在较低的.NET版本上,请考虑类似GRPC:从代理/负载平衡器传递的scheme伪标头导致ConnectionAbortedException dotnet/aspnetcore#3052(注释(。或者考虑升级到.NET 6

发生了什么:

  • Cloud Run依赖Envoy,自2021年4月15日以来,Envoy的行为发生了变化,请参阅";preserve_download_scheme";在发行说明中:https://www.envoyproxy.io/docs/envoy/latest/version_history/v1.18.0Envoy最近删除了旧行为:https://www.envoyproxy.io/docs/envoy/latest/version_history/current#removed-配置或运行时
  • 反过来,这暴露了这个.NET问题:从代理/负载平衡器传递的GRPC:scheme伪标头导致ConnectionAbortedException dotnet/aspnetcore#3052,为其添加了Kestrel配置标志,但仅适用于.NET 6。我正在考虑把这件事记录下来@metetamel你能更新教程,使其使用Kestrel选项吗

对我来说,设置KestrelServerOptions.AllowAlternate足以让我的GRPC服务器重新工作。

正如@Craig所说,你可以在这里跟踪这个问题,看看它是否得到了解决。

最新更新