我正在创建一个简单的spark流作业,从Kafka读取数据并加载到数据库表中。但有时由于记录不正确或数据类型不匹配而导致作业失败。在这种情况下调试和指出有问题的偏移是非常困难的。是否有一种方法,而加载DF表,我可以重定向错误的行到一个单独的文件进行进一步分析。
感谢我强烈建议不要写文件,因为这会导致应用程序的性能显著下降。创建一个单独的Kafka主题,记录错误,并从那里读取调试。
我正在创建一个简单的spark流作业,从Kafka读取数据并加载到数据库表中。但有时由于记录不正确或数据类型不匹配而导致作业失败。在这种情况下调试和指出有问题的偏移是非常困难的。是否有一种方法,而加载DF表,我可以重定向错误的行到一个单独的文件进行进一步分析。
感谢我强烈建议不要写文件,因为这会导致应用程序的性能显著下降。创建一个单独的Kafka主题,记录错误,并从那里读取调试。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium