无法识别文件类型



这是我的第一篇文章。我是Java的新手。我正在研究文件解析器。我试图确定它是CSV还是其他文件格式,但看起来它不是标准的格式。我正在研究 apache 骆驼解决方案(我的第一个也是最后一个想法:(),但也许你们中的一些人认识这种文件格式?此外,我的输出还有 .imp 文件。

这是我的示例输入:

NrDok:FS-2222/17/W Data:12.02.2017 SposobPlatn:GOT NazwaWystawcy:MAAKAI Gawron AdresWystawcy:33-123 bABA KodWystawcy:33-112 MiastoWystawcy:bABA UlicaWystawcy:czysfa 8 NIPWystawcy:123-19-85-123 NazwaOdbiorcy:abc abc-HANDLOWO-USŁUGOWE AdresOdbiorcy:33-123 fghd KodOdbiorcy:33-123 MiastoOdbiorcy:Tdsfs UlicaOdbiorcy:dfdfdA 39 NIPOdbiorcy:82334349 TelefonOdbiorcy:654-522-124 NrOdbiorcyWSieciSklepow:efdsS-sffgsA IloscLinii:1 Linia:Nazwa{ĆWIARTKA KG}Kod{C1}Vat{5}Jm{kg.}Asortyment{dfgv}Sww{}PKWIU{10.12.10}Ilosc{3.40}Cena{n3.21}Wartosc{n11.83}IleWOpak{1}CenaSp{b0.00} DoZaplaty:252.32

这是我的示例输出文件:

FH 2015.07.31 2015.07.31 F04443 Gotowka FO 812-123-45-11 P.a.b.Uc"fdad" abcd deffF UL.fdfgdfdA 12/33 33-123 afvdf FS 779-19-06-082 badfdf S.A. ul. Wisniowa 89 60-003 Poznan FP 00218746 CHRZAN TARTY EXTRA POLONAISE 180G SZT 32.00 2.21 8 10.39.17.0 32.00 5900138000055

有没有简单的方法可以将第一个文件转换为第二种文件格式?也许你知道这个文件的类型?与此同时,我正在继续我与阿帕奇骆驼的工作。

提前感谢您的时间和帮助!

我建议你玩 https://tika.apache.org/1.1/detection.html#Mime_Magic_Detection

这是非常好的文件类型识别库。

在这里 https://www.tutorialspoint.com/tika/tika_document_type_detection.htm 我们有一个简单的例子。

您的文件可以作为标准 Java .properties 文件读取。这种类型的文件允许将=:作为键和值分隔符。虽然它包含非 ISO-8859-1 字符(如波兰语Ć)这一事实可能会阻止 Java 正确解析它。

此行

Nazwa{ĆWIARTKA  KG}Kod{C1}Vat{5}Jm{kg.}Asortyment{dfgv}Sww{}PKWIU{10.12.10}Ilosc{3.40}Cena{n3.21}Wartosc{n11.83}IleWOpak{1}CenaSp{b0.00}

似乎是表单中对象的一些自定义序列化格式

key1{value1}key2{value2}...

您的输出文件包含大量未在输入中列出的数据,这让我认为有一些来自外部系统的数据查询来构建输出。你应该自己调查一下。任何人都无法通过提供的输入猜测转换。

相关内容

  • 没有找到相关文章

最新更新