我正在尝试使用Apache的PDFBox读取PDF的内容并在base64中编码,以便我可以将其流式传输到其他地方。要编码它,我使用Apache commons Base64OutputStream类。一样,
ByteArrayOutputStream byteOutput = new ByteArrayOutputStream();
Base64OutputStream base64Output = new Base64OutputStream(byteOutput);
List pages = pdfDocument.getDocumentCatalog().getAllPages();
Iterator iter = pages.iterator();
while (iter.hasNext()) {
PDPage page = (PDPage) iter.next();
PDResources resources = page.getResources();
Map<String, PDXObjectImage> pageImages = resources.getImages();
if (pageImages != null) {
Iterator imageIter = pageImages.keySet().iterator();
while (imageIter.hasNext()) {
String key = (String) imageIter.next();
PDXObjectImage image = (PDXObjectImage) pageImages
.get(key);
image.write2OutputStream(base64Output);
}
}
}
String base64 = new String(byteOutput.toByteArray());
它似乎正在编码它,但我需要通过编写一个junit测试来验证base64字符串来验证它。下面这些似乎都不及格。有什么想法吗?
assertTrue(content
.matches("^([A-Za-z0-9+/]{4})*([A-Za-z0-9+/]{4}|[A-Za-z0-9+/]{3}=|[A-Za-z0-9+/]{2}==)$"));
Thanks in advance
默认Base64OutputStream
使用CHUNK_SIZE = 76, CHUNK_SEPARATOR = {'r', 'n'}。用于测试给定字符串是否为BASE64编码的正则表达式没有考虑到这一点。
匹配分块BASE64(给定块大小为64和分隔符rn)字符串的正则表达式可能如下所示:
"^(([\w+/]{4}){19}rn)*(([\w+/]{4})*([\w+/]{4}|[\w+/]{3}=|[\w+/]{2}==))$"