如何使用 Python 提取嵌入在 RTF 中的 HTML?



我正在尝试从Outlook msg文件中提取HTML电子邮件正文。我已经使用电子邮件-outlook-message-perl成功地将它们转换为eml/standard RFC 822文件,但是电子邮件的正文是用RTF包装的HTML。下面是一个示例截图:

{*htmltag96 <div class="EduText" style="padding:2px;border-width:1px;background-color:#DEE5ED;border-color:##FAFAFA;border-style:solid;">}htmlrtf {htmlrtf0 {*htmltag64}htmlrtf {htmlrtf0 htmlrtf{f4fs24htmlrtf0 'cd'd5'e0'c1'c5'b9'd5'e9'ca'e8'a7'e4'bb'b7'd5'e8 john.smithhtmlrtff0}htmlrtf0 
{*htmltag116 <br>}htmlrtf line
htmlrtf0 

有没有办法获取HTML内容,而不需要所有的RTF垃圾?

这是一个几年前的背线,但这对于刚接触 TNEF 并且他处于类似情况的人来说可能会有所帮助......

如果您是 Linux 用户,那么您可以使用 Linux 命令行工具 unrtf 从 rtf 文件中提取 html 内容

联合国RTF消息.rtf

这将为您提供包含 html 内容的输出。

如果您想将其重定向到文件中,则可以尝试UNRTF 消息.rtf>消息.html

希望这有帮助...

-苏雷什

>Microsoft使用的是TNEF(传输中性封装格式(。所以我认为你需要搜索一个TNEF Phyton实现,比如:

  • tnefparse

最新更新