将半结构化电子邮件读取到 R.



我有一个保存为文本文件的电子邮件列表。我的最终目标是将电子邮件放入R中的DF,并将日期,时间,正文,地址等电子邮件字段作为列标题。电子邮件的格式都相同(我认为,可能是一些流氓)。下面是一个示例。

日期,9/5/2014,时间,下午2:34:54,姓名,伯特约翰,电子邮件,简Doe@gmail com,页面名称,主页,Form_Comments,这是一封通用电子邮件,出于隐私,身份,通用,****删除了内容

所有的电子邮件都被读到一个word文档中,我写了一个宏,将它们放在逗号分隔的样式中。****用于标记电子邮件的结尾。我不确定从哪里开始编写 R 脚本来阅读此 Word 文档,并创建我正在寻找的表。我的大部分R经验都是分析而不是数据步骤编程。我知道单词文档可能也需要编辑才能读入R.提前感谢您。

所以我拿了你的数据文件,把它复制到自己身上一次,然后用文本编辑器用CR替换了",****",把它作为一个.txt文件保存到磁盘上,然后读取它:

df = read.csv("c:\users\n\box sync\test.txt", header = FALSE)

输出为

    V1        V2   V3         V4   V5    V6                  V7       V8    V9
1 Date  9/5/2014 Time 2:34:54 PM Name Email  Jane Doe@gmail com pageName  Home
2 Date  9/5/2014 Time 2:34:54 PM Name Email  Jane Doe@gmail com pageName  Home
            V10                                                            V11
1 Form_Comments  This is a generic email with the content removed for privacy 
2 Form_Comments  This is a generic email with the content removed for privacy 
       V12      V13
1 Identity  Generic
2 Identity  Generic

最新更新