我有一个保存为文本文件的电子邮件列表。我的最终目标是将电子邮件放入R中的DF,并将日期,时间,正文,地址等电子邮件字段作为列标题。电子邮件的格式都相同(我认为,可能是一些流氓)。下面是一个示例。
日期,9/5/2014,时间,下午2:34:54,姓名,伯特约翰,电子邮件,简Doe@gmail com,页面名称,主页,Form_Comments,这是一封通用电子邮件,出于隐私,身份,通用,****删除了内容
所有的电子邮件都被读到一个word文档中,我写了一个宏,将它们放在逗号分隔的样式中。****用于标记电子邮件的结尾。我不确定从哪里开始编写 R 脚本来阅读此 Word 文档,并创建我正在寻找的表。我的大部分R经验都是分析而不是数据步骤编程。我知道单词文档可能也需要编辑才能读入R.提前感谢您。
所以我拿了你的数据文件,把它复制到自己身上一次,然后用文本编辑器用CR替换了",****",把它作为一个.txt文件保存到磁盘上,然后读取它:
df = read.csv("c:\users\n\box sync\test.txt", header = FALSE)
输出为
V1 V2 V3 V4 V5 V6 V7 V8 V9
1 Date 9/5/2014 Time 2:34:54 PM Name Email Jane Doe@gmail com pageName Home
2 Date 9/5/2014 Time 2:34:54 PM Name Email Jane Doe@gmail com pageName Home
V10 V11
1 Form_Comments This is a generic email with the content removed for privacy
2 Form_Comments This is a generic email with the content removed for privacy
V12 V13
1 Identity Generic
2 Identity Generic