如何在R中从大文本文档中以特定关键字分隔出特定文本?



我有包含不同诊断的医疗记录的大文本数据文档,这些文档由关键字[report_complete]分隔。我想提取整个患者信息(在[report_complete]"如果患者患有结肠癌,请从以下数据库中查询"[report_complete]"。我们怎么做呢?

数据如下:

"[report_complete]">

姓名: 年龄: 性别:机构:手术日期:8/2/2015入组日期:8/2/2015报告时间:8/5/2015 16:10结果最终诊断:*右脚经跖骨截肢:

"[report_complete]"*

名称: 年龄: 性:

解剖病理 手术日期:7/11/2015 入组日期:7/11/2015 报告日期:7/14/2015 最终病理诊断: 结肠癌(活检完成)

"[report_complete]">

我正在使用stringr函数,但是,我正在使用它得到错误。我想知道我们如何为它制作一个合适的脚本?

假设数据如下:

example <- ""[report_complete]"
Name: age: sex: Institution: Date of Operation: 8/2/2015 Date of Accession: 8/2/2015 Reported: 8/5/2015 16:10 Results FINAL DIAGNOSIS: *RIGHT FOOT TRANSMETATARSAL AMPUTATION:
"[report_complete]"*
Name: age: sex:
ANATOMIC PATHOLOGY Date of Operation: 7/11/2015 Date of Accession: 7/11/2015 Reported: 7/14/2015 FINAL PATHOLOGIC DIAGNOSIS: Colon cancer (biopsy done)
"[report_complete]""

你可以这样写:

stringr::str_extract_all(example, "(?s)(?<=\[report_complete\]").*?(?="\[report_complete\]")")

最新更新