如何基于符号转换数据帧中的段落列表



我有一个文本向量,包含由四颗星分隔的多个段落:

text <-("Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus metus sapien
****
maximus id commodo vitae, imperdiet sed ante. Nunc tristique velit quis est ultrices, faucibus. 
****
Curabitur sit amet orci nulla. Mauris sed interdum diam, et suscipit nisi.
****
Integer eu arcu eu tortor molestie mollis ut vitae erat. Integer justo tortor
****
facilisis non condimentum in, tincidunt nec erat. Mauris vel dictum elit.")

我想将我的矢量转换为基于四颗星分隔符的数据帧:

|text                                                                                         |
|-----------------------------------------------------------------------------------------------|
|Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus metus sapien                  |
|-----------------------------------------------------------------------------------------------| 
|maximus id commodo vitae, imperdiet sed ante. Nunc tristique velit quis est ultrices, faucibus.|
|-----------------------------------------------------------------------------------------------| 
|Curabitur sit amet orci nulla. Mauris sed interdum diam, et suscipit nisi.                     |
|-----------------------------------------------------------------------------------------------| 
|Integer eu arcu eu tortor molestie mollis ut vitae erat. Integer justo tortor                  |
|-----------------------------------------------------------------------------------------------| 
|facilisis non condimentum in, tincidunt nec erat. Mauris vel dictum elit.                      | 
|-----------------------------------------------------------------------------------------------|    |

您可以使用strsplit:

data.frame(text = strsplit(text, '\*{4}n\s')[[1]])
#                                                                                                text
#1                    Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus metus sapienn 
#2 maximus id commodo vitae, imperdiet sed ante. Nunc tristique velit quis est ultrices, faucibus. n 
#3                       Curabitur sit amet orci nulla. Mauris sed interdum diam, et suscipit nisi.n 
#4                    Integer eu arcu eu tortor molestie mollis ut vitae erat. Integer justo tortorn 
#5                           facilisis non condimentum in, tincidunt nec erat. Mauris vel dictum elit.

我们可以使用fixed = TRUE

data.frame(text = strsplit(text, "****n ", fixed = TRUE)[[1]])
                           #text
#1                    Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus metus sapienn 
#2 maximus id commodo vitae, imperdiet sed ante. Nunc tristique velit quis est ultrices, faucibus. n 
#3                       Curabitur sit amet orci nulla. Mauris sed interdum diam, et suscipit nisi.n 
#4                    Integer eu arcu eu tortor molestie mollis ut vitae erat. Integer justo tortorn 
#5                           facilisis non condimentum in, tincidunt nec erat. Mauris vel dictum elit.

相关内容

  • 没有找到相关文章

最新更新