我有一个文本向量,包含由四颗星分隔的多个段落:
text <-("Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus metus sapien
****
maximus id commodo vitae, imperdiet sed ante. Nunc tristique velit quis est ultrices, faucibus.
****
Curabitur sit amet orci nulla. Mauris sed interdum diam, et suscipit nisi.
****
Integer eu arcu eu tortor molestie mollis ut vitae erat. Integer justo tortor
****
facilisis non condimentum in, tincidunt nec erat. Mauris vel dictum elit.")
我想将我的矢量转换为基于四颗星分隔符的数据帧:
|text |
|-----------------------------------------------------------------------------------------------|
|Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus metus sapien |
|-----------------------------------------------------------------------------------------------|
|maximus id commodo vitae, imperdiet sed ante. Nunc tristique velit quis est ultrices, faucibus.|
|-----------------------------------------------------------------------------------------------|
|Curabitur sit amet orci nulla. Mauris sed interdum diam, et suscipit nisi. |
|-----------------------------------------------------------------------------------------------|
|Integer eu arcu eu tortor molestie mollis ut vitae erat. Integer justo tortor |
|-----------------------------------------------------------------------------------------------|
|facilisis non condimentum in, tincidunt nec erat. Mauris vel dictum elit. |
|-----------------------------------------------------------------------------------------------| |
您可以使用strsplit
:
data.frame(text = strsplit(text, '\*{4}n\s')[[1]])
# text
#1 Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus metus sapienn
#2 maximus id commodo vitae, imperdiet sed ante. Nunc tristique velit quis est ultrices, faucibus. n
#3 Curabitur sit amet orci nulla. Mauris sed interdum diam, et suscipit nisi.n
#4 Integer eu arcu eu tortor molestie mollis ut vitae erat. Integer justo tortorn
#5 facilisis non condimentum in, tincidunt nec erat. Mauris vel dictum elit.
我们可以使用fixed = TRUE
data.frame(text = strsplit(text, "****n ", fixed = TRUE)[[1]])
#text
#1 Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus metus sapienn
#2 maximus id commodo vitae, imperdiet sed ante. Nunc tristique velit quis est ultrices, faucibus. n
#3 Curabitur sit amet orci nulla. Mauris sed interdum diam, et suscipit nisi.n
#4 Integer eu arcu eu tortor molestie mollis ut vitae erat. Integer justo tortorn
#5 facilisis non condimentum in, tincidunt nec erat. Mauris vel dictum elit.