从R中的文本文档中删除前n个单词
我在 R 中遇到问题,但在 Stackoverflow 中找不到类似的解决方案。
我有一个包含许多不同文本文档的数据框。我尝试 gsub 在特定模式后从文本文档中删除一些字符。这工作正常,但现在我有一个问题,我想从每个文本文档中删除前 5 个单词。
通过示例:
- “嘿,我是汤姆,我喜欢香蕉”
- “嘿,我是 Moritz,我喜欢巧克力”
解决方案应该是:
- “我喜欢香蕉”
- “我喜欢巧克力”
这在 R 中可能具有特定功能吗?这对我有很大帮助。
亲切的问候,汤姆
回答
类似的选项 str_remove
library(stringr)
str_remove(s, '(\w+\s+){5}')
#[1] "I like Bananas" "I like Chocolate"
数据
s <- c("Hey I am Tom and I like Bananas", "Hey I am Moritz and I like Chocolate")