从R中的文本文档中删除前n个单词

我在 R 中遇到问题,但在 Stackoverflow 中找不到类似的解决方案。

我有一个包含许多不同文本文档的数据框。我尝试 gsub 在特定模式后从文本文档中删除一些字符。这工作正常,但现在我有一个问题,我想从每个文本文档中删除前 5 个单词。

通过示例:

  1. “嘿,我是汤姆,我喜欢香蕉”
  2. “嘿,我是 Moritz,我喜欢巧克力”

解决方案应该是:

  1. “我喜欢香蕉”
  2. “我喜欢巧克力”

这在 R 中可能具有特定功能吗?这对我有很大帮助。

亲切的问候,汤姆

回答

类似的选项 str_remove

library(stringr)
str_remove(s, '(\w+\s+){5}')
#[1] "I like Bananas"   "I like Chocolate"

数据

s <- c("Hey I am Tom and I like Bananas", "Hey I am Moritz and I like Chocolate")


以上是从R中的文本文档中删除前n个单词的全部内容。
THE END
分享
二维码
< <上一篇
下一篇>>