Mam kolumnę z 50 kluczami słów kluczowych:

Keyword1 
Keyword2
Keyword3
KeywordN=50

Ponadto dostałem ramę danych z dwiema kolumnami: tytuł i streszczenie.

Title          Abstract 
Rstudio Keyword1    A interesting program language keyword2 
Python Keyword3     A interesting program keyword3 language 

Chcę uzyskać dodatkową kolumnę (nazywajmy to słowami kluczowymi), gdzie pojawi się nazwa słowa kluczowego, jeśli jest w tytule lub abstrakcji, podobnie jak to:

Title       Abstract                  Keywords
Rstudio Keyword1 A interesting program language keyword2 Keyword1, keyword2
Python Keyword2 A interesting program keyword3 language Keyword2, Keyword3

Jedyną rzeczą, jak mogłem "rozwiązać", był poprzez wykonanie kolumn binarnych (jeśli dopasowany wzór). (Funkcja GREPL), ale to nie było pożądane rozwiązanie ...

0
R overflow 4 czerwiec 2018, 12:19

4 odpowiedzi

Najlepsza odpowiedź

W bazie R:

 • Umożliwia obsługę interpunkcji, przestrzeni, końcówek / uruchamiania linii.
 • Słowa kluczowe mogą zawierać spacje i pewne interpunkcyjne (ale nie wszystkie)
 • Słowa kluczowe w nowej kolumnie przechowywać przypadek oryginalnego słowa kluczowlatego:

kod

ind <- sapply(paste0('(^|[ [:punct:]])',tolower(keywords),'($|[ [:punct:]])'),grep,tolower(paste(df$Title,df$Abstract)))
ind[lengths(ind)==0] <- NA # for cases where no keyword is found
ind2 <- do.call(rbind,Map(data.frame,keyword=keywords,i=ind))
ind3 <- aggregate(keyword ~ i,ind2,paste,collapse=', ')
df$keywords[ind3$i] <- ind3$keyword
df$keywords[is.na(df$keywords)] <- "" # replacing NAs with empty strings
#       Title                Abstract      keywords
# 1 Rstudio Keyword1 A interesting program language keyword2 Keyword1, Keyword2
# 2 Python Keyword2 A interesting program keyword3 language Keyword2, Keyword3

dane

keywords <- c("Keyword1", "Keyword2", "Keyword3")

df <- read.table(text="Title          Abstract 
         'Rstudio Keyword1'    'A interesting program language keyword2' 
         'Python Keyword2'     'A interesting program keyword3 language'",h=T,strin=F)
1
Moody_Mudskipper 5 czerwiec 2018, 08:27
cbind(dat,Keywords=do.call(paste,c(sep=",",Map(sub,paste0(".*(",paste(keywords,collapse="|"),").*"),"\\1",dat,TRUE))))
       Title                Abstract     Keywords
1 Rstudio Keyword1 A interesting program language keyword2 Keyword1,keyword2
2 Python Keyword3 A interesting program keyword3 language Keyword3,keyword3

Gdzie keywords=paste0("Keyword",1:3) i

dat=read.table(text="Title          Abstract 
'Rstudio Keyword1'    'A interesting program language keyword2' 
'Python Keyword3'     'A interesting program keyword3 language'",h=T,strin=F)

Linia może wydawać się długi: awaria:

a=paste0(".*(",paste(keywords,collapse="|"),").*")
b=do.call(paste,c(sep=",",Map(sub,a,"\\1",dat,TRUE)))
cbind(dat,keywords=b)
       Title                Abstract     keywords
1 Rstudio Keyword1 A interesting program language keyword2 Keyword1,keyword2
2 Python Keyword3 A interesting program keyword3 language Keyword3,keyword3
1
Onyambu 4 czerwiec 2018, 10:33

Kolejne podejście przy użyciu strsplit (również w bazie r):

ls <- strsplit(tolower(paste(df$Title, df$Abstract)), 
            "(\\s+)|(?!')(?=[[:punct:]])", perl = TRUE)  

df$Keywords <- do.call("rbind", 
        lapply(ls, function(x) paste(unique(x[x %in% tolower(keywords)]), 
        collapse = ", ")))

#       Title                Abstract      Keywords
#1 Rstudio Keyword1 A interesting program language keyword2 keyword1, keyword2
#2 Python Keyword2 A interesting program keyword3 language keyword2, keyword3

Przykładowe dane

df <- data.frame(Title = c("Rstudio Keyword1", "Python Keyword2"), 
         Abstract = c("A interesting program language keyword2", 
               "A interesting program keyword3 language"), 
         stringsAsFactors = F)

keywords <- paste0("Keyword", 1:4)
1
DJack 4 czerwiec 2018, 15:38
Title<-as.character(c("Rstudio Keyword1","Python Keyword3"))
Abstract<-as.character(c("A interesting program language keyword2"," A interesting program keyword3 language"))
example1.data <- data.frame(Title,Abstract)


#loop answer
f<-length(example1.data)
example1.data$Keyword <- NA

for (i in 1:nrow(example1.data)){
testA[i]<-regmatches(example1.data$Title[i], regexpr("(Keyword|keyword) ([0-9])", example1.data$Title[i]))
testB[i]<-regmatches(example1.data$Abstract[i], regexpr("(Keyword|keyword)([0-9])", example1.data$Abstract[i]))
example1.data$Keyword[i]<-paste(testA[i],testB[i], sep=", ")

}
0
Marta 4 czerwiec 2018, 15:33