티스토리 뷰

728x90

"tidytext" package에 대해 알아보고 사용해 보려 합니다.

 

정돈 텍스트 형식이라고도 불리는데, 특징은 1개 행마다 1개의 토큰이 있게 데이터를 구성하는 겁니다. (1행당 1토큰)

정돈 텍스트 형식의 장점은 gplot2나 dplyr을 활용하여 텍스트를 요약, 시각화를 효율적으로 할 수 있습니다.

 

기본적인 사용법은 아래와 같습니다.

1. text를 dplyr패키지를 사용해 변환

2. tidytext의 unnest_tokens를 이용해 1행 1토큰으로 변환

 

github 링크 : https://github.com/jasonlee8318/R-programming/blob/master/tidytext_1.R

참고하기 좋은 사이트 : https://junhewk.github.io/text/2017/06/18/single-word-analysis-korean-poem/

 

R에서 해보는 한국 일제강점기 시의 단어 분석

본 포스트는 Single World Analysis of Early 19th Century Poetry Using tidytext의 내용을 수정, 발전시킨 것입니다. 분석 방법은 기본적으로 모두 원 블로그에서 따온 것임을 밝힙니다. 전희원님의 KoNLP는 정말 멋진 패키지이지만, 본문에서는 적용하지 않았습니다. 다음번 포스팅에는 독자분들이 좀 더 쉽게 접근하실 수 있도록 KoNLP를 통한 분석도 싣도록 하겠습니다. 여기에서는 코모란 3.0을 적용했습니다.

junhewk.github.io

 

 

#text생성

> text <- c("I like apple", "I like banana", "nice to meet you", "good bye")
> text
[1] "I like apple"     "I like banana"    "nice to meet you" "good bye"        
> library(dplyr)

#dplyr을 이용tibble생성
> tibble(line = 1:4, text= text)
# A tibble: 4 x 2
   line text            
  <int> <chr>           
1     1 I like apple    
2     2 I like banana   
3     3 nice to meet you
4     4 good bye        

> text_tibble <- tibble(line = 1:4, text= text)
> text_tibble
# A tibble: 4 x 2
   line text            
  <int> <chr>           
1     1 I like apple    
2     2 I like banana   
3     3 nice to meet you
4     4 good bye  


> library(tidytext)

#tidytext 패키지에서 unnest_tokens는 1행1토큰으로 생성해준다.
> text_tibble %>% unnest_tokens(word, text)
# A tibble: 12 x 2
    line word  
   <int> <chr> 
 1     1 i     
 2     1 like  
 3     1 apple 
 4     2 i     
 5     2 like  
 6     2 banana
 7     3 nice  
 8     3 to    
 9     3 meet  
10     3 you   
11     4 good  
12     4 bye

 

 

728x90

'R programming' 카테고리의 다른 글

[R] apply 계열 함수 정리  (0) 2020.02.22
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함