티스토리 뷰
728x90
"tidytext" package에 대해 알아보고 사용해 보려 합니다.
정돈 텍스트 형식이라고도 불리는데, 특징은 1개 행마다 1개의 토큰이 있게 데이터를 구성하는 겁니다. (1행당 1토큰)
정돈 텍스트 형식의 장점은 gplot2나 dplyr을 활용하여 텍스트를 요약, 시각화를 효율적으로 할 수 있습니다.
기본적인 사용법은 아래와 같습니다.
1. text를 dplyr패키지를 사용해 변환
2. tidytext의 unnest_tokens를 이용해 1행 1토큰으로 변환
github 링크 : https://github.com/jasonlee8318/R-programming/blob/master/tidytext_1.R
참고하기 좋은 사이트 : https://junhewk.github.io/text/2017/06/18/single-word-analysis-korean-poem/
R에서 해보는 한국 일제강점기 시의 단어 분석
본 포스트는 Single World Analysis of Early 19th Century Poetry Using tidytext의 내용을 수정, 발전시킨 것입니다. 분석 방법은 기본적으로 모두 원 블로그에서 따온 것임을 밝힙니다. 전희원님의 KoNLP는 정말 멋진 패키지이지만, 본문에서는 적용하지 않았습니다. 다음번 포스팅에는 독자분들이 좀 더 쉽게 접근하실 수 있도록 KoNLP를 통한 분석도 싣도록 하겠습니다. 여기에서는 코모란 3.0을 적용했습니다.
junhewk.github.io
#text생성
> text <- c("I like apple", "I like banana", "nice to meet you", "good bye")
> text
[1] "I like apple" "I like banana" "nice to meet you" "good bye"
> library(dplyr)
#dplyr을 이용tibble생성
> tibble(line = 1:4, text= text)
# A tibble: 4 x 2
line text
<int> <chr>
1 1 I like apple
2 2 I like banana
3 3 nice to meet you
4 4 good bye
> text_tibble <- tibble(line = 1:4, text= text)
> text_tibble
# A tibble: 4 x 2
line text
<int> <chr>
1 1 I like apple
2 2 I like banana
3 3 nice to meet you
4 4 good bye
> library(tidytext)
#tidytext 패키지에서 unnest_tokens는 1행1토큰으로 생성해준다.
> text_tibble %>% unnest_tokens(word, text)
# A tibble: 12 x 2
line word
<int> <chr>
1 1 i
2 1 like
3 1 apple
4 2 i
5 2 like
6 2 banana
7 3 nice
8 3 to
9 3 meet
10 3 you
11 4 good
12 4 bye
728x90
'R programming' 카테고리의 다른 글
[R] apply 계열 함수 정리 (0) | 2020.02.22 |
---|
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- wfastcgi
- 자기계발
- lambda
- 밀키트
- 정보관리기술사
- 기술사학원
- gpt3.5
- 131회정보관리기술사
- 정보관리기술사합격
- 로블록스
- ISO 12207
- 인조기프
- 정보관리
- iso12207
- 정보관리기술사독학
- 머신러닝
- 추천시스템
- hackerrank
- 기술사
- s3
- AWS
- IIS
- 콘도챗봇
- 챗봇
- pytorch
- 추천도서
- FLASK
- 밀키트요리
- r
- 12207
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
글 보관함