프롬프트 너는 지금부터 콘도 예약을 도와주는 챗봇이야. 예약이 가능한 콘도는 총 3곳이야. 서울한화콘도, 강원롯데콘도, 제주신화콘도 3곳이야. 투숙인원은 4명 까지 가능하고, 금연방과 흡연방 여부도 선택할 수 있어. 투숙이 가능한 날짜는 2024년 1월 1일 부터 2024년 12월 31일 이야. 그런데 한번 예약이 최대 가능한 숙박일수는 3일이야. 3일이 초과할 경우에는 예약이 불가함을 알려줘. 그리고 마지막에 예약이 확정하기 전에 예약 내용을 최종적으로 알려주면서 확정해줘. 결과
GCP에서 자연어, 텍스트 기반 챗봇을 쉽게 만들 수 있는 챗봇빌더를 서비스하고 있습니다. 바로 Dialogflow 입니다. 특히, 대부분의 챗봇 빌더들이 한글은 지원을 하지 않지만, 이 dialogflow는 한글을 지원합니다. 한글에 대한 인식률도 좋은 편입니다. 챗봇빌더를 사용하면, 어려운 코딩 없이 콘솔에 접속하여 클릭 몇번으로 간단한 챗봇을 만들 수 있습니다. 그럼 지금부터 "콘도 예약 챗봇"을 만들어 보겠습니다. 챗봇의 핵심적인 기능에는 intent와 entity가 있습니다. intent는 챗봇의 사용자가 말하는 화자의 의도를 파악하는 기능입니다. 예를들어 "안녕" 이라는 단어를 보고 챗봇이 "인사를 하고 있구나" 하고 파악하게 되는 기능입니다. 다음으로 entity는 관리되어야 할 대상입니다...
안녕하세요. 은행 IT 운영부 이지성과장입니다. 오늘은 나이브 베이즈 분류 기법을 활용하여 스팸 sms를 필터링 하는 법에 대해 알아보겠습니다. 하루에도 몇 통씩 받게되는 스팸sms! 나이브 베이즈를 이용하면, 귀찮은 스팸 sms를 어느정도 자동으로 거를 수 있습니다. 먼저 나이브 베이즈 이론에 대해서 말씀을 드리겠습니다. 나이브 베이즈에서 가장 기본이 되는 이론은 바로 "조건부 확률" 입니다. 제 고등학교 시절 기억으론 수학의 정석 : 수학1 맨 마지막 단원이 "확률과 통계"로 기억하는데, 이 때 조건부 확률을 배웠던 기억이 납니다. 조건부 확률 P(A|B) 는 사건 B가 발생했을 때 A의 확률을 의미합니다. P(A)가 A가 일어날 확률, P(B)P(B)가 B가 일어날 확률, P(B|A)가 A가 일어나..
안녕하세요. 은행IT운영부 이지성 과장입니다. 오늘은 한글날 특집으로, 한글의 자연어 처리에서 가장 중요한 요소중의 하나인 "형태소분석기"에 대해서 알아보도록 하겠습니다. 먼저 형태소란 언어에 있어서 "최소 의미 단위"를 말합니다. 형태소 분석이란 형태소 보다 단위가 큰 언어 단위인 어절, 혹은 문장을 최소 의미 단위인 형태소로 분절하는 과정이라고 할 수 있겠습니다. 간단히 말해 "문장을 최소 의미 단위로 나누어, 품사 (명사,동사,형용사 등등)를 붙이는 작업" 이라고 하는 것이 좋을거 같네요. 예제를 보시면 더 이해가 되실 겁니다. 아래와 같이 문장을 최소의미 단어로 쪼개어 N (명사), J (조사), E (어미), P (용언) 등 품사을 붙인 모습입니다. 형태소 분석기는 "한나눔"이라는 분석기를 사용..
안녕하세요. 은행IT운영부 이지성과장입니다. 오늘은 자연어 처리 기법 중 하나인 TF-IDF, 단어-역문서 빈도라고도 하는데요. 바로 이 TF-IDF 에 대해서 알아보도록 하겠습니다. TF-IDF의 약자와 설명은 아래와 같습니다. 1. TF : Term Frequencey , 단어빈도 - 특정 문서에서 나타나는 특정 단어의 총 횟수입니다. 2. IDF : Inverse Document Frequency , 역문서 빈도 - TF와 반대되는 개념으로 특정 단어가 나타나는 문서의 수 입니다. 이렇게 설명만 보면 이해가 잘 안되시죠?? ㅜㅜ 그래서 더 알기 쉽게 설명 들어갑니다. 아래와 같이 4개의 문서가 있다고 가정해 보겠습니다. 문서1: i love a dog. 문서2: i love a cat not a d..
안녕하세요. 은행 IT운영부 이지성과장입니다. 오늘은 토픽모델링에 대해서 알아보려 합니다. 토픽모델링 (topic modeling)이란 대량의 텍스트로 이루어진 어떤 문서에서 주제를 컴퓨터가 스스로 알아내는 것입니다. 토픽모델링을 통해서 대량의 문서가 어떤 주제로 이야기를 하고 있는지 요약할 수 있습니다. 신문기사, 논문, 상품평 등등 텍스트로 이루어진 데이터 입력하면 해당 주제를 출력하는 것입니다. 토픽모델링 기법 중에서 대표적인 기법인 "LDA"에 대해서 조금더 말씀드리면... LDA (잠재 디리클레 할당이라고도 합니다) 는 확률적 생성모형(Generative model)을 가정합니다. 간단히 말씀드리면, 문서에서 많이 등장하는 단어가 그 문서의 주제가 될 가능성이 크다는 것입니다. 위 이미지는 LD..
안녕하세요. 은행 IT운영부 이지성과장입니다. 원래는 "의사결정나무"를 다음 포스팅으로 다루려고 했으나, 조금 가벼운 주제를 먼저 소개해 드리려 합니다. 그 전에 "데이터 시각화"에 대한 이야기를 좀 해보려 합니다. 인간은 매우 시각적인 동물이라고 합니다. 인간은 자연적으로 시각적 입력을 다른 어떤 방법보다도 빠르게 인지 한다고 합니다. 그만큼 우리에게 시각이 중요하다는 의미인데, 보통 사람이 감각기관을 통해 획득하는 정보의 80% 이상이 시각을 통해 얻어진다고 합니다. 이런 근거로 우리에게 왜 데이터 시각화가 효과적이고, 각종 보고서에서 왜 사용되는지 이해가 되실겁니다. 사실 저도 중간관리자로서 말로 장황하게 설명하는 보고서 보다는, 그래프로 한눈에 보이는 보고서를 봤을 때, "아, 이 보고서가 더 명..
KB에서 주최한 금융문자 분석 경진대회에 제출한 소스를 이제야 리뷰합니다. 대회에 대해서 간략히 소개 하자면, 고객에게 발송된 SMS 내용을 텍스트 형태로 주고, 라벨링은 스팸SMS인지 아닌지 0/1로 구성된 데이터를 이용하여, 스팸을 예측할 수 있는 모델을 만드는 대회입니다. 데이터의 형태는 아래과 같이 되어있네요. text spam_yn 안녕하세요. 금융상품 블라블라... 1 고객님, 감기조심하세요. 블라블라... 0 대회의 특징은 모델의 결과물을 0/1 과 같이 binary classification 이 아닌 스팸 확률값 자체를 결과물로 제출해야한다는 점입니다. 저는 많은 기법들 가운데서 "나이브 베이즈" 알고리즘을 사용했습니다. 나이브 베이즈 알고리즘을 이해하기 위해서는 "조건부 확률"을 알아야 ..
- Total
- Today
- Yesterday
- iso12207
- 밀키트
- pytorch
- 머신러닝
- 밀키트요리
- 추천시스템
- hackerrank
- IIS
- 정보관리기술사독학
- 챗봇
- AWS
- 정보관리기술사
- 정보관리기술사합격
- 인조기프
- gpt3.5
- 추천도서
- 로블록스
- r
- 기술사
- wfastcgi
- 콘도챗봇
- 자기계발
- 12207
- s3
- 131회정보관리기술사
- 기술사학원
- 정보관리
- lambda
- FLASK
- ISO 12207
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |