Data Science/자연어 처리 5

RNN LM

[KT] AIVLE SCHOOL 13일차 RNN LM순환 신경망(RNN)을 활용하여 언어 모델(Language Model)을 구축하는 방법RNN을 활용한 언어 모델의 개념기존의 N-gram 모델이나 통계 기반 언어 모델은 문맥 정보를 한정된 개수의 단어(e.g. 3-gram, 5-gram)까지만 고려하는 한계시퀀스 데이터를 다룰 수 있는 구조(RNN) : 문맥(Context)을 길게 유지하며 언어 모델링 수행입력된 단어들의 연속적인 흐름을 따라 현재까지의 문맥을 기억하여 다음 단어의 확률을 동적으로 계산RNN LM 모델링 순서전체 프로세스준비된 데이터셋데이터 전처리토크나이즈Vocab 생성정수 인덱스 반환패딩모델링임베딩모델링학습을 위한 데이터 전처리 순서토크나이즈데이터 셋의 텍스트 문장을 단어 또는 서브 ..

RNN(순환 신경망)과 LSTM

[KT] AIVLE SCHOOL 13일차 Sequential Data : (시간) 순서가 있는 데이터RNN(Recurrent Neural Networks)RNN의 핵심은 '기억' : 이전까지의 정보를 순환(Loop) 하면서 계속 유지RNN은 일반적인 신경망과 달리 출력을 다시 입력으로 넣어주는 구조한 문장이 들어오는 과정예를 들어 "나는 밥을 많이 먹었다" 라는 문장을 RNN에 넣는다고 가정"나는" --> 첫 번째 RNN 셀로 입력RNN은 "나는"을 처리하고 출력(hidden state)을 생성이 출력을 다음 단어 "밥을"과 함께 다음 RNN 셀로 전달다시 "밥을"을 처리하고 새로운 출력(hidden state) 생성이런 식으로 마지막 단어까지 반복핵심 개념Hidden State (숨겨진 상태)현재까지의..

임베딩 벡터

[KT] AIVLE SCHOOL 12일차 "비슷한 맥락(context)에서 사용되는 단어들은 비슷한 의미(meaning)를 가진다." - zellig Harris 언어학자, 기호학자 (젤리그 해리스, 1954)- 벡터(Vector)정의좁은 정의 : 크기와 방향을 가진 값(물리 량) 넓은 정의 : 벡터 공간(Vector space)에서 정의된 원소(element)데이터 관점에서 벡터여러 개의 숫자(feature)가 모여서 하나의 개념을 표현하는 단위e.g. 어떤 회원의 키가 175cm, 몸무게가 70kg, 나이느 25세회원의 특징을 나타내는 feature들의 단위(벡터) : [175, 70, 25]특징 공간(Feature Space)이렇게 feature를 표현한 공간을 특징 공간이라고 부름특징 공간은 벡터..

토큰화와 형태소 분석

[KT] AIVLE SCHOOL 12일차 토큰과 토큰화토큰(token)문장의 가장 작은 단위를 토큰(token)이라 함. 문장은 여러 개의 토큰으로 구성토큰의 또 다른 이름들 : 단어(word), 형태소(morpheme), 서브 워드(sub word)별도의 언급이 없다면 용어 의미 차이에 크게 신경 쓰지 않아도 됨토큰화(tokenize)문장을 토큰 시퀀스로 나누는 과정형태소 분석토큰화보다 더 깊은 분석을 수행단어를 구성하는 형태소(어근, 접사, 조사 등)를 식별하고 분류구분토큰화형태소 분석개념문장을 일정한 단위(단어, 형태소 등)로 나누는 것단어를 형태소 단위로 세분화하고 문법적 역할을 분석한국어["나는", "학교에", "간다"]"나는/NP + 는/JX", "학교/NNG" + 에/JKN", "가/VV +..

자연어 처리

[KT] AIVLE SCHOOL 12일차 자연어 처리컴퓨터가 인간의 언어를 이해, 생성, 조작할 수 있도록 해주는 인공 지능(AI)의 한 분야텍스트(비정형 데이터)를 정형화된 데이터로 바꾸는 과정컴퓨터가 인식하는 데이터는 숫자주요 응용 분야기계 번역(Machine Translation, MT) e.g. Google 번역, Papago챗봇 및 음성 비서(Chatbots & Voice Assistants) e.g. ChatGPT, Siri, Google Assistant감성 분석(Sentiment Analysis) e.g. 고객 리뷰 분석, SNS 감정 분석정보 검색 및 추천 시스템(Information Retrieval & Recommendation) e.g. 검색 엔진(Google), 유튜브/넷플릭스 추..