토큰화 2

토큰화와 형태소 분석

[KT] AIVLE SCHOOL 12일차 토큰과 토큰화토큰(token)문장의 가장 작은 단위를 토큰(token)이라 함. 문장은 여러 개의 토큰으로 구성토큰의 또 다른 이름들 : 단어(word), 형태소(morpheme), 서브 워드(sub word)별도의 언급이 없다면 용어 의미 차이에 크게 신경 쓰지 않아도 됨토큰화(tokenize)문장을 토큰 시퀀스로 나누는 과정형태소 분석토큰화보다 더 깊은 분석을 수행단어를 구성하는 형태소(어근, 접사, 조사 등)를 식별하고 분류구분토큰화형태소 분석개념문장을 일정한 단위(단어, 형태소 등)로 나누는 것단어를 형태소 단위로 세분화하고 문법적 역할을 분석한국어["나는", "학교에", "간다"]"나는/NP + 는/JX", "학교/NNG" + 에/JKN", "가/VV +..

자연어 처리

[KT] AIVLE SCHOOL 12일차 자연어 처리컴퓨터가 인간의 언어를 이해, 생성, 조작할 수 있도록 해주는 인공 지능(AI)의 한 분야텍스트(비정형 데이터)를 정형화된 데이터로 바꾸는 과정컴퓨터가 인식하는 데이터는 숫자주요 응용 분야기계 번역(Machine Translation, MT) e.g. Google 번역, Papago챗봇 및 음성 비서(Chatbots & Voice Assistants) e.g. ChatGPT, Siri, Google Assistant감성 분석(Sentiment Analysis) e.g. 고객 리뷰 분석, SNS 감정 분석정보 검색 및 추천 시스템(Information Retrieval & Recommendation) e.g. 검색 엔진(Google), 유튜브/넷플릭스 추..