[KT] AIVLE School 26

데이터 탐색 이해와 실무 (4) - 다변량 시각화 탐색

다변량 시각화두 개 이상의 변수로 구성된 데이터 관계를 시각화 기반으로 파악하는 데이터 탐색 유형주어진 변수 간의 패턴 및 관계를 다양한 그래프의 시각화를 통해 전체적으로 파악다변량 시각화 종류데이터 조합시각화 방안목적범주형 - 범주형모자이크플롯두 개 범주형 변수 내 범주 별 조합의 빈도 크기를 개략적으로 파악범주형 - 연속형박스플롯평행좌표범주 별 기술통계량 및 경향성을 개략적으로 파악연속형 - 연속형산점도연속형 변수 간 관계성을 개략적으로 파악(선형/비선형 및 음양 방향 등) 모자이크플롯범주형 - 범주형 변수 조합 내 그룹(Subgroup) 크기 비교범주 그룹 간 비중의 차이를 전체적으로 파악 가능 범주 수가 많고, 각 조합별 비중 차이가 크지 않을 경우 전체적 파악이 어려울 수 있음 범주의 재범주화를..

데이터 탐색 이해와 실무 (3) - 다변량 비시각화 탐색

다변량 비시각화두 개 이상의 변수로 구성된 데이터의 관계를 교차표 및 상관계수 등으로 파악하는 데이터 탐색 유형주어진 변수 간의 관계를 수치 및 통계적 지표 기반으로 파악하는 것이 목적다변량 비시각화 종류데이터 조합비시각화 방안목적범주형 - 범주형교차표두 개 범주형 변수의 범주 별 연관성 및 구성 파악범주형 - 연속형범주 별 통계량범주 별 대표 통계량 비교 파악연속형 - 연속형상관계수두 개 연속형 변수의 관계성 정도 파악교차표(Cross tabulation)범주형 - 범주형 변수 조합 간 연관 관계 파악범주 별 연관성을 파악하기 위한 방안으로 이러한 교차표를 활용할 수 있음다양한 범주형 변수들의 조합을 통한 데이터를 탐색해가는 과정으로 새로운 규칙기반의 파생변수를 생성할 수도 있고 어떤 변수를 활용하고 ..

데이터 탐색 이해와 실무 (2) - 일변량 시각화 탐색

일변량 시각화하나의 변수로 구성된 데이터를 전체적인 관점으로 파악할 수 있는 데이터 탐색 유형단일 변수 데이터를 다양한 그래프로 시각화하여 전체적인 관점으로 살펴보는 것이 목적시각화 특징시각화 : 직관적 이해 추구, 정보 전달 시간 단축비시각화 : 효과적인 데이터 요약, 빠른 데이터 성격 파악범주형 시각화파이차트원형 모양의 도형 안에 범주별 빈도를 비율로 환산하여 부채꼴의 넓이로 범주별 비중을 표현한 시각화 차트범주별 구성의 차이를 대략적으로 볼 수 있는 차트로, 전반적인 비율 파악을 용이하게 할 수 있음범주 별 빈도가 유사한 경우 범주 별 크기 비교를 하기 어려울 수 있음범주 수가 많은 경우 시각적 전달 효과가 떨어질 수 있음일부 범주를 묶어서 하나의 범주로 재구성하고 범주 수를 줄여서 다시 시각화하는..

데이터 탐색 이해와 실무 (1) - 일변량 비시각화 탐색

탐색적 데이터 분석EDA(Exploratory Data Analysis)는 데이터를 다양한 측면에서 바라보고 이해하는 과정수집된 데이터를 다양한 측면에서 관찰하고 이해하기 위해 통계적 지표를 활용하거나 그래프를 그려 시각화해서 데이터를 직관적으로 특성을 파악하는 과정통계적 요약, 분포 파악 및 시각화 등의 기법을 통해 직관적으로 데이터 특성 파악데이터를 다양한 방법과 기준에서 살펴보는 EDA 과정을 통해서 사전에 발견하지 못한 현상과 패턴을 발견하고 특성을 파악해서 유의미한 인사이트를 도출하고자 하는 것이 목적EDA 기본 개요데이터가 표현하는 현상을 이해하고 다양한 패턴 발견속성 파악분석 목적 및 개별 변수 속성 파악주어진 목적 분석에 맞는 데이터가 올바르게 준비되어 있는지를 확인하는 것예) 가격 예측 ..

데이터 전처리 이해와 실무 (5) - 데이터 축소 : 특징 선택

Feature Selection가장 좋은 성능을 보여줄 수 있는 데이터의 부분 집합(Subset)을 찾아내는 방법모델 생성에 밀접한 데이터의 부분 집합을 선택하여 연산 효율성 및 모델 성능을 확보목적 및 필요성연산 효율성특징 생성과는 다르게 원 데이터 공간 내 유의미한 특징을 선택하는 기법으로 연산 효율 및 적절한 특징을 찾기 위해 수행원본 데이터에서 가장 유용한 특징만을 선택하여 간단한 모델 구성 및 성능을 확보하고자 하는 것이 주요 목적특징 선택 방안필터(Filter)특징들에 대한 통계적 점수를 부여하여 순위를 매기고 선택하는 방법론실행 속도가 빠르다는 측면에서 시간 및 비용 측면의 장점을 보임래퍼(Wrapper)특징들의 조합을 지도학습 기반 알고리즘에 반복적으로 적용하여 특징을 선택하는 방법론최적의..

데이터 전처리 이해와 실무 (4) - 데이터 변환 : 특징 생성

Feature Creation원본 데이터의 조합/변환 등을 기반하여 새로운 특징들을 구축 및 생성하는 방법특징이란 원 데이터의 변환을 통해 생성되는 표현으로 모델링에 적용하기 위해 만들어진 데이터의 새로운 컬럼, 변수를 의미원본 데이터로 특징을 새롭게 생성하여 분석 과정 내 성능과 효율성을 확보하고자 함Feature Engineering원시 데이터로부터 적절하고 올바른 특징들을 만들어내는 일련의 과정 목적 및 필요성품질 확보가공을 거치치 않은 Raw 데이터 활용 기반의 모델링은 품질 확보 어려움분석결과에 왜곡을 주거나 결과에 영향을 미치는 데이터의 적절한 변환, 처리를 해야하는 것이 대표적인 사례최적화된 형태 변환효과적인 Feature를 확보하는 것이 데이터 분석 내 가장 중요한 과정머신러닝, 딥러닝 등..

데이터 전처리 이해와 실무 (3) - 데이터 변환 : 정규화, 구간화

데이터 변환(Transformation)여러 형태로 표현된 데이터 값을 다양한 분석 방법론에 적용하기 위해 원시 형태에서 다른 형식으로 바꾸는 과정주어진 목적 기반의 올바른 결과 획득을 위하여 원시 데이터를 데이터 분석에 용이하도록 형태 변환변환 목적 및 특징빠른 특성 파악데이터의 특성을 빠르게 파악 가능파생변수 생성 및 단순화를 통한 결과 리포팅 등 활용분석 알고리즘 적용변수 간 범위가 다를 경우 알고리즘 적용 시 영향력의 차이가 발생올바른 학습을 위해 다른 범위를 지닌 변수들의 변환 필요구간화(Binning)연속형 데이터를 구간으로 구별하여 범주화 형태 변환지정 길이 기반 구간 정의사용자 기준으로 데이터 범위의 간격을 구분하여 관측치를 나누는 방안ex) 10대, 20대, 30대분포 기반 구간 정의관측..

데이터 전처리 이해와 실무 (2) - 데이터 정체 : 이상 데이터 처리

이상치(Outlier)관측된 데이터 내 전체적 패턴에서 아주 작게 혹은 아주 크게 벗어난 값데이터 분석 과정 및 결과에서 영향을 미쳐 분석 결과 및 의사 결정의 왜곡을 불러일으킬 수 있음이상치 유형잘못 수집되거나 실제 극단치의 값을 지닌 경우로 발생 가능오류 데이터센서 혹은 시스템 오류로 인해 잘못된 값을 수집예) 과속 단속 카메라에 차량 제원을 넘어선 속도 감지, 보행자 감지 센서가 날씨로 인해 물체를 보행자로 인식실제 데이터극단전 관측치로 인해 일반적 관측 범위를 벗어남예) 노스캐롤라이나 대학 지리학과 졸업생 평균 연봉 25말분, 회사 평균 연봉 정보는 임원 및 일반직원을 통합한 평균 수치실제 현업에서는 잘못된 데이터인지 혹은 실제 의미를 지니고 있는 데이터인지 구분하기가 쉽지않은 경우가 많기 때문에..

데이터 전처리 이해와 실무 (1) - 데이터 정제 : 결측 데이터 처리

결측치(Missing Value)데이터가 수집되지 않거나 누락되어 정보(값)가 존재하지 않음을 의미결측치가 포함된 데이터는 모델 학습이 불가능하므로 사전에 반드시 결측치 처리를 진행대부분의 머신러닝, 딥러닝 알고리즘들은 결측치를 포함한 데이터의 학습이 제대로 되지 않기 때문에 데이터 전처리 과정에서 사전에 반드시 처리해야함ex) null, NA, nan결측치 발생 원인대부분 수집 및 관리 과정에서 결측치 발생미수집 : 미 입력된 데이터를 수집 및 저장시스템 오류 : 오류에 의해 누락되어 수집 및 저장신규 항목 : 새롭게 수집 및 저장하는 항목이 추가됨결측치 처리 방안제거하기가장 쉬운 처리 방안엄청난 데이터 손실 발생대체하기최대한 많은 데이터 활용편향(Bias) 발생 가능결측치가 생기는 원인 파악은 어떤 ..

데이터 조작 이해와 실무 (5) - 시계열 데이터 기초

시계열 데이터순차적인 시간의 흐름으로 기록된 관측치의 집합시계열 데이터는 고정된 시간 구간으로 나타나야 함즉, A구간은 일별, B구간은 월별인 데이터는 존재 불가)시계열의 특징1. 순차적인 시간의 흐름시간이 순차적이지 않을 경우 : 정보가 뒤죽박죽이며 일관되지 못함시간이 순차적인 경우 : 추세를 비롯한 정보 파악 용이2. 고정된 시간 구간의 관측치시간 구간이 일정하지 않은 경우 데이터를 사용하지 못하거나 단편적인 정보만 사용가능시간 구간은 일정해야 함(즉, 월별 데이터는 월별 데이터만 포함, 일별은 일별만, etc)Pandas의 시계열 데이터DatetimeIndex 자료형 사용년, 월, 일 -> 문자열 변환DatetimeIndex로 변환, ex) pd.to_datetimePandas의 Resample일별..