다변량 비시각화
- 두 개 이상의 변수로 구성된 데이터의 관계를 교차표 및 상관계수 등으로 파악하는 데이터 탐색 유형
- 주어진 변수 간의 관계를 수치 및 통계적 지표 기반으로 파악하는 것이 목적
다변량 비시각화 종류
데이터 조합 | 비시각화 방안 | 목적 |
범주형 - 범주형 | 교차표 | 두 개 범주형 변수의 범주 별 연관성 및 구성 파악 |
범주형 - 연속형 | 범주 별 통계량 | 범주 별 대표 통계량 비교 파악 |
연속형 - 연속형 | 상관계수 | 두 개 연속형 변수의 관계성 정도 파악 |
교차표(Cross tabulation)
- 범주형 - 범주형 변수 조합 간 연관 관계 파악
- 범주 별 연관성을 파악하기 위한 방안으로 이러한 교차표를 활용할 수 있음
- 다양한 범주형 변수들의 조합을 통한 데이터를 탐색해가는 과정으로 새로운 규칙기반의 파생변수를 생성할 수도 있고 어떤 변수를 활용하고 변수를 어떻게 구성할지 등에 대해서 고민할 수 있음
범주 별 요약 통계량
- 범주형 - 연속형 변수 조합 간 범주 별 대표 수치 비교
- 데이터별, 범주별 특정 대표값을 찾아내고 범주별 차이를 찾아내기 위해 많이 활용되는 방안
- 각 범주별 기술통계량을 기반으로 범주별의 특징을 통계 지표로써 확인하고 파악
- 이러한 방법은 데이터를 요약설명하기 위한 자료나 보고서에서도 많이 활용
상관계수(Corr. coefficient)
- 연속형 - 연속형 변수 조합 간 관계성 강도 파악
- 연속형 변수들 간에 어떤 관계를 갖고있는지를 분석하는 방법으로 두 변수가 서로 독립적인 관계이거나 상관된 관계일 수도 있으며, 이러한 관계를 상관관계라고 함
- 상관계수는 두 변수간에 연관된 정도를 나타낼 뿐, 원인과 결과(인과관계)를 설명하는 것은 아님
- 상관계수값은 -1 부터 1사이에 위치하며, 절대값이 1에 가까울 수록 강한 상관관계를 가짐
- -1 : 음의 강한 상관관계 / 1 : 양의 강한 상관관계 / 0 : 상관관계 없음
- 높은 상관계수
- 비슷한 정보를 제공하는 밀접한 관계의 변수
- 회귀분석에서 독립변수 간에 강한 상관관계 발생 -> 다중공선성 발생
- 다중공선성을 해결하기 위해서 상관계수가 기준치보다 높게 나오는 컬럼들 중에서 하나를 고르고 나머지는 삭제하는 방안으로 변수 선택
- 분석의 목표를 고려해서 논리적으로 더 적합한 변수를 선택하거나 종속변수와 상관관계가 더 밀접한 변수 선택
- 도메인 지식을 기반으로 변수를 삭제
- 상관성이 높게 나오는 변수들을 합쳐서 PCA와 같은 주성분분석으로 새로운 특징을 생성
- 정규화를 통한 변수의 간격을 조정
- 독립변수 간의 관계는 독립적이라는 회귀분석 가정에 위배
- 회귀 계수가 불안정하여 종속변수에 미치는 영향력을 올바르게 설명치 못하므로 모델의 안정성 저해
- 데이터 탐색 중 상관분석 결과를 통해 모델링 사전 단계 내 고려 필요
- 연속형 변수의 탐색을 통해 모델링 이전 과정에서 다양한 인사이트를 확보하고 모형의 안정성과 성능의 확보를 위해 다양한 시각과 고민을 더한 데이터 탐색 과정이 필요
'[KT] AIVLE School > 사전학습' 카테고리의 다른 글
데이터 분석 이해와 실무 (1) - 가설의 의의와 검정 (0) | 2025.03.18 |
---|---|
데이터 탐색 이해와 실무 (4) - 다변량 시각화 탐색 (0) | 2025.03.17 |
데이터 탐색 이해와 실무 (2) - 일변량 시각화 탐색 (0) | 2025.03.17 |
데이터 탐색 이해와 실무 (1) - 일변량 비시각화 탐색 (1) | 2025.03.17 |
데이터 전처리 이해와 실무 (5) - 데이터 축소 : 특징 선택 (0) | 2025.03.16 |