Data Science/데이터 분석 7

이변량 분석 (4) - 수치형 -> 범주형

[KT] AIVLE SCHOOL 6일차 시각화HistogramSeaborn의 histplot() 함수로 Histogram 생성Histrogram을 범주별로 겹쳐 그리기sns.histplot의 hue 옵션에 범주를 지정sns.hisplot(x='Age', hue='Survived', data=titanic, bins=20)plt.show()Density PlotSeaborn의 kdeplot() 함수로 Density Plot을 생성common_norm 매개변수 값을 False로 지정하면 두 그래프 각각의 면적이 1, 기본값은 Truesns.kdeplot(x='Age', hue='Survived', data=titanic, common_norm=False)plt.show()multiple = 'fill' 옵션..

이변량 분석 (3) - 범주형 -> 범주형

[KT] AIVLE SCHOOL 6일 교차표범주형 -> 범주형 데이터는 교차표(Crosstab)를 이용하여 시각화, 수치화 할 수 있음교차표는 다양한 이름으로 불리고, 다양하게 활용됨분할표(Contingency Table)  /  Confusion MatrixPandas의 교차표 함수를 이용하여 생성 가능crosstab()  /  e.g. pd.crosstab( titanic[ 'Embarked' ], titanic[ 'Surived' ])normalize 옵션 사용 가능normalize = 'columns' : 각 열의 합으로 각 요소를 나눠서 각 열의 상대적인 비율을 보여줌(각 열이 합이 1)normalize = 'index' : 각 행의 합으로 각 요소를 나눠서 각 행의 상대적인 비율을 보여줌(각 ..

이변량 분석 (2) - 범주형 -> 수치형

[KT] AIVLE SCHOOL 6일차 시각화와 수치화 방법으로 범주형 변수와 수치형 변수 간 관계를 분석 시각화Seaborn의 barplot() 함수로 범줏값 간의 평균을 비교해 표시Seaborn의 boxplot() 함수로 범줏값 간의 값 분포를 비교할 수 있음수치화t-검정(두 범주), ANOVA(세 범주 이상) 두 가지 방법으로 수치화해 확인t-검정두 집단의 평균값이 서로 유의하게 다른지 검정하는 통계적인 방법데이터에 결측치가 있으면 계산이 안되니, notnull() 등으로 결측치를 제외한 데이터를 사용해야 함scipy.stats 라이브러리의 ttest_ind() 함수로 t-검정을 수행 / ttest_ind(A, V)t-검정을 사용해 두 집단의 평균 분석t-검정의 가설귀무가설: 두 집단의 평균은 차이..

가설과 가설 검정

[KT] AIVLE SCHOOL 5일차 모집단과 표본모집단(Population): 우리가 알고 싶은 대상 전체 영역(데이터)표본(Sample): 그 대상의 일부 영역(데이터)가설과 가설검정우리는 일부분으로 전체를 추정하고자 함모집단에 대한 가설을 수립가설은 보통 X와 Y의 관계를 표현예1: X에 따라 Y가 차이가 있다.예2: X와 Y는 관계가 있다.표본을 가지고 가설이 진짜 그러한 지 검증(검정)어떤 시험에서 점수를 80점을 받았다면 시험을 잘 본 것일까?어떤 정보를 알면 80점이 높은 지 아닌지 알 수 있을까?점수 분포를 안다면 80점이 얼마나 높은지 낮은지, 흔한 결과인지 드문 결과인지 판단할 수 있음비즈니스 이해단계에서 비즈니스 문제로부터 우리의 관심사(y)를 도출하고,y에 영향을 주는 요인(x)들..

이변량 분석 (1) - 수치형 -> 수치형

[KT] AIVLE SCHOOL 5일차 수치형 -> 수치형두 변수와의 관계를 살펴보기 위해 두 가지 도구(시각화, 수치화)를 사용함이 도구들도 각각 한계가 있어 보이는 게 전부가 아님을 인식하고 있어야 함특히 수치화 도구(가설검정 도구)는 많은 가정들이 전제됨시각화산점도(Scatter Plot)두 변수 간의 상관관계를 시각화하는 가장 기본적인 방법x 축과 y 축에 각각 변수를 놓고 점으로 표시점들이 모여 있는 모양과 방향 등을 통해 변수 간의 관계를 파악할 수 있음두 수치형 변수 관계는 산점도를 사용해 시각화두 수치형 변수의 관계를 비교할 때 중요한 관점이 직선(Linearity)임두 변수 간의 관계가 선형적인지, 또는 어떤 패턴이 있는지 파악하는데 매우 유용예를 들어, x 값이 증가할 때 y 값도 증가..

단변량 분석 (2) - 범주형

[KT] AIVLE SCHOOL 5일차 범주형 변수 분석범주형 변수는 정해진 몇 개의 값이 여럿 모여있는 변수범주형 변수는 범주값 각각이 몇 개씩 포함되어 있는지, 전체에서 각각이 차지하는 비율은 어떤지를 확인해야 함즉 범주형 변수안에 포함된 범줏값 각각의 빈도수와 비율이 분석 대상수치화범주형 변수는 범주별 빈도수와 비율을 기초 통계량을 통해 확인함Pandas의 value_counts() 메소드는 범주형 변수에 포함된 범줏값 각각의 개수를 카운트 해 줌normalize=True 옵션을 지정해 개수가 아닌 비율을 확인할 수 있음범줏값만 확인할 때는 unique() 메서드를 사용시각화범주형 변수는 Bar Plot과 Pie Chart를 사용해 시각화 할 수 있음기초 통계량보다 좀 더 쉽게 데이터를 이해할 수 ..

단변량 분석 (1) - 수치형

[KT] AIVLE SCHOOL 5일차 수치형 변수 분석분석할 수 있는 자료의 종류를 수치형과 범주형으로 나눌 수 있음숫자로 저장된 자료지만 범주형일 수 있음수치형 변수는 크기를 비교할 수 있는 연속적인 숫자를 갖는 변수임수치화이런 수치형 변수는 값의 분포와 평균, 최댓값, 최솟값, 중앙값 등을 확인해 분석함대푯값평균가장 대표적인 대푯값 mean() 메소드로 평균을 구함 e.g. df['열이름'].mean()중앙값(중위수)데이터를 크기 순으로 나열한 상태에서 가운데 위치한 값median() 메소드로 중앙값을 구함e.g. df['열이름'].median()최빈값데이터 중에서 가장 빈번하게 나타나는 값, 즉 빈도가 가장 높은 값같은 빈도의 값이 여럿 존재할 수 있으므로 최빈값은 여러 개 존재할 수 있음mode..