Data Science/머신러닝 5

모델 성능 튜닝

[KT] AIVLE SCHOOL 7일차 하이퍼 파라미터(Hyperparameter)알고리즘을 사용해 모델링할 때 모델 성능을 최적화하기 위해 조절할 수 있는 매개변수KNN 알고리즘의 n_neighbors, Decision Tree 알고리즘의 max_depth 등튜닝하는 방법에 정답은 없음, 지식과 경험 그리고 다양한 시도로 튜닝모델의 성능 향상을 위해 최선의 하이퍼파라미터 값을 찾는 다양한 시도를 해야 함다양한 시도 방법Grid SearchRandom Search사용법함수 불러오기파라미터 값 범위 지정딕셔너리로 값 범위 지정미지정 파라미터 값은 기본값으로 지정리스트 형태 또는 range() 함수 등을 사용해 적절한 step 설정모델 선언기본 모델 선언Random Search 모델 선언n_iter에 수행 ..

머신러닝 알고리즘

[KT] AIVLE SCHOOL 7일차 Linear Regression, KNN, Decision Tree, Random Forest 선형 회귀데이터는 다양한 형태를 가질 것이며 최선의 직선을 긋기 쉽지 않음함수 y= ax + b 에서 최선의 기울기 a와 y 절편 b를 결정하는 방법이 필요이것이 선형 회귀이며, 직선을 회귀선이라고 부름최적의 회귀모델최선의 회귀모델은 실젯값과 예측값의 오차 합이 최소가 되는 모델을 의미결국 오차 합이 최소가 되는 가중치 w1와 편향 w0를 찾는 것을 의미단순 회귀와 다중 회귀독립변수 개수로 회귀분석을 단순 회귀와 다중 회귀로 분류단순 회귀(Simple Regresion)독립변수 하나가 종속변수에 영향을 미치는 선형 회귀x 값 하나만으로 y 값을 설명할 수 있는 경우e.g...

모델 성능 평가(분류)

[KT] AIVLE SCHOOL 7일차 분류 모델 평가분류 모델은 0인지 1인지를 예측하는 것실제 값도 0과 1이고 예측 값도 0과 1하지만 0을 1로 예측하거나 1을 0으로 예측할 수 있음예측 값이 실제 값과 많이 같을 수록 좋은 모델이라 할 수 있음정확히 예측한 비율로 모델 성능을 평가정확도를 높여야 함혼동행렬TN(True Negative, 진음성): 음성으로 잘 예측한 것 (음성을 음성이라고 예측)FP(False Positive, 위양성): 양성으로 잘못 예측한 것 (음성을 양성이라고 예측)FN(False Negative, 위음성): 음성으로 잘못 예측한 것 (양성을 음성이라고 예측)TP(True Positvie, 진양성): 양성으로 잘 예측한 것 (양성을 양성이라고 예측)정확도(Accuracy) ..

모델 성능 평가(회귀)

[KT] AIVLE SCHOOL 7일차 회귀 모델 평가회귀 모델이 정확한 값을 예측하기는 사실상 어려움예측 값과 실제 값에 차이(=오차)가 존재할 것이라 예상함예측 값이 실제 값에 가까울 수록 좋은 모델이라 할 수 있음예측한 값과 실제 값의 차이(=오차)로 모델 성능을 평가오차를 줄여야 함 (작을수록 좋음)MSE(Mean Squared Error)오차 제곱(SSE)의 합을 구한 후 평균을 구함 (자주 사용)RMSE(Root Mean Squared Error)오차의 제곱이므로 루트를 사용해 일반적인 값으로 표현MAE(Mean Absolute Error)오차 절대값의 합을 구한 후 평균을 구함MAPE(Mean Absolute Percentage Error)오차 비율을 표시하고 싶은 경우 사용결정 계수 R² ..

머신러닝 모델링

[KT] AIVLE SCHOOL 7일차 머신러닝인간은 경험을 통해 성장하고, 머신은 데이터를 통해 성장함데이터들을 학습하고 학습한 데이터들을 통해 특정 값을 예측적당량의 좋은 데이터가 중요 분류(Classification)와 회귀(Regression)모델링을 하기 전에 원하는 결과가 분류인지 회귀인지를 명확히 이해해야 함분류인지 회귀인지에 따라 사용할 알고리즘과 평가를 위한 함수가 달라짐분류와 회귀는 서로 다른 함수를 사용해 모델링을 하게 됨따라서 문제 유형을 정확히 파악하여 알고리즘과 평가 방법을 선택하고 관련된 함수를 사용해 모델링분류 문제알고리즘 DecisionTreeClassifierKNeighborsClassifierLogisticRegressionRandomForestCassifierXGBCl..