데이터 청년 캠퍼스/분류(결정트리, 앙상블)4 [분류] 신용카드 사기 거래 검출 실습 신용카드 사기 거래 검출 실습1 1. 데이터 불러오기 from google.colab import drive drive.mount("/content/drive") creditcard = pd.read_csv('/content/drive/My Drive/Colab Notebooks/결정트리, 분류/data/신용카드사기검출/creditcard.csv') 2. 데이터 확인하기 creditcard.head() creditcard.info() creditcard.Class.value_counts() # 0: 정상거래 1: 비정상거래 신용카드 사기 거래를 검출하기 위해서는 TP / FN / FP / TN 중 비정상 사기 거래인데 정상이라고 판단하는 FN가 중요하다. 따라서 재현율을 계산하는 것이 중요하다. 3. R.. 2022. 7. 13. [분류] 앙상블 기법 - Boosting(Adaboost) GBM (Gradient Boosting Machine) 오류는 예측값과 실제값의 차이를 의미하며, 부스팅 기법은 각각 오분류 데이터를 다음 모델에 어떻게 반영할 것인가의 차이를 가지고 있다. GBM 기법은 이전 모델의 오류(잔차, Residual)을 예측하는 새로운 모델을 생성한다. 과적합을 방지하기 위해 예측 과정에서 잔차에 학습률 Learning Rate을 곱한다. 좋은 예측을 위해 작은 스텝을 진행하며, 정해진 iteration 횟수에 도달하거나 더 이상 residual이 작아지지 않을 때까지 반복한다. Predicted Value = Initial Tree Value + (Learning Rate * 1st Residual Predict Tree) + (Learning Rate * 2nd Res.. 2022. 7. 13. [분류] 앙상블 기법 - Voting, Bagging, Boosting(Adaboost) 앙상블 Ensembles Learning 여러 개의 기본 모델 Base Model (Weak Learner, Base Learner, Classifier, Singler Learner, ...)을 활용하고 그 예측을 결합해 보다 정확한 최종 예측을 도출하는 기법. 형태에 따라 Voting, Bagging, Boosting으로 나뉜다. 예측력이 뛰어나나 학습 시간이 오래 걸린다는 단점이 있다. 예측력이 높은 분류기를 사용하는 경우 모델 간의 유사성이 높아 모델의 개수를 늘리는게 의미가 없어진다. 따라서 예측력이 낮은 약한 분류기 Weak Learner를 서로 다르게 생성되도록 하는게 핵심이다. 즉, 서로 다른 관점에서 다양하게 학습해야한다. 다양한 학습을 위해 기본적으로 overfitting이 잘 되는 D.. 2022. 7. 12. [분류] 타이타닉 데이터를 이용한 기본 결정트리 만들기, 하이퍼 파라미터 찾기, 시각화하기 결정트리 의사결정 규칙 Decision Tree를 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측 수행하는 계량적 분석 방법. 질문(조건)의 답변에 따라 데이터를 분류한다. 분할된 데이터의 불순도를 얼마나 많이 제거했는가로 속성과 속성값을 결정한다. 즉, 부모마디의 순수도에 비해 자식마디들의 순수도가 증가하도록 자식마디를 형성한다 목표변수의 분포를 가장 잘 구별해주는(특징이 명확히 구분되는) 조건을 측정하기 위해 Gini, Entropy 등과 같은 index를 이용해 불순도 Impurity를 측정한다. 이때 불순도는 얼마나 다양한 범주의 개체들이 포함되어 있는가를 의미하며, 순수도는 특정 범주의 개체를이 포함되어 있는 정도를 의미한다. 데이터가 혼재되어 있는 경우 불순도가 증가하며,.. 2022. 7. 11. 이전 1 다음