Random Forest Classfier은 SGDClassfier보다 우수한 성능을 보인다.
1. 알고리즘의 복잡성과 접근 방식의 차이
- Random Forest Classifier은 여러 개의 의사결정 트리를 구성하여 학습하고, 각 트리의 예측을 평균하여 최종 결정을 내림. 각 의사결정 트리는 데이터의 서로 다른 부분 집합에서 독립적으로 작동하여 특성 공간을 종합적으로 탐색하고 데이터의 서로 다른 부분 집합에서 독립적으로 작동하여 특성 공간을 종합적으로 탐색, 데이터 내 복잡 관게를 포착
- SGDClassifier은 확률적 경사하강법을 사용하여 선형 모델을 학습. 선형 모델은 데이터의 선형 결합으로 예측 수행. 데이터의 비성형 관계를 포착하는데 한계가 있음
2. 잡음 및 이상점
- Random Forest Classifier은 앙상블 학습 방법을 사용하여 여러 의사결정 트리를 결합하므로, 잡음이 많거나 이상점이 포한된 데이터에 견고함
- SGDClassifier : 선형 모델은 잡음이 많거나 이상점에 민감. 모델의 성능에 부정적 영향 줄 수 있음.
3. 특성 중요도 및 선택
- Random Forest Classifier은 훈련중에 특성 선택을 자동으로 처리하고 특성 중요도를 평가 가능
- SGDClassifier 은 특성의 중요도를 평가, 선택하는 기능 제한적. 명시적인 특성 스케일링이 필요할 수 있음
'머신러닝' 카테고리의 다른 글
확률적 경사하강법과 더미 분류기 (0) | 2024.04.16 |
---|