Data Scientist/ML 2

[ML] Ensemble(앙상블) 기본 다지기

Ensemble, 한국어로 앙상블이라고 읽는 이 Ensemble 모델은 대표적인 분류 모델 중 하나이다. 어원으로는 함께, 동시에, 협력하여 등을 뜻하는 프랑스어. 영어로는 합창단, 무용단, 합주단 등을 의미한다. 많은 수의 작은 악기소리가 조화를 이루어 더욱 더 웅장하고 아름다운 소리를 만들어낸다. 물론 그래서는 안 되겠지만, 한 명의 아주 작은 실수는 다른 소리에 묻히기도 한다. 기계학습에서의 앙상블도 이와 비슷하다. 여러 개의 weak learner들이 모여 투표 (voting)를 통해 더욱 더 강력한 strong learner를 구성하고 많은 모델이 있기 때문에, 한 모델에서 예측을 엇나가게 하더라도, 어느 정도 보정이 된다. 즉, 보다 일반화된 (generalized) 모델이 완성되는 것이다. ..

Data Scientist/ML 2024.02.13

[ML] Decision Tree (결정트리) 기본 다지기

Decision Tree란? - 데이터를 분석하여 이들 사이에 존재하는 패턴을 예측 가능한 규칙(Rules)들의 조합으로 나타냄 - 모양이 '나무'와 같다고 해서 의사 결정 나무 라고 불림 - 질문을 던져서 대상을 좁혀 나가는 '스무고개' 놀이와 비슷한 개념 아래 의사 결정 나무를 시각화 표시한 것으로 간략하게 어떤 기준으로 분류가 되면서 데이터를 분류하는 지 눈으로 한번 익혀보자 Decision Tree의 기본적인 원리 - Linear Regression과 다르게 Model의 Complexity를 극한으로 높일 수 있음(하지만 이로 인해 Overfitting이 일어날 수 있음) - 아래 예제와 같이 만약 Terminal node수가 3개 뿐이라서 새로운 데이터가 100개, 1000개가 주어진다고 해도 ..

Data Scientist/ML 2024.02.05