목록Data Scientist/ML (9)
삶의 공유
🤖 인공지능이 '실수'를 통해 배우는 법: 역전파 알고리즘인공지능이 개와 고양이를 구분하고, 복잡한 언어를 이해하는 과정을 보면 마치 살아있는 생명체처럼 느껴지기도 합니다. 하지만 그 내부를 들여다보면 정교한 수학적 오답 노트가 작동하고 있습니다. 그 핵심이 바로 오늘 소개할 역전파(Backpropagation) 알고리즘입니다.1. 역전파 알고리즘이란 무엇인가?역전파는 한마디로 **"출력층에서 발생한 오차를 거꾸로(Back) 전파하여, 각 층의 가중치를 얼마나 수정해야 할지 결정하는 알고리즘"**입니다.신경망이 예측값(y^)을 내놓았을 때 실제 정답(y)과 차이가 난다면, 그 '책임'이 어느 가중치W)에 있는지 계산하여 모델을 수정하는 일종의 피드백 시스템이라고 이해하면 쉽습니다.2. 왜 역전파를 해야..
안녕하세요! 머신러닝 및 딥러닝 분야를 연구하고 글을 쓰는 블로거입니다.오늘은 머신러닝 라이브러리(TensorFlow, PyTorch 등)의 도움 없이, 오직 Python과 NumPy만을 사용하여 딥러닝의 가장 기본이 되는 '다층 인공 신경망(Multilayer Perceptron, MLP)'을 밑바닥부터 구현해보려 합니다."바퀴를 다시 발명하지 마라"라는 말이 있지만, 바퀴가 어떻게 굴러가는지 이해하려면 직접 만들어보는 것만큼 확실한 방법은 없습니다. 이 글을 통해 블랙박스처럼 느껴졌던 신경망의 내부 작동 원리, 특히 역전파(Backpropagation) 알고리즘을 완벽하게 이해해보시길 바랍니다.1. 다층 신경망(MLP)의 이해우리가 만들 모델을 이해하기 위해 먼저 가장 단순한 형태인 '단일층 신경망'..
오늘은 머신러닝의 비지도 학습(Unsupervised Learning) 분야 중 가장 매력적인 주제인 **군집 분석(Cluster Analysis)**에 대해 다뤄보겠습니다. 정답(레이블)이 없는 데이터 안에서 숨겨진 구조를 찾아내고, 비슷한 데이터끼리 그룹을 묶는 과정은 마치 미지의 땅에서 보물 지도를 그리는 것과 같습니다.머신러닝 교과서 11장의 핵심 내용을 바탕으로, K-평균부터 계층적 군집, 그리고 DBSCAN까지 코드를 한 줄 한 줄 뜯어보며 완벽하게 이해해 봅시다.1. K-평균(K-Means) 알고리즘: 가장 대중적인 그룹 찾기군집 분석은 데이터들 사이의 '유사도'를 기반으로 자연스러운 그룹을 찾는 기법입니다. 마케팅에서 고객을 그룹화하거나, 뉴스 기사를 주제별로 묶을 때 자주 사용되죠. 그중..
현실 세계의 데이터는 언제나 깔끔한 직선으로 표현되지 않습니다. 주택 가격, 주식 시장, 혹은 생물학적 성장 곡선 등 많은 데이터가 곡선 형태의 비선형(Non-linear) 패턴을 띱니다. 이럴 때 단순한 선형 회귀 모델을 고집한다면, 우리는 데이터가 가진 중요한 정보를 놓치게 될 것입니다.오늘은 선형 가정이 어긋날 때 대처할 수 있는 강력한 무기인 **다항 회귀(Polynomial Regression)**와 **랜덤 포레스트(Random Forest)**에 대해 깊이 있게 알아보겠습니다.1. 다항식 항을 추가하고 다항 회귀 모델 훈련하기선형 회귀가 데이터를 직선으로만 바라본다면, 다항 회귀는 데이터에 제곱($x^2$), 세제곱($x^3$) 항을 추가하여 모델이 곡선을 학습할 수 있도록 유연성을 부여하는..
0. 들어가며이 글에서는 **“연속적인 타깃 값을 예측하는 회귀 분석”**을머신러닝교과서의 예제를 기반으로 정리해 봅니다.이론: 단순 선형 회귀, 다중 선형 회귀실습: 주택 데이터셋으로EDA(탐색적 데이터 분석)경사 하강법으로 직접 회귀 모델 만들기사이킷런 LinearRegression이상치에 강한 RANSACRegressor각 코드가 왜 그런 식으로 작성되었는지,수식·개념·코드의 연결을 중심으로 설명합니다.1. 회귀 분석 이론 정리1-1. 단순 선형 회귀란?하나의 특성(설명 변수)과 연속적인 타깃(응답 변수) 사이의 직선 관계를 모델링하는 것.예를 들어,xxx: 방 개수(RM)yyy: 주택 가격(MEDV)의 관계를 다음과 같은 직선으로 근사합니다. w1: 기울기 (slope)w0: 절편 (inte..
✨ 이번 글에서 다루는 것로지스틱 회귀(Logistic Regression) 로 감성 분류기 학습GridSearchCV + 파이프라인으로 최적 하이퍼파라미터 탐색**멀티프로세싱(n_jobs)**로 그리드 서치 속도 올리기온라인 학습(External/Out-of-Core): HashingVectorizer + SGDClassifier.partial_fit각 코드 조각이 왜 그렇게 동작하는지 한 줄씩 짚는 실전 중심 해설1) 데이터 분할: 훈련/테스트 세트 준비 X_train = df.loc[:25000, 'review'].valuesy_train = df.loc[:25000, 'sentiment'].valuesX_test = df.loc[25000:, 'review'].valuesy_test = df...