Supervised Learning : Regression and Classification
회귀 모델 : 연속적인 값을 가진 레이블을 수학적 함수로 예측 → 선형으로 나타나게 됨
- 예측값의 오차를 줄이기 위해 Mean Squred Error 이용
ex)
위와 같은 자료에서 total bill amount를 통해 tip amount를 예측하려 한다. 팁은 연속적인 숫자이기 때문에 이는 회귀 모델 문제이다. 위 자료에서는 평균 팁 액수가 총 가격의 18%정도인데 이를 통해 일반화 된 값인 (총 액수 × 0.18)으로 팁을 예측 할 수 있다.
위에서는 1개의 독립변수만을 고려했지만, 여려개의 독립변수가 적용된 다차원 문제에서도 동일한 컨셉을 적용할 수 있다. 다차원 문제에서는 예제의 값에 초평면(hyperplane)의 기울기(gradient)값을 곱해 연속적인 레이블의 일반화 된 값을 구한다.
※Hyperplane : 1차원 이상의 공간에서 모델링 된 평면
분류 모델 : 레이블 값의 범주를 나누기 위해 사용 → 선형적인 경계를 만들지만 값을 예측하기 위한 것이 아니라 레이블을 구분하는 경계선으로 사용
- 예측값의 오차를 줄이기 위해 Cross Entropy 사용
ex)
선형 회귀 모델 : MSE 이용해 예측값과 실제값 사이 손실 최소화
위 자료상으로는 각 클래스 모델의 중간값을 가지게됨
선형 분류 모델 : Cross Entropy를 손실 측정 함수로 이용
각 클래스를 명확히 구분하는 곳에 위치
▷ 각각 다른 손실 측정함수를 이용해 모델을 만들기 때문에 각 모델의 결과가 달라짐
(class B의 자료가 class A의 자료보다 산개해 있기 때문에 Cross Entropy 이용하는 경우 예측 모델이 class A 쪽으로 더 가깝게 나타난다)