줘이리의 인생적기

회귀(regression) 공부! 본문

공부/Deep Learning

회귀(regression) 공부!

줘이리 2022. 1. 5. 23:00
728x90

회귀여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법입니다.

이게 뭔 소린가 싶다. 

 

아파트 가격을 예측하고 싶을 때를 예로 들면

아파트 가격을 종속변수, 아파트 가격을 결정짓는 여러 가지 변수(역세권, 스세권, 실면적 크기, 층, 방 개수 등)를 독립 변수라고 합니다

주어진 독립변수들로 아파트 가격을 정확히 예측하고 싶다면!! 각각의 독립변수들이 아파트 가격에 얼마만큼 영향을 끼치는지 알아야 하겠죠?

각각의 독립변수들이 영향을 끼치는 값을 회귀 계수라고 합니다.

 

회귀의 핵심은 주어진 독립변수와 종속변수 데이터를 학습을 통해 최적의 회귀 계수를 찾아내는 것입니다

하지만 완벽한 예측 모델을 만들 수 있을까요..? 

위의 정의를 다시 말하자면 데이터의 오류가 최소가 되게 만든다는 의미입니다


방금 윗줄에서 '오류'를 언급했는데요

회귀에서는 오류를 측정하여 성능을 파악합니다. 먼저 단순 선형 회귀 오류 측정 기법에 대해서 알아보겠습니다.

 

첫 번째로 RSS(Residual Sum of Square)입니다.

단순하게 모든 학습 데이터에 대한 오류 값을 제곱하여 더하는 방식입니다

식이 조금 복잡할 수 있으나, (실제값 - ( y절편 + 기울기*예측 값))^2들의 합이라고 보면 됩니다

회귀를 다시 한번 정의하자면, 위 RSS를 최소로 하는 회귀계수를 찾는 것이라고 볼 수 있습니다

(핵심 변수는 독립변수, 종속변수가 아니라 당연히 회귀 계수겠죠?)

 

두 번째로, 나중에 더 자세히 공부하게 될 손실 함수(loss function)에 대해서 알려면 RSS에서 파생된 MSE를 알아야 합니다!

MSE(Mean Squared Error)는 RSS를 데이터 건수로 나눈 값입니다

위 식처럼 회귀계수(w)들로 구성되는 MSE를 비용 함수라고 하며, 손실 함수라고도 합니다

회귀 알고리즘은 데이터를 계속 학습하면서 손실 함수가 반환하는 오류 값을 지속적으로 감소시키며 최소의 오류 값을 구하는 것입니다

 

오랜만에 편미분에 대해서 복습도 했습니다..! 쉽지 않네요

다음은 회귀 알고리즘에서 매우 중요하게 쓰이는 경사하강법에 대해서 포스팅해보겠습니다

'공부 > Deep Learning' 카테고리의 다른 글

여러 경사하강법(Gradient descent)  (0) 2022.01.24
경사하강법(gradient descent)를 뿌수자  (0) 2022.01.12
퍼셉트론(perceptron) 공부  (0) 2022.01.03