단순선형회귀
반응변수 Y와 하나의 예측변수 X 사이의 관계 연구
종속변수 독립변수
두 변수 사이의 선형관계에 대한 방향과 강도 측정과 유사하다.
[공분산-상관계수]
Y와 X의 연관관계 direction & strength 측정
covariance은 실제 y값과 예측 y값의 편차들과 실제 x값과 예측 x값의 편차들의 곱을 모두 더한 후 n-1을 나누어 구한다
공분산이 0보다 크면 x와 y 사이에 양의 관계가 있음을 의미한다
공분산은 측정 단위에 따라 크게 변화하기 때문에 관계성의 강도에 대한 정보는 없다
[공분산-상관계수]
Y와 X의 연관관계 direction & strength 측정
데이터를 standardization하여 공분산의 단점을 없앤 것이 상관계수 correlation coefficient이다.
-1 ~ 1 사이의 범위를 갖는다.
척도에 불변하여 측정 단위가 변경되어도 변하지 않는다.
절댓값 1에 가까울 수록 x와 y의 선형관계는 강하다, 하지만 0이라고 해서 x와 y 사이에 관계가 없다는 것은 또 아니다.
선형적인 관계가 아니라는 것 뿐이기 때문이다. 비선형적으로 관련이 되어 있을 수 있다.
따라서 상관계수도 중요하긴 하지만 그래프로 직접 살펴볼 필요가 있다 - 비선형적 관계가 보인다면 선형회귀의 적용은 적합하지 않다.
단순 선형 회귀 모형
위 식은 단순선형회귀모형의 모집단 정보이다.
beta는 회귀 계수 or 모수라고 불리는 constant이다.
위 선형 방정식이 x와 y 사이의 참 관계에 대한 만족스러운 approximation을 제공한다고 가정하자.
즉, y는 근사적으로 x의 선형 함수이며 error는 근사의 차이를 측정한 것이다.
beta 1 : scope, x가 한 단위 변할 때 y의 변화량
beta 0 : constant or intercept, x=0일 때 y의 기댓값
잠깐) 상관분석과 회귀분석의 차이점
상관계수는 cor(x,y)==cor(y,x)이다. 따라서 변수 x와 y가 동등하게 중요하다.
회귀분석에서는 반응변수 y가 일차적으로 중요하다. 예측 변수 x의 중요성은 y의 변화에 대한 설명을 얼마나 잘하는 가에 달려있다.
모수 추정
데이터에 근거하여 모수 beta 1,0를 추정한다.
여기서 추정한다란?
반응변수 즉, 종속변수와 예측변수 즉, 독립변수의 산점도에 분포한 점들을 가장 잘 표현하는 직선을 찾게된다.
최소제곱법을 이용해 모수를 추정한다 (최적 직선과 분포한 각 점의 수직 거리 제곱합을 최소로 하는 직선의 방정식)
오차
회귀계수들은 현재 우리에게 주어진 데이터셋에 가장 잘 맞는 직선을 그리기 위한 값이다.
이는 관측한 데이터에 따라 달라지기 때문에 회귀계수들은 확률변수로 간주할 수 있다.
이때 beta hat들의 분산은 각각 데이터에 따른 표본분포로부터 계산된다.
standard error인 추정된 회귀계수의 정밀도를 나타내는 지표를 통해 추정의 정밀도를 알 수 있다.
s.e가 작을수록 정밀도가 높음을 의미함
표준편차 : 각 데이터 샘플들이 평균으로부터 얼마나 떨어져있는가를 측정한 값으로 주어진 데이터셋의 변동성을 나타내며 각 데이터 샘플 간의 차이를 반영한다
-> 데이터의 분포가 좁고 샘플들이 평균에 가깝다면 표준편차는 적다
표준오차 : 추정된 통계량의 변동성으로 표본에서 계산된 통계량이 모수에서 얼마나 벗어날 가능성이 있는지를 측정한 값
-> 표준오차는 표준편차를 샘플 수로 나눈 값으로 데이터 표준편차가 클수록 & 샘플 수가 작을수록 증가한다
- 주어진 데이터에 있는 각 관측 개체들에 대해 적합값 계산
- i번째 적합값은 추정된 모형, 즉 최소제곱회귀선에서 xi에 대응되는 점
- 최소제곱법으로 구한 모든 잔차의 합은 0 -> 이게 최소제곱법의 목표이기 때문
beta 1 hat과 cov(x,y), cor(x,y)의 부호는 모두 같다
양의 기울기 = 양의 상관 / 음의 기울기 = 음의 상관
가설 검정
선형성을 가정하고 진행됨 : "x와 y는 선형적 관계이다"
가설검정 방법) 1. 산점도 검토 2. 회귀모수 beta 1에 대한 가설검정 수행
귀무가설 : beta1=0 'x와 y 사이에 선형적 관계가 없다' => 귀무가설 기각 시 x는 y를 설명하는데 유의미한 변수이다
오차항은 서로 독립적이며 같은 분포를 따른다 - 독립적 동일 분포 가정 //동일 분포 가정
오차들이 정규분포를 따른다 - 오차들의 정규분포 가정 //통계적 검정의 가정 충족
표준오차 - 추정된 계수에 대한 불확실성으로 적을수록 추정량의 정밀도가 높다
귀무가설과 대립가설에 대해 t-분포 검정 통계량을 통해 검정된다
t 통계량을 구한 후 임계값과 비교하여 판단
판단 방법 1) critical region : H0가 기각되는 영역으로 t1 >=기각역이라면 귀무가설을 기각한다.
판단 방법 2) p-value를 사용해 판단 : p-value <= 유의수준(0.05)이라면 귀무가설을 기각한다.
x와 y 사이에는 상관관계가 있다
절편은 0이다
R^2 : 본 모델이 데이터 변동의 98%를 설명할 수 있음을 의미 -> 회귀모델이 매우 잘 적합된 모델임을 알 수 있음
신뢰구간
회귀모수의 신뢰구간 : confodence interval
추정된 회귀계수에 대한 불확실성을 나타냄 - beta hat0,1이 참값을 포함할 범위를 나타낸다
ex) 95% 신뢰구간 : 동일 크기의 표본을 반복적으로 취할 경우, 이 신뢰구간이 참이 된 계수가 95%
default 가정 : error는 정규분포를 따른다
-> 회귀계수의 표본 분포 역시 정규 분포를 따른다
동일한 크기의 표본을 반복적으로 취하여 얻은 beta1에 대한