728x90 반응형 분류 전체보기301 선형회귀분석_통계파트 회귀분석의 가설 검정검정 통계량-F검정 : 회귀 모형의 통계적 유의성을 검정 = 기울기가 존재하느냐-T검정 : 개별 독립변수가 종속변수에 유의한 영향을 미치는지 검정 = 각각의 종속변수x들이 독립변수 y에 어떤 영향을 미치는지 선형회귀분석의 4가지 가정1.선형성(종속변수Y는 독립변수X에 대하여 선형적인 관계를 갖음)- 산점도로 선형성 확인- 상관계수 확인- 회귀계수 베타에 대한 검정(F검정)2.정규성 (오차가 정규성을 갖는다)- 오차는 모두 평균이 0이고 분산이 σ² 인 정규분포다- 정규성은 회귀식의 오차에 대해서만 요구되는 성질이며 아주 엄격하게 요구되지 않은다.- 정규성 가정을 검토하기 위해서, 산점도/Histogram/Q-Q plot 또는 잔차에 대한 왜도(얼마나 찌그러져 있는지) 및 첨도(얼마나.. 2025. 1. 17. 선형 회귀분석 선형 회귀분석의 목적 : 예측도 하지만 설명도 할 수 있다설명 - 종속변수에 대한 설명변수(독립변수 X)의 영향을 측정,예측한다.예측 - 설명변수(독립변수 X)정보가 있을 때 이에 따른 종속변수(Y 값)를 예측한다. 단순 선형 회귀분석: 아버지의 키를 바탕으로 아들의 키를 예측아버지의 키와 아들의 키 사이의 관계를 가장 간략하게 설명할 하나의 선을 찾는다면?아들의 키 = 아버지의 키x기울기 + 절편따라서 T(target)-M(model) = E(error)실제로는 딱 하나의 값이 아니기 때문에 오차가 있다. 이 오차를 줄여서 머신러닝 성능을 높인다. 여기서, Y가 T, ( β- βx) 가 M)SS(오차 제곱의 합)을 편미분한 값을 0으로 두어, 최소제곱 추정량을 도출한다.구해진 방정식을 정규방정식이라 하.. 2025. 1. 14. 상관분석 상관분석: 연속형 두 변수 간의 직선형 관계정도를 검정하는 통계 분석 방법(선형성이 있는가?) 산점도: 두 개의 숫자형 데이터를 직교 좌표계에 표시하여 두 변수 간의 관계를 나타내는 방법하지만, 인과관계는 알 수 없다. 상관계수(Correlation Coefficient):선형성이 얼마나 강한가를 나타내는 측도, 1-에서 1사이의 범위절대값이 1에 가까울수록 강한 상관관계를 의미(0이면 두개의 변수 사이에 선형적인 관계가 존재하지 않는다) 피어슨 상관계수(Pearson correlation): 두 변수간 선형관계의 방향과 강도가 어느 정도인지 측정루트 안의 값은 오차 제곱의 합을 곱한 것이다.분자의 값은 공분산.★ 대입시험 점수와 대학 졸업 학점 간의 상관관계(연속형 데이터 간의 상관관계) 스피어만 상관.. 2025. 1. 13. 추정 추정 (Estimation): 표본을 통하여 모집단의 특성이 어떠한 가에 대해 추측하는 과정통계적 추론은 모집단에 대한 미지의 것을 알아내려고 통계학을 이용하여 추측하는 과정으로, 추정과 가설검정으로 나눌 수 있음추정량 - 표본정보에 의존하는 확률변수로서 모수를 추정하는데 사용되는 표본 통계량추정치 - 추정량을 평가하여 얻게 되는 특정한 수치 점추정-모집단의 특성을 단일한 값으로 추정하는 방법(고정된 값)-모르는 모수를 가장 잘 대표할 수 있는 표본을 추출하고 필요한 계산을 하여 얻는 하나의 수치-적률 방법과 최대우도 추정 방법이 있으며 두 방법 모두 표본평균이 모평균의 점추정량이 됨-표본이 모집단의 특성을 잘 표현하지 못할 경우에는 통계량과 모수 간의 오차가 클 수 있음 구간추정-모수의 참값이 표함되리.. 2025. 1. 12. 주요확률분포 확률 변수 : 표본공간의 원소를 특정숫자인 실수로 대응한 값확률 분포 : 확률변수와 그 값이 나올 수 있는 학률을 대응시켜 표시하는 것 이산확률분포- 동전 3개를 던졌을 때 앞면이 나온 수의 확률 분포x ;확률변수0123p(X=x) ;확률분포1/83/83/81/8 확률질량함수- 이산형 확률변수에 대응되는 확률 분포- f(x)=P(X=x), f(x)>=0- 누적 분포 함수 F(x)는 0기대값(평균) E(X)=μ1. E(a)=a2. E(a+bX)=a+bE(X) 3. E(X+Y)=E(X)+E(Y) : 두 확률변수의 합의 기댓값은 각 확률변수의 기댓값의 합과 같음4. E(aX+bY)=aE(X)+bE(Y)5. E(X2)≠{E(X)}2 분산(편차 제곱의 평균) : 확률분포의 흩어진 정도를 측정1.Var(a) = 0.. 2025. 1. 11. 확률 & 베이즈 정리 표본공간 : 확률실험으로부터 출현 가능한 모든 결과물의 모임(동전던지기의 경우, {앞면,뒷면})사건 : 표본공간의 각 원소들의 부분집합(첫 번째 동전이 앞면이 나오는 사건, {HH,HT}) 배반사건 : 두 사건이 겹치는 부분이 없는 집합, 즉 교집합이 공집합 확률의 덧셈 법칙일반적인 경우에는 여기서 배반 사건인 경우, 조건부 확률 - A가 발생한 상황 하에서 B가 발생할 확률확률의 곱셈 법칙독립인 경우, 베이즈 정리전확률공식 2025. 1. 9. 시각화 도수 : 자료의 빈도수상대도수 : 도수/전체도수 데이터의 시각화: 자료를 분석해 한 눈에 볼 수 있도록 도표나 차트 등으로 정리하는 것 일변량 차트(Univariate Charts)1. 범주형2. 수치형 히스토그램 - 데이터의 중심을 알 수 있음. 그룹을 알 수 있음. 이상치의 유무를 알 수 있음1개의 Box plot - Min부터 Q1, Q1부터 Q2, Q2부터 Q3, Q3 부터 Max 각 갯수는 같은데 분포가 다름. 대칭 비대칭 알 수 있음.다변량 차트(Bivariate Charts)1. 범주형 & 수치형 - Box plot/Bar chart2. 수치형 & 수치형 - Scatter plot - X,Y 관계가 있는 것 알 수 있음 하지만 X,Y 의 의과관계는 알 수 없음 위치 통계량(중심 경향성)1... 2025. 1. 9. 이전 1 2 3 4 5 ··· 43 다음 728x90 반응형