본문 바로가기
728x90
반응형

전체 글301

선형 회귀분석 선형 회귀분석의 목적 : 예측도 하지만 설명도 할 수 있다설명 - 종속변수에 대한 설명변수(독립변수 X)의 영향을 측정,예측한다.예측 - 설명변수(독립변수 X)정보가 있을 때 이에 따른 종속변수(Y 값)를 예측한다. 단순 선형 회귀분석: 아버지의 키를 바탕으로 아들의 키를 예측아버지의 키와 아들의 키 사이의 관계를 가장 간략하게 설명할 하나의 선을 찾는다면?아들의 키 = 아버지의 키x기울기 + 절편따라서 T(target)-M(model) = E(error)실제로는 딱 하나의 값이 아니기 때문에 오차가 있다. 이 오차를 줄여서 머신러닝 성능을 높인다. 여기서, Y가 T, ( β- βx) 가 M)SS(오차 제곱의 합)을 편미분한 값을 0으로 두어, 최소제곱 추정량을 도출한다.구해진 방정식을 정규방정식이라 하.. 2025. 1. 14.
상관분석 상관분석: 연속형 두 변수 간의 직선형 관계정도를 검정하는 통계 분석 방법(선형성이 있는가?) 산점도: 두 개의 숫자형 데이터를 직교 좌표계에 표시하여 두 변수 간의 관계를 나타내는 방법하지만, 인과관계는 알 수 없다. 상관계수(Correlation Coefficient):선형성이 얼마나 강한가를 나타내는 측도, 1-에서 1사이의 범위절대값이 1에 가까울수록 강한 상관관계를 의미(0이면 두개의 변수 사이에 선형적인 관계가 존재하지 않는다) 피어슨 상관계수(Pearson correlation): 두 변수간 선형관계의 방향과 강도가 어느 정도인지 측정루트 안의 값은 오차 제곱의 합을 곱한 것이다.분자의 값은 공분산.★ 대입시험 점수와 대학 졸업 학점 간의 상관관계(연속형 데이터 간의 상관관계) 스피어만 상관.. 2025. 1. 13.
추정 추정 (Estimation): 표본을 통하여 모집단의 특성이 어떠한 가에 대해 추측하는 과정통계적 추론은 모집단에 대한 미지의 것을 알아내려고 통계학을 이용하여 추측하는 과정으로, 추정과 가설검정으로 나눌 수 있음추정량 - 표본정보에 의존하는 확률변수로서 모수를 추정하는데 사용되는 표본 통계량추정치 - 추정량을 평가하여 얻게 되는 특정한 수치 점추정-모집단의 특성을 단일한 값으로 추정하는 방법(고정된 값)-모르는 모수를 가장 잘 대표할 수 있는 표본을 추출하고 필요한 계산을 하여 얻는 하나의 수치-적률 방법과 최대우도 추정 방법이 있으며 두 방법 모두 표본평균이 모평균의 점추정량이 됨-표본이 모집단의 특성을 잘 표현하지 못할 경우에는 통계량과 모수 간의 오차가 클 수 있음 구간추정-모수의 참값이 표함되리.. 2025. 1. 12.
주요확률분포 확률 변수 : 표본공간의 원소를 특정숫자인 실수로 대응한 값확률 분포 : 확률변수와 그 값이 나올 수 있는 학률을 대응시켜 표시하는 것 이산확률분포- 동전 3개를 던졌을 때 앞면이 나온 수의 확률 분포x ;확률변수0123p(X=x) ;확률분포1/83/83/81/8 확률질량함수- 이산형 확률변수에 대응되는 확률 분포- f(x)=P(X=x), f(x)>=0- 누적 분포 함수 F(x)는 0기대값(평균) E(X)=μ1. E(a)=a2. E(a+bX)=a+bE(X) 3. E(X+Y)=E(X)+E(Y) : 두 확률변수의 합의 기댓값은 각 확률변수의 기댓값의 합과 같음4. E(aX+bY)=aE(X)+bE(Y)5. E(X2)≠{E(X)}2 분산(편차 제곱의 평균) : 확률분포의 흩어진 정도를 측정1.Var(a) = 0.. 2025. 1. 11.
확률 & 베이즈 정리 표본공간 : 확률실험으로부터 출현 가능한 모든 결과물의 모임(동전던지기의 경우, {앞면,뒷면})사건 : 표본공간의 각 원소들의 부분집합(첫 번째 동전이 앞면이 나오는 사건, {HH,HT}) 배반사건 : 두 사건이 겹치는 부분이 없는 집합, 즉 교집합이 공집합 확률의 덧셈 법칙일반적인 경우에는 여기서 배반 사건인 경우, 조건부 확률 - A가 발생한 상황 하에서 B가 발생할 확률확률의 곱셈 법칙독립인 경우, 베이즈 정리전확률공식 2025. 1. 9.
시각화 도수 : 자료의 빈도수상대도수 : 도수/전체도수 데이터의 시각화: 자료를 분석해 한 눈에 볼 수 있도록 도표나 차트 등으로 정리하는 것 일변량 차트(Univariate Charts)1. 범주형2. 수치형 히스토그램 - 데이터의 중심을 알 수 있음. 그룹을 알 수 있음. 이상치의 유무를 알 수 있음1개의 Box plot - Min부터 Q1, Q1부터 Q2, Q2부터 Q3, Q3 부터 Max 각 갯수는 같은데 분포가 다름. 대칭 비대칭 알 수 있음.다변량 차트(Bivariate Charts)1. 범주형 & 수치형  - Box plot/Bar chart2. 수치형 & 수치형 - Scatter plot - X,Y 관계가 있는 것 알 수 있음 하지만 X,Y 의 의과관계는 알 수 없음 위치 통계량(중심 경향성)1... 2025. 1. 9.
기본 용어 모집단과 표본모집단 -> 표본 추출 -> 표본표본 -> 통계량 (표본을 분석하여 얻어지는 결과 수치)통계량 ----추론 ------> 모수(모집단을 분석하여 얻어지는 결과 수치) 변수범주형 (Categorical data)명목형(Nominal data) :단순히 범주를 표시(성별,혈액형)순서형(Ordinal data) : 수치형 자료를 그룹화(비만도,학점, 선호도)수치형 (Numerical data)등간형 (Interval) : 비교할 수 있도록 단위가 정해진 경우 (온도, 점수) / 자연수 0이 의미 있다비율형 (Ratio) : 0이 없음을 의미하는 경우,사칙연산 가능(신장,체중,매출액,시청률) /자연수 0의 의미가 없다 2025. 1. 9.
OSI model (7 layer) Network란?컴퓨터나 기타 기기들이 리소스를 공유하거나 데이터를 주고 받기 위해 유선 혹은 무선으로 연결된 통신 체계Network의 기능어플리케이션 목적에 맞는 통신 방법 제공신뢰할 수 있는 데이터 전송 방법 제공네트워크 간의 최적의 통신 경로 결정목적지로 데이터 전송노드 사이의 데이터 전송이 많은 기능들을 수행하기엔 하나의 protocol만으로 가능한가?? 불가능Network Protocol이란?네트워크 통신을 하기 위해서 통신에 참여하는 주체들이 따라야 하는 형식, 절차, 규약따라서 이를 모듈화 해야하는데..각 기능들이 각 계층별로 나누어진 기능들 인 것같은 느낌이 듬 -> 계층 구조(layered architecture)-> OSI model(7 layer) :범용적인 네트워크 구조-> TCP/.. 2024. 10. 22.
728x90
반응형