본문 바로가기
728x90
반응형

Data Science4

주요확률분포 확률 변수 : 표본공간의 원소를 특정숫자인 실수로 대응한 값확률 분포 : 확률변수와 그 값이 나올 수 있는 학률을 대응시켜 표시하는 것 이산확률분포- 동전 3개를 던졌을 때 앞면이 나온 수의 확률 분포x ;확률변수0123p(X=x) ;확률분포1/83/83/81/8 확률질량함수- 이산형 확률변수에 대응되는 확률 분포- f(x)=P(X=x), f(x)>=0- 누적 분포 함수 F(x)는 0기대값(평균) E(X)=μ1. E(a)=a2. E(a+bX)=a+bE(X) 3. E(X+Y)=E(X)+E(Y) : 두 확률변수의 합의 기댓값은 각 확률변수의 기댓값의 합과 같음4. E(aX+bY)=aE(X)+bE(Y)5. E(X2)≠{E(X)}2 분산(편차 제곱의 평균) : 확률분포의 흩어진 정도를 측정1.Var(a) = 0.. 2025. 1. 11.
확률 & 베이즈 정리 표본공간 : 확률실험으로부터 출현 가능한 모든 결과물의 모임(동전던지기의 경우, {앞면,뒷면})사건 : 표본공간의 각 원소들의 부분집합(첫 번째 동전이 앞면이 나오는 사건, {HH,HT}) 배반사건 : 두 사건이 겹치는 부분이 없는 집합, 즉 교집합이 공집합 확률의 덧셈 법칙일반적인 경우에는 여기서 배반 사건인 경우, 조건부 확률 - A가 발생한 상황 하에서 B가 발생할 확률확률의 곱셈 법칙독립인 경우, 베이즈 정리전확률공식 2025. 1. 9.
시각화 도수 : 자료의 빈도수상대도수 : 도수/전체도수 데이터의 시각화: 자료를 분석해 한 눈에 볼 수 있도록 도표나 차트 등으로 정리하는 것 일변량 차트(Univariate Charts)1. 범주형2. 수치형 히스토그램 - 데이터의 중심을 알 수 있음. 그룹을 알 수 있음. 이상치의 유무를 알 수 있음1개의 Box plot - Min부터 Q1, Q1부터 Q2, Q2부터 Q3, Q3 부터 Max 각 갯수는 같은데 분포가 다름. 대칭 비대칭 알 수 있음.다변량 차트(Bivariate Charts)1. 범주형 & 수치형  - Box plot/Bar chart2. 수치형 & 수치형 - Scatter plot - X,Y 관계가 있는 것 알 수 있음 하지만 X,Y 의 의과관계는 알 수 없음 위치 통계량(중심 경향성)1... 2025. 1. 9.
기본 용어 모집단과 표본모집단 -> 표본 추출 -> 표본표본 -> 통계량 (표본을 분석하여 얻어지는 결과 수치)통계량 ----추론 ------> 모수(모집단을 분석하여 얻어지는 결과 수치) 변수범주형 (Categorical data)명목형(Nominal data) :단순히 범주를 표시(성별,혈액형)순서형(Ordinal data) : 수치형 자료를 그룹화(비만도,학점, 선호도)수치형 (Numerical data)등간형 (Interval) : 비교할 수 있도록 단위가 정해진 경우 (온도, 점수) / 자연수 0이 의미 있다비율형 (Ratio) : 0이 없음을 의미하는 경우,사칙연산 가능(신장,체중,매출액,시청률) /자연수 0의 의미가 없다 2025. 1. 9.
728x90
반응형