결합
: 테이블 구조를 가진 데이터 간에 공통 요소 기준으로 둘 혹은 그 이상의 데이터 테이블을 합하여 하나의 데이터로 만드는 것
축소
- Filtering : 필요한 데이터만 추출하는 것
- Sampling : 데이터의 양이 너무 많아 분석의 어려움이 있거나 시간 관점에서 현실적이지 않을 때 분석에 적정하게 조절
- 차원 축소 : 차원의 저주(데이터의 차원이 늘어날수록 공간의 크기가 증가하고 데이터의 밀도는 희박해지기 때문에 데이터의 수가 기하급수적으로 증가하게 됨)
표본추출(Sampling)
: 표본의 요건 (모집단을 대표해야 함)
- 표본의 크기가 클수록, 모집단에서 골고루 추출될수록 표본의 대표성은 커짐
- 무작위로 추출하는 것은 바로 이런 편향성을 배제하기 위함
표본 오차(Sampling error)
- 모집단을 모두 조사하지 않고 일부의 표본만 조사하기 때문에 발생되는 오차
- 표본 크기가 커질수록 오차는 작아지며, 전수조사 시 0이 됨
방법
- 단순임의추출(Simple Random Sampling) : 무작위로 추출
- 층화추출(Stratified Random Sampling) : 데이터 내에서 지정한 그룹별로 지정한 비율만큼의 데이터를 임의로 선택, 모집단의 각 층의 비율만큼 추출
- 계통추출(Systematic Sampling) : 주기성을 띄며 일정한 간격으로 추출, 매우 어긋난 표본이 될 수 있다
- 집락추출, 군집추출(Cluster Sampling) : 군집간 동질성, 군집내 이질성인 경우 사용
소집단 자체를 표본대상으로 함
장점 : 군집을 잘 규정하면 비용이 절감, 군집의 특성을 평가하고 모집단의 특성 과 비교할 수 있음
단점 : 단순임의추출보다 군집을 과대 또는 과소 평가해서 표본오차를 계산하기 가 어려울 수 있음
'Data Science' 카테고리의 다른 글
머신러닝 (0) | 2025.01.18 |
---|---|
데이터 전처리3 (0) | 2025.01.18 |
데이터 전처리1 (0) | 2025.01.18 |
선형회귀분석_통계파트 (0) | 2025.01.17 |
선형 회귀분석 (0) | 2025.01.14 |