본문 바로가기
Data Science

데이터 전처리2

by Doromi 2025. 1. 18.
728x90
반응형

결합

: 테이블 구조를 가진 데이터 간에 공통 요소 기준으로 둘 혹은 그 이상의 데이터 테이블을 합하여 하나의 데이터로 만드는 것

축소

  1.  Filtering : 필요한 데이터만 추출하는 것
  2. Sampling : 데이터의 양이 너무 많아 분석의 어려움이 있거나 시간 관점에서 현실적이지 않을 때 분석에 적정하게 조절
  3. 차원 축소 : 차원의 저주(데이터의 차원이 늘어날수록 공간의 크기가 증가하고 데이터의 밀도는 희박해지기 때문에 데이터의 수가 기하급수적으로 증가하게 됨)

 

표본추출(Sampling)


: 표본의 요건 (모집단을 대표해야 함)
- 표본의 크기가 클수록, 모집단에서 골고루 추출될수록 표본의 대표성은 커짐
- 무작위로 추출하는 것은 바로 이런 편향성을 배제하기 위함

표본 오차(Sampling error)
- 모집단을 모두 조사하지 않고 일부의 표본만 조사하기 때문에 발생되는 오차 
- 표본 크기가 커질수록 오차는 작아지며, 전수조사 시 0이 됨

방법
- 단순임의추출(Simple Random Sampling) : 무작위로 추출
- 층화추출(Stratified Random Sampling) : 데이터 내에서 지정한 그룹별로 지정한 비율만큼의 데이터를 임의로 선택, 모집단의 각 층의 비율만큼 추출
- 계통추출(Systematic Sampling) : 주기성을 띄며 일정한 간격으로 추출, 매우 어긋난 표본이 될 수 있다
- 집락추출, 군집추출(Cluster Sampling) : 군집간 동질성, 군집내 이질성인 경우 사용
                                                                  소집단 자체를 표본대상으로 함
                                                                  장점 : 군집을 잘 규정하면 비용이 절감, 군집의 특성을 평가하고 모집단의 특성                                                                              과 비교할 수 있음
                                                                  단점 : 단순임의추출보다 군집을 과대 또는 과소 평가해서 표본오차를 계산하기                                                                              가 어려울 수 있음

728x90
반응형

'Data Science' 카테고리의 다른 글

머신러닝  (0) 2025.01.18
데이터 전처리3  (0) 2025.01.18
데이터 전처리1  (0) 2025.01.18
선형회귀분석_통계파트  (0) 2025.01.17
선형 회귀분석  (0) 2025.01.14