공부/빅데이터분석기사

3_2_2 고급 분석기법 - 이기적 오답

Neulbo 2022. 3. 25. 17:46

1. 자료의 형태에 따른 분석방법

독립변수 종속변수 분석방법
범주형 범주형 빈도분석, 카이제곱검정, 로그선형모형
연속형 범주형 로지스틱 회귀분석
범주형 연속형 T검정(2그룹), 분산분석(2그룹이상)
연속형 연속형 상관분석, 회귀분석

2. 범주형 분석방법에 대한 설명

1) 빈도분석 : 질적 자료를 대상으로 빈도와 비율을 계산할 때 쓰인다.

2) 로지스틱분석 : 분석하고자 하는 대상들이 두 집단 또는 그 이상의 집단으로 나누어진 경우 개별 관측치들이 어느 집단으로 분류될 수 있는지를 분석할 때 사용한다.

3) 카이제곱검정 : 두 범주형 변수가 서로 상관이 있는지 독립인지 판단하는 통계적 검정방법이다.

4) T 검정 : 독립변수가 범주형(두개의 집단)이고 종속변수가 연속형인경우 사용되는 검정 방법으로 두 집단간의 평균 비교 등에 사용된다.

5) 독립변수가 범주형(두개이상 집단)이고 종속변수가 연속형인 경우 사용되는 검정방법으로 분산분석이 사용된다.

 

6. 다음은 어떤 성질에 대한 설명인가?

시계열이 시차값 사이에 선형관계를 보이는 성질이며 
이런 성질이 없는 시계열은 백색 소음이라한다.

답 :  자기 상관성

- 자기상관성은 시계열이 시차값 사이에 선형관계를 보이는 성질이며 이런 성질이 없는 시계열은 백색잡음이라고 한다.

 

7. 정상성

1. 정상성을 가진다는 의미는 시계열 데이터가 평균과 분산이 일정한 경우를 지칭한다.

2. 시계열 데이터가 정상성을 가지면 분석이 용이한 형태로 볼 수 있다.

3. 시계열 데이터가 평균이 일정하지 않으면 차분(difference)을 통해 정상성을 가지도록 할 수 있다.

4. 시계열 데이터가 분산이 일정하지 않으면 변환(Transformation)을 통해 가지도록 할 수 있다.

 

8.

자기회귀모형(AR) : 일정 시점전의 자료가 현재자료에 영향을 준다는 가정하에 만들어진 시계열 예측 모형이다.

자귀회귀누적이동평균모형(ARIMA) : 비정상성을 가지는 시계열 데이터 분석에 많이 사용된다.

자귀회귀이동평균모형(ARMA) : 이동평균모형과 결합된 형태로 나타내어진다. AR(p)모형 과 MA(q) 모형의 결합형태

분해법 : 시계열이 체계적 성분과 불규칙적 성분으로 이루어져 있다는 가정 하에 체계적 성분을 시계열로부터 분리하여 분석/예측을 목적으로 하는 기법이다.

 

9. 나이브 베이즈 분류

- 나이브 베이즈 분류기는 공통적으로 모든 특성 값은 서로 독립임을 가정한다.

- 분류기를 만들 수 있는 간단한 기술로 단일 알고리즘을 통한 훈련이 아닌 일반적인 원칙에 근거한 여러 알고리즘들을 이용하여 훈련된다.

- 나이브 베이즈 분류의 장점으로 분류에 필요한 파라미터를 추정하기 위한 트레이닝 데이터의 양이 매우 적다.

- 나이브 베이즈 분류는 베이즈 정리를 적용한 확률 분류기를 지칭한다.

 

베이즈 기법

  • 회귀분석모델 적용 : 추정치와 실제의 차이를 최소화하는 것이 목표
  • 나이브 베이즈 분류 : 분류에 필요한 파라미터를 추정하기 위한 학습 데이터의 양이 매우 적음, 간단한 디자인, 지도학습 환경에서 효율적

▶ 이벤트 모델의 종류

이벤트 모델 적용사항
가우시안
나이브 베이즈
연속적인 값을 지닌 데이터를 처리할 때, 각 클래스의 연속적인 값 벡터 X = (x1,x2 ··· xn)들이 가우시안 분포를 따른다고 가정
다항분포
나이브 베이즈
특성 벡터 X = (x1,x2 ··· xn)들이 다항분포에 의해 생성된 이벤트의 경우 사용
베르누이
나이브 베이즈
특성벡터 X = (x1,x2 ··· xn)들이 독립적인 이진 변수로 표현될 경우 사용 

 

15.

텍스트 마이닝 : 

1) 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터에 숨겨진 의미를 발견하는 기법.

2) 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리방식을 이용하여 데이터를 처리하는 전처리가 필요하다.

오피니언 마이닝 :

- 사람들의 주관적인 의견을 통계/수치화하여 객관적인 정보로 바꾸는 기술이다. 어떤 사안이나 인물에 대한 사람들의 의견 뿐만 아니라 감정과 태도도 분석하기 때문에 감정분석이라고도 불린다.

 

리얼리티 마이닝:

- 통화/메시징 등의 커뮤니케이션 데이터, GPS/wifi 등의 위치 데이터 등을 통해 사회적 행위를 마이닝하고 사용자 행동 모델링이나 라이프 로그를 얻어내는 것을 목표로 한다.

 

16. 앙상블기법

1) 약학습기는 무작위 선정이 아닌 성공확률이 높은 즉 오차율이 일정 이하(50% 이하)인 학습규칙을 말한다.

2) 강학습기(강분류기)는 약학습기로부터 만들어내는 강력한 학습 규칙을 말한다.

3) 앙상블 기법은 서로 다른 학습 알고리즘을 경쟁시켜 각 알고리즘 간의 장점을 결합하여 학습하는 개념이다.

4) 한 개의 단일학습기에 의한 분석보다는 더 나은 분석성능을 이끌어 낼 수 있다.

 

▶ 앙상블 분석의 종류 보팅

보팅(voting)
: 서로다른 알고리즘 모델을 조합해서 사용 , 결과물에 대해 투표로 결정
부스팅(boosting)
: 가중치를 활용해 연속적인 약학습기를 생성하고 이를 통해 강학습기를 만듦 , 순차적인 학습을 하며 가중치를 부여해서 오차를 보완 , 병렬처리 어려움
배깅(bagging)
: 같은 알고리즘 내에서 다른 표본 데이터 조합을 사용 샘플을 여러 번 뽑아 각 모델을 학습시켜 결과물을 집계

-> 랜덤 포레스트

 

19. 비모수 통계

1) 가정을 만족시키지 못한 상태에서 그대로 모수 통계분석을 함으로써 발생할 수 있는 오류를 줄일 수 있다.

2) 질척척도로 측정된 자료도 분석이 가능하다.

3) 비교적 신속하고 쉽계 통계량을 구할 수 있으며 결과에 대한 해석 및 이해 또한 용이하다.

4) 많은 표본을 추출하기 어려운 경우에 사용하기 적합하다

'공부 > 빅데이터분석기사' 카테고리의 다른 글

4_1_2 분석모형 개선  (0) 2022.03.28
4_1_1 분석모형 평가 ★★★  (0) 2022.03.28
3_2_2 고급 분석기법★★  (0) 2022.03.25
3_2_1 분석기법 - 이기적 오답 정리  (0) 2022.03.24
3_2_1 분석기법 ★★★  (0) 2022.03.23