공부/빅데이터분석기사

3_2_1 분석기법 - 이기적 오답 정리

Neulbo 2022. 3. 24. 12:55

1. 지도학습 모델은 분류와 예측모델로 구분된다. 분류모델에 해당되지 않는 것은?

1) 의사결정트리

2) 인공신경망

3) 서포트벡터머신(SVM)

4) 다중회기분석

 

답 : 4 

- 다중회기분석은 회귀(예측)모델로 분류한다.

지도학습 - 분류 의사결정트리(분류), 랜덤포레스트, 인공신경망(지도학습), 서포트벡터머신(SVM), 로지스틱 회귀분석
지도학습 - 회귀(예측) 의사결정트리(회귀) , 선형회귀분석, 다중회귀분석

2. 회귀분석의 기본적인 가정으로 설명이 틀린 것은?

1) 선형성 : 독립변수와 종속변수가 선형적이어야 함

2) 잔차 정규성 : 잔차와 기댓값은 0이며 정규분포를 이루어야 함

3) 잔차 등분산성 : 잔차들의 분산이 1로 일정해야 함

4) 다중공선성 : 3개 이상의 독립변수간의 상관관계로 인한 문제가 없어야 함

 

답 : 3

- 잔차 등분산성 : 잔차들의 분산이 일정해야 하지만 1이 될 필요는 없다.

▶선형회귁분석의 기본적인 가정

선형성 독립변수와 종속변수가 선형적이어야 한다.
잔차 정규성 잔차의 기댓값은 0이며 정규분포를 이루어야 한다.
잔차 독립성 잔차들은 서로 독립적이어야 한다.
잔차 등분산성 잔차들의 분산이 일정해야 한다.
다중 공선성 다중 회귀분석을 수행할 경우 3개 이상의 독립변수 간에 상관관계로 인한 문제가 없어야 한다.

 

3. 로지스틱 회귀분석이 선형회귀분석과 비교 시 차이점

답 : 종속변수 - 범주형변수, 분포 : 이항분포

 

로지스틱 회귀분석 

종속변수와 독립변수와의 관계를 함수를 통해 예측하는 것은 선형회귀분석과 유사하나,

종속변수가 연속형이 아닌 범주형으로 입력데이터가 주어졌을 때 특정 분류로 결과가 나타나는 것이 다른점

 

5. 다중회귀분석 결과를 해석할 시 진행순서가 올바른 것은?

답 : 다중공선성 진단 -> 회귀계수 유의성 확인 -> 수정된 결정계수 확인 -> 모형의 적합도 평가

 

7. 다음 구매 이력에서 오렌지를 구매하면 동시에 키위를 구매할 가능성에 대해 연관을 적용, 신뢰도를 계산한다면?

A : 키위, 오렌지, 포도
B : 포도, 선글라스, 수박, 오렌지
C : 참외, 키위, 오렌지
D : 포도, 딸기, 수박, 바나나

답 :

P(A) = 오렌지만 구매할 확률 = 0.75

P(B) = 키위만 구매활 확률 = 0.5

지지도 = 오렌지, 키위 같이 있을 확률 = 0.5

 

지지도 (P(A,B)) = 동시거래 / 전체거래 = 0.5

신뢰도 = 지지도 / P(A) = 0.5 / 0.75 

 

11.

분류모델의 앙상블은 다수결로 0 또는 1로 분류한다.

 

22. 통계학 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제를 ( ) 문제라고 한다. 괄호에 들어갈 단어는?

 

답 : 다중공선성

- 회귀 분석에서 사용된 모형의 일부 예측 변수가 다른 예측 변수와 상관 정도가 높아 데이터 분석 시 부정적인 영향을 미치는 것은 다중공선성이다.

 

30. 행렬 (4 -5)에 대한 고유값을 구하면?

           (2 -3)

 

답 : (4-λ)(-3-λ) - (-5)(2)

-12 -4λ+3λ+λ^2 +10 = 0

λ^2 - λ -2 = 0

(λ - 2)(λ + 1) = 0

λ = 2, -1