Ethan's Values
파이썬 비즈니스 통계분석 - 상관관계 분석 본문
1. 수치형 상관분석
총 매출액과 방문빈도, 구매 카테고리수 사이의 관계를 분석하고자 한다.
상관계수를 한개씩 살펴볼때는 stats에 pearsonr 함수로 확인할 수 있고, 테이블을 볼 때는 pandas의 corr함수로 확인할 수 있다. 반면 유의한지는 확인할 수 없다.
=>
=>
2. 편상관분석
3개 이상 변수간의 상관관계 분석은 특정 두 변수간의 순수한 상관관계를 나타낸다고 볼 수 없다. 왜냐하면 또 다른 제3의 변수가 두 변수의 연관성 자체에 영향을 줄 수 있기 때문이다. 이렇게 특정 변수의 영향을 제거한 상태에서의 두 변수간의 순수한 상관관계를 파악하기 위해서는 편(부분) 상관관계 분석이라는 기법을 사용해야 한다.
편상관분석은 위와같은 모듈을 불러와 사용한다.
위에서 분석했던 총매출액과 방문빈도간 편상관분석을 진행해보자
=> 피어슨으로 했을때 상관계수가 0.6 -> 구매_카테고리_수를 통제 후 0.58로 감소함, 이렇게 상관성이 낮아져 상관성이 있는것으로 파악되었지만 편상관분석을 하면 상관성이 없을 수도 있기 때문에 구체적인 분석이 필요하다.
3. 순서형 변수 상관분석
방문빈도가 많으면 ~ 1회당 평균매출액이 클까? 상관성이 있을까? 알아보기 위해서는 스피어만 방법을 사용한다.
=> 음의 상관성으로 방문빈도가 높을수록 오히려 1회 평균 구매 수준은 떨어진다고 볼 수 있다.
4. 정준 상관분석
예) 제품 만족도와 매장 만족도의 상관분석
제품 만족도 변수: 품질, 가격, 디자인
매장 만족도 변수: 직원 서비스, 매장 시설, 고객관리
제품 만족도 - 매장 만족도 사이의 상관관계를 파악하고, 둘 사이의 상관성을 가장 잘 표현해주는 요인 변수들의 선형 결합을 찾는 분석방법이다.
먼저 피팅할 변수를 정의한다.
그 후, 피팅(학습시키고 실제 데이터에 적합시키기 위해)해주는데 정준상관계수를 몇개로 할 것인지 결정한다. 여기서는 제품 만족도와 매장 만족도를 각 각 1개의 요인으로 묶어 두 그룹간의 관계를 보기위해서 이기 때문에 1개로 설정한다.
그 다음, tranform 함수를 사용하여 정준변수를 산출하여 그의 값을 U_c1, V_c1에 프레임 형식으로 넣어준다.
그 후, pearsonr 함수로 정준상관계수의 피어슨 상관계수를 확인해본다.
=>
그 후 corrcoef로 정준적재량과 교차적재량을 확인한다.
=>
결과 해석
정준상관분석 결과
-> 제품만족도와 매장만족도는 0.77 p-value는 0.00이하로 유의미하게 강한 양의 상관관계가 있음
정준적재량 결과
-> 제품 만족도에서는 가격과 디자인이 0.77, 0.55로 중요한 역할
-> 매장 만족도에서는 직원 서비스와 고객관리가 0.91, 0.58로 중요한 역할
교차적재량 결과
-> 제품 만족도는 매장 만족도의 직원 서비스와 고객관리가 0.70, 0.58로 두 변수에 의해 제품 만족도가 결정됨
-> 매장 만족도는 제품 만족도의 가격과 디자인이 0.59, 0.42로 두 변수에 의해 매장 만족도가 결정됨
본 내용은 파이썬 비즈니스 통계분석, 김형수 저자 책에서 공부한 내용을 바탕으로 작성한 글입니다.
'Python' 카테고리의 다른 글
32GB 넘는 큰(대)용량 빅데이터 분석 시 메모리 사용 방안(Parquet, 파케이) (0) | 2023.12.21 |
---|---|
파이썬 비즈니스 통계분석 - 분산분석 (4) | 2023.11.29 |
파이썬 비즈니스 통계분석 - T-검정(T-Test) (0) | 2023.11.13 |
파이썬 데이터 주무르기 8장 자연어 처리(5~7/8절) (3) | 2023.11.06 |
Python 특정 날짜의 요일 계산방법 (0) | 2023.11.03 |