목록분류 전체보기 (34)
Ethan's Values

T-test란 두 개 이하의 집단에서 수치형 변수의 평균의 일치성을 판단하는 기법입니다. 일표본 t-test 모분산을 아는경우: Z-검정 모분산을 모르는경우: T-검정 으로 나뉘어진다. 통상적으로 모분산을 모르는 경우가 대부분이기 때문에 t-검정을 사용해도 무관하다. t값: 이론적 평균(모집단 평균)과 실제 평균(표본 평균)의 차이가 허용가능한 오차 수준(표준오차)에 비해 몇 배 더 큰지를 나타내는 값. => t값이 커질수록 모집단의 평균과 표본평균의 차이는 크다. 예) 6.3 독립표본 t 검정 - 클레임 고객들과 비클레임 고객간의 방문 횟수 차이 검증 Ho: 방문 횟수 차이 없다. H1: 방문 횟수 차이 있다. 결과 해석을 위해 아래와 같은 수행을 해야한다. 1. 정규성 검증 2. 등분산성 검증 3. ..

https://hykethan.tistory.com/24 파이썬 데이터 주무르기 8장 자연어 처리 시작하기(~4/8절) 1. 한글 자연어 처리 기초 - KoNLPy 및 필요 모듈의 설치 먼저 설치와 주의해야 되는 것들이 있습니다. **먼저 파이썬 버젼을 확인해야 합니다. 2023년 11월 2일 기준으로 3.12버전 까지 나왔습니다. 하 hykethan.tistory.com 8장의 4절에 이어서 진행하겠습니다. 5. Naive Bayes Classifier의 이해 - 영문 유명한 Bayes법치에 기반한 분류기이다. 그 특징은 서로 확률적으로 독립이라는 가정이 있다. 특정 경찰서에 있는 경찰관의 이름이 나열되어 있을때 drew라는 이름의 경찰관은 남자일까/여자일까 P(male | drew) = 1/3 * 3..
요일별 집계를 내는 분석을 수행할 때, 특정 날짜가 무슨 요일인지 알아내야 합니다. datetime 모듈을 사용해서 특정 날짜가 무슨 요일인지 알 수 있습니다. 저는 연도,월,일을 인자로 받아 무슨요일인지 확인할 수 있는 함수를 정의해보았습니다. 아래 코드처럼 2020,9,12을 넣으니까 일요일이 출력됩니다. import datetime def get_Day_of_week(y,m,d): days = ['월요일','화요일','수요일','목요일','금요일''토요일','일요일'] return days[datetime.date(y,m,d).weekday()] print(get_Day_of_week(2020,9,12)) #일요일

1. 한글 자연어 처리 기초 - KoNLPy 및 필요 모듈의 설치 먼저 설치와 주의해야 되는 것들이 있습니다. **먼저 파이썬 버젼을 확인해야 합니다. 2023년 11월 2일 기준으로 3.12버전 까지 나왔습니다. 하지만 되도록이면 2버전 다운된 파이썬을 다운받기를 권장합니다. 자연어 처리 모듈을 설치할 때 JPype가 해당 버전까지 안나왔을 수 있기 때문입니다. 꼭 주의해주세요. 만약에 3.10 이상 버젼을 다운 받았다면 삭제하시고 재설치하시면 됩니다.(저는 그랬습니다,,시들시들,,) VSCODE(Visual Studio Code) 사용하시는 분들을 위한 VSCode 사용하시는 분들은 파이썬 기존꺼 지우지 않고도, 아래 그림에서 오른쪽 python 버전을 클릭하시면 버전을 선택할 수 있게 됩니다. 설치..
내포란? 내포는 간결하고 효율적인 방식으로 리스트, 집합, 딕셔너리를 생성할 수 있는 기능입니다. for문과 조건문 if문을 사용한 코드를 더 간결하게 쓸 수 있습니다. 하지만, 내포 코드가 너무 복잡하거나 어려워지고 가독성이 떨어지면 일반적인 반복문과 조건문을 사용하는 것을 추천합니다. 리스트 내포 [expression for item in iterable if condition] expression: 각 항목에 적용할 표현식 item: 반복자(iterable)에서 가져온 항목 iterable: 반복 가능한 객체 condition: 항목에 대한 조건문 (생략 가능) 예시 even_numbers = [x for x in range(10) if x % 2 == 0] print(even_numbers) # ..

서론 머신러닝 관련 프로젝트나 여러 개발 프로젝트를 진행하면 패키지 간의 의존성 문제 때문에 약간 문제가 발생할 수도 있습니다. 또한 버전업하면서 호환문제가 때문에 프로젝트 진행시, 개발 시 버전이 바뀌면 안됩니다. 따라서 개발 환경을 고정해놔야 합니다. 우리는 아나콘다 가상환경을 통해 이를 해결할 수 있습니다. 가상환경은 말 그대로 가상의 환경을 의미하는데요. 즉 자기만의 가상환경이라는 방을 생성해놓고 그 안에서 패키지 설치하고, 프로젝트하고 개발하고 하는겁니다. 만약 도중 다른 프로젝트가 들어오면 다른 가상환경 1개를 또 만들어 다시 처음부터 패키지 설치하고 하는거죠. 머신러닝 프로젝트를 진행할 때는 python 버전 관리 와 패키지 충돌 방지를 위해 프로젝트 별로 각각의 독립된 가상환경을 만들고 이..

1. Numpy의 polyfit으로 회귀(regression) 분석하기 먼저, 7장에서 사용할 모듈을 정의해줍니다. import warnings warnings.filterwarnings("ignore") import pandas as pd import pandas_datareader.data as web import numpy as np import matplotlib.pyplot as plt %matplotlib inline from prophet import Prophet from datetime import datetime 그래프에서 한글 깨짐 현상을 방지하기 위한 코드를 입력해줍니다. path = "c:/Windows/Fonts/malgun.ttf" import platform from matp..