목록전체 글 (9)
My blog
01 K-평균 알고리즘 이해 K평균 알고리즘 : 데이터들을 k개의 군집으로 나누는 군집화 알고리즘으로 각 군집은 중심점을 기준으로 구성군집 수 k 지정, 임의로 중심점 초기화각 데이터 → 가장 가까운 중심점에 할당 (Hard assignment)각 군집 중심점 → 소속 데이터 평균 위치로 이동소속 변경 없을 때까지 반복단순하고 빠름중심점 기준 → 원형 군집에 최적타원형이나 겹치는 군집에는 잘 안됨- 단점 : 거리 기반 알고리즘으로 속성의 개수가 많으면 군집화 정확도가 떨어짐 (pca로 차원축소 적용해야함): 반복많으면 수행시간 느림 kmeans = KMeans(n_clusters=3,init='k-means++',max_iter=300,random_state=0)kmeans.fit(irisDF) ..
01 분류의 개요 1) 개념지도학습의 대표적인 유형으로, 명시적인 정답(Label)이 있는 데이터를 학습하여 미지의 데이터에 대한 레이블을 예측데이터의 피처(Feature)와 레이블(Label) 사이의 패턴을 인지하고 모델을 생성2) 주요 알고리즘나이브 베이즈: 베이즈 통계 기반로지스틱 회귀: 독립변수와 종속변수의 선형 관계 기반결정 트리: 데이터 균일도에 따른 규칙 기반SVM: 클래스 간 최대 마진 탐색최소 근접(KNN): 근접 거리 기준신경망: 심층 연결 기반앙상블 : 여러 알고리즘의 결합 (정형 데이터 예측 성능 최강)02 결정 트리1) 개념 및 작동 원리데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 Tree 기반의 분류 규칙을 만드는 알고리즘 (if/else 방식의 스무고개 느낌)- 핵심 지..
00 머신러닝의 평가란 머신러닝 프로세스는 [데이터 가공 → 학습 → 예측 → 평가]로 이어진다. 이때 성능 평가 지표는 모델이 얼마나 잘 작동하는지 보여준다- 회귀 모델: 실제 값과 예측값의 오차(Error) 크기로 평가- 분류 모델: 예측된 클래스가 실제와 얼마나 일치하는가로 평가하지만, 정확도 하나로만 평가하면 좋지 않다 01 정확도 - 정확도는 전체 데이터 중 맞힌 개수.- 불균형한 데이터 세트에서는 이 수치가 모델의 성능을 왜곡 ex ) (타이타닉): 별도의 학습 없이 남자는 사망, 여자는 생존이라고만 찍어도 정확도가 높음 02 오차행렬 - 정확도의 한계를 극복하기 위해, 모델이 어떤 유형의 오류를 하는지 4분면 행렬로 - confusion_matrix(y_test,fakepred )..
01 회귀소개 - 여러개의 독립변수와 한 개의 종속 변수 간의 상관관계 모델링하는 기법 ex ) y = w1x1+w2x2 - 지도학습 , 연속형 숫자값 예측 (vs 분류 : 이산값 )- 독립변수 : 피처 , 입력데이터 / 종속변수 : target , 결과 / 회귀 계수 : 가중치 선형 회귀 모델: 실제 값과 예측값의 차이(오류의 제곱 값)를 최소화하는 직선형 회귀선을 최적화하는 방식+ 규제 ) 과적합 문제를 해결하기 위해서 회귀 계수에 패널치를 부과일반 선형 회귀규제 X , RSS(실제,예측 차이) 최소화할 수있게 회귀 계수 최적화 릿지 (L2)회귀 계수의 제곱합을 패널티 - 과적합 완화 : 상대적으로 큰 회귀 계수 값 영향 작게하려고 회귀 계수값 작게만듦 라쏘 (l1)회귀 계수의 절대값합 패널티 ..
일반적으로 차원이 증가할 수록 데이터 포인터 간의 거리가 멀어져 희소한 구조를 가지게 된다.수백 개 이상의 피처로 구성된 데이터 세트는 상대적으로 예측 신뢰도가 떨어진다 다차원의 피처를 차원 축소해 더 직관적으로 데이터를 해석할 수 있다 차원축소 :고차원 데이터의 차원을 줄여 작은 차원의 데이터로 변환하는 기법으로 단순히 피처의 개수를 줄이는 것이 아니라 데이터를 더 잘 설명할 수 있는 잠재 요소를 추출하는 데 목적이 있다.- 피처선택 : 불필요한 피처 제거 - 피처추출 : 기존 피처를 저차원의 중요 피처로 압축, 데이터 잘 설명하는 잠재요소 추출 ex) PCA , SVD ,NMF 1. PCA (주성분 , 새로운 축 분석) 1) 개념 및 특징 - 비지도 학습 기법- 데이터의 분산이 가장 큰..
2장에서는 사이킷런 model_selection 모듈 : 학습 데이터테스트 데이터 분리 , 교차검증 , 하이퍼 파라미터 튜닝 등등을 학습합니다.data꽃받침/잎의 수치들 상품 알맹이.feature_names 컬럼 이름들 이름표.targe t0, 1, 2 (품종 번호) 분류 태그지도학습 다양한 피처와 분류 결정값이 레이블 데이터로 모델을 학습한 뒤 , 별도의 데이터 세트에서 미지의 레이블 예측 즉 , 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식 학습/테스트 데이터 세트 분리 - train_test_split() train_test_split (피처 데이터 세트 , 레이블 데이터 세트 , test_size , 등 ) : 학습 / 테스트 데이터 세트 분리dt_clf.f..
In [17]:import matplotlib.pyplot as plt# x축 y축 직선그래프plt.figure(figsize=(2,2) , facecolor='yellow')plt.plot([1,2,3],[2,4,6]) # pyplot 모듈의 plot() 사용plt.title("Hello plot")# pyplot의 두가지 중요 요소 : Figure , Axes # pyplot에서 Figure와 Axes 객체를 가져올 때 : plt.subplots() 이용 fig ,ax = plt.subplots(figsize=(2,2))ax.plot([1,2,3],[2,4,6]) # Axes 객체로 plot ax.set_title('Hellot plot')plt.show() Figure : 크기 조절 , 플롯을 화..
1장에서는 Numpy와 Pandas에 대해 배웁니다! 처음이라 정리가 조금 서툴지만, 앞으로 더 열심히 정리해 보겠습니다~~ 🙂↕️ 머신러닝을 익히기 위한 패키지 1.머신러닝 패키지 : 사이킷런 , 텐서플로 등등 2.행렬/선대/통계 : 넘파이 3.데이터 핸들링 : 판다스 - 2차원 데이터 처리 특화4.시각화 : 맷플롯립 , 시본 등등 1. 넘파이 - 루프 사용 X 대량 데이터의 배열 연산을 가능하게해 빠른 배열 연산 속도 - ndarry : 다차원 배열 쉽게 생성하고 다양한 연산 import numpy as np#1. array() : ndarry로 변환하는 기능 array1 = np.array([1,2,3])array2= np.array([[1,2,3]])print('array ..