[Daily Contents] 머신 러닝 알고리즘


머신 러닝 알고리즘

  • Unsupervised Learning
    • Clustering
    • Dimensionality Reduction
  • Supervised Learning
    • Classification
    • Regression
  • Reinforcement Learning

  • 딥러닝 : 인공 신경망, 합성곱 신경망, 적대적 신경망, 순환 신경망
  • 강화학습 : Q-러닝, 유전 알고리즘, SARSA

  • 지도학습
    • 회귀 : 선형 회귀, 다항 회귀, 라쏘 회귀
    • 분류 : 의사 결정 트리, 로지스틱 회귀, k-최근접 이웃, 서포트 벡터 머신, 나이브 베이즈
  • 비지도학습
    • 군집화 : k-평균, 평균 이동, 밀도 기반 공간 군집, 응집
    • 자원 축소 : t-분포 확률적 이웃 임베딩, 주성분 분석

선형 회귀

정의: 종속 변수 y와 한 개 이상의 독립 변수 x와의 선형 상관 관계를 모델링하는 분석 기법

회귀 문제 분류

  • 종속변수와 독립변수 수에 따라 분류
  • 독립변수, 종속변수 1개 » 단변량 단순 회귀
  • 독립변수 2개 이상 » 다중 회귀
  • 종속변수 2개 이상 » 다변량

선형 회귀로 풀 수 있는 문제들

- 메신저에 등록된 친구의 수와 한 주 동안 주고받은 메세지의 수
- 마일리지에 따른 중고차 가격
- 학습시간과 시험점수
- 도심에서부터의 거리에 따른 토지 가격
- 마케팅 비용과 매출 사이의 관계
- 직선형이 아닌 경우
  >> 다항 회귀(Polynomial Regression): 지수(x^n) 적용 가능
  >> 직선형으로 만들어보기: 데이터 변환(transformation)

싱나는 수학 시간

  • 간단하게 표현한 회귀 모델: $Y = wX + b$
    • 좀 더 정확한 표현(단변량 단순 회귀): $Yi=β0+β1Xi+∈i$(오류항)
    • 일반화(다중 회귀): $Y+Xβ+∈$
  • 어떻게 최적의 $(w,b)$를 찾을까?
    • 최량적합선 찾기
    • 각 데이터 포인트와의 거리(오류)가 가장 가까운 직선의 방정식

수학으로 찾기

  • 오차 정의: SSE(Sum of Squared Errors) : $\sum(Y-\hat{Y})^2$
    • $\hat{Y}$: 적합선의 Y의 값
  • 공식
    • $w=$${\sum((X-\overline{X})(Y-\overline{Y})}\over\sum(X-\overline{X})^2$
      • $\overline{X}$: X 평균
      • $\overline{Y}$: Y 평균
    • $b=\overline{Y} - w\overline{X}$

머신 러닝으로 선형 회귀(이론)

  • 손실 함수 또는 비용 함수
    • 예측값과 실제값의 오차
    • 회귀 문제에서는 일반적으로 MSE(Mean Squared Error)를 사용
    • $MSE =\(1\over n\)\sum(Y-\hat{Y})^2$
  • 최적화
    • 가장 작은 손실 함수 값을 출력하는 파라미터$(w, b)$찾기
    • 경사하강법 사용

더 공부하기

  • (책) 파이썬 라이브러리를 활용한 데이터 분석
  • (책) 혼자 공부하는 머신러닝 + 딥러닝
  • (책) 밑바닥부터 시작하는 데이터 과학
  • (책) 파이썬 라이브러리를 활용한 머신러닝
  • (책) 파이썬 데이터 사이언스 핸드북
  • (웹) https://wikidocs.net/53560 (Pytorch로 시작하는 딥러닝 입문)
  • (웹) https://developers.google.com/machine-learning
  • (강의) Coursera - Machine Learning(Andrew Ng)

댓글남기기