Hello

10 Spark MLlib

|

1. 개요

1.1. 관측과 특성

1.2. 레이블

  • 지도학습 방식에서 훈련을 위해 주어지는 데이터 셋에 각 관측 데이터에 대한 올바른 출력값을 알려주는 레이블이라는 값이 포함

1.3. 연속형 데이터와 이산형 데이터

  • 연속형 데이터 : 온도, 무게같은 연속적인 값을 가지는 데이터
  • 이산형 데이터 : 성별, 나이같은 불 연속적인 값을 가지는 데이터

1.4. 알고리즘과 모델

  • 모델 : 알고리즘의 산출물, 알고리즘에 데이터를 적용해서 만들어낸 결과물

1.5. 파라메트릭 알고리즘

파라메트릭

  • 고정된 개수의 파라미터
  • 입력과 출력 사이의 관계를 특성 값에 관한 수학적 함수로 가정하고, 그 결과값이 실제 결과값에 가까워 지도록 파라미터를 조정하는 방법
  • 선형회귀, 로지스틱회귀 알고리즘

넌파라메트릭

  • 머신러닝의 수행결과를 그대로 사용하는 방식
  • 서포티드 벡터머신 알고리즘, 나이브 베이즈 알고리즘

1.6. 지도학습과 비지도학습

  • 지도 학습 : 훈련데이터에 레이블(정답에 관한 정보)가 포함
  • 비지도 학습 : 레이블이 포함되지 않은 학습법

1.7. 파이프라인

  • 여러종류의 알고리즘을 순차적으로 실행할 수 있게 해주는 API

2. 알고리즘

2.1. Tokenizer

  • 공백 문자를 기준으로 입력 문자열을 개별 단어의 배열로 변환하고, 이 배열을 값으로 하는 새로운 칼럼을 생성하는 트랜스포머

2.2. TF-IDF(Term Frequency - Inverse Document Frequency)

  • 문서 집합에서 특정 단어가 특정 문서내에서 가지는 중요도를 수치화한 통계
  • TF(단어빈도)와 IDF(문서빈도)의 조합으로 결정

2.3. StringIndexer, IndexToString

  • StringIndexer : 문자열 칼럼에 대응하는 숫자형 칼럼을 생성하는 평가자
  • IndexToString : 인코딩 결과를 우너래 문자열로 되돌려주는 트랜스포머

3. 회귀와 분류

3.1. 회귀

3.2. 분류

로지스틱 회귀

의사결정 트리

랜덤포레스트

다층 퍼셉트론 분류자

One-vsRest classifier

나이브 베이즈

  • 독립 변수에 해당하는 각 특성들이 서로 독립이라는 가정하에 분류를 수행하는 방법

4. 클러스터링

4.1. K-means

4.2. Gaussian Mixture Model

5. 협업 필터링

5.1. ALS(alternating least squares)

Comments