10 Spark MLlib
13 Sep 2017
|
Spark
MLlib
1. 개요
1.1. 관측과 특성
1.2. 레이블
- 지도학습 방식에서 훈련을 위해 주어지는 데이터 셋에 각 관측 데이터에 대한 올바른 출력값을 알려주는 레이블이라는 값이 포함
1.3. 연속형 데이터와 이산형 데이터
- 연속형 데이터 : 온도, 무게같은 연속적인 값을 가지는 데이터
- 이산형 데이터 : 성별, 나이같은 불 연속적인 값을 가지는 데이터
1.4. 알고리즘과 모델
- 모델 : 알고리즘의 산출물, 알고리즘에 데이터를 적용해서 만들어낸 결과물
1.5. 파라메트릭 알고리즘
파라메트릭
- 고정된 개수의 파라미터
- 입력과 출력 사이의 관계를 특성 값에 관한 수학적 함수로 가정하고, 그 결과값이 실제 결과값에 가까워 지도록 파라미터를 조정하는 방법
- 선형회귀, 로지스틱회귀 알고리즘
넌파라메트릭
- 머신러닝의 수행결과를 그대로 사용하는 방식
- 서포티드 벡터머신 알고리즘, 나이브 베이즈 알고리즘
1.6. 지도학습과 비지도학습
- 지도 학습 : 훈련데이터에 레이블(정답에 관한 정보)가 포함
- 비지도 학습 : 레이블이 포함되지 않은 학습법
1.7. 파이프라인
- 여러종류의 알고리즘을 순차적으로 실행할 수 있게 해주는 API
2. 알고리즘
2.1. Tokenizer
- 공백 문자를 기준으로 입력 문자열을 개별 단어의 배열로 변환하고, 이 배열을 값으로 하는 새로운 칼럼을 생성하는 트랜스포머
2.2. TF-IDF(Term Frequency - Inverse Document Frequency)
- 문서 집합에서 특정 단어가 특정 문서내에서 가지는 중요도를 수치화한 통계
- TF(단어빈도)와 IDF(문서빈도)의 조합으로 결정
2.3. StringIndexer, IndexToString
- StringIndexer : 문자열 칼럼에 대응하는 숫자형 칼럼을 생성하는 평가자
- IndexToString : 인코딩 결과를 우너래 문자열로 되돌려주는 트랜스포머
3. 회귀와 분류
3.1. 회귀
3.2. 분류
로지스틱 회귀
의사결정 트리
랜덤포레스트
다층 퍼셉트론 분류자
One-vsRest classifier
나이브 베이즈
- 독립 변수에 해당하는 각 특성들이 서로 독립이라는 가정하에 분류를 수행하는 방법
4. 클러스터링
4.1. K-means
4.2. Gaussian Mixture Model
5. 협업 필터링
5.1. ALS(alternating least squares)
Comments