08 Spark SQL

18 Aug 2017 약 1분 읽기 Spark

Spark SQL

1. Spark SQL 개요

Spark Session

DataFrame, DataSet을 생성하기 위해 사용하는 객체
build() 메서드를 통해 인스턴스 생성
Spark-shell에서는 spark라는 이름으로 인스턴스가 자동 생성

DataSet

Spark SQL에서 사용하는 분산 데이터 모델
기존 DataFrame과 통합되면서 타입/비타입 연산등 다양한 데이터 처리 연산 제공

DataFrame

Row 타입의 데이터로 구성된 데이터셋

DataFrameReader

SparkSession의 read()메서드를 통해 접근
“jdbc”, “json”, “parquet”등 다양한 유형의 데이터소스로부터 데이터프레임을 생성하는 메소드 제공

DataFrameWriter

Dataset의 write() 메서드를 통해 접근
Dataset의 데이터를 파일시스템, DB등 다양한 저장소에 저장할 떄 사용하는 메서드 제공

Row, Column

DataFrame을 구성하는 요소인 row, column을 표현하는 모델이자 API

functions

DataFrame을 이용해 데이터를 처리할 떄 사용할 수 있는 각종 함수를 제공하는 Object

StructType, StructField

데이터에 대한 스키마 정보를 나타내는 API
StructType : 레코드에 대한 구조정보
StructField : 레코드의 필드 정보

GroupedData, GroupedDataSet

groupBy() 메서드 등에 의해 그루핑 연산을 수행할 때 사용
집계와 관련된 다양한 연산 제공

References

빅데이터 분석을위한 스파크2 프로그래밍(백성민, 위키북스, 2017)

댓글