08 Spark SQL
18 Aug 2017
|
Spark
SQL
1. Spark SQL 개요
Spark Session
- DataFrame, DataSet을 생성하기 위해 사용하는 객체
- build() 메서드를 통해 인스턴스 생성
- Spark-shell에서는 spark라는 이름으로 인스턴스가 자동 생성
DataSet
- Spark SQL에서 사용하는 분산 데이터 모델
- 기존 DataFrame과 통합되면서 타입/비타입 연산등 다양한 데이터 처리 연산 제공
DataFrame
DataFrameReader
- SparkSession의 read()메서드를 통해 접근
- “jdbc”, “json”, “parquet”등 다양한 유형의 데이터소스로부터 데이터프레임을 생성하는 메소드 제공
DataFrameWriter
- Dataset의 write() 메서드를 통해 접근
- Dataset의 데이터를 파일시스템, DB등 다양한 저장소에 저장할 떄 사용하는 메서드 제공
Row, Column
- DataFrame을 구성하는 요소인 row, column을 표현하는 모델이자 API
functions
- DataFrame을 이용해 데이터를 처리할 떄 사용할 수 있는 각종 함수를 제공하는 Object
StructType, StructField
- 데이터에 대한 스키마 정보를 나타내는 API
- StructType : 레코드에 대한 구조정보
- StructField : 레코드의 필드 정보
GroupedData, GroupedDataSet
- groupBy() 메서드 등에 의해 그루핑 연산을 수행할 때 사용
- 집계와 관련된 다양한 연산 제공
References
Comments