Hello

08 Spark SQL

|

1. Spark SQL 개요

Spark Session

  • DataFrame, DataSet을 생성하기 위해 사용하는 객체
  • build() 메서드를 통해 인스턴스 생성
  • Spark-shell에서는 spark라는 이름으로 인스턴스가 자동 생성

DataSet

  • Spark SQL에서 사용하는 분산 데이터 모델
  • 기존 DataFrame과 통합되면서 타입/비타입 연산등 다양한 데이터 처리 연산 제공

DataFrame

  • Row 타입의 데이터로 구성된 데이터셋

DataFrameReader

  • SparkSession의 read()메서드를 통해 접근
  • “jdbc”, “json”, “parquet”등 다양한 유형의 데이터소스로부터 데이터프레임을 생성하는 메소드 제공

DataFrameWriter

  • Dataset의 write() 메서드를 통해 접근
  • Dataset의 데이터를 파일시스템, DB등 다양한 저장소에 저장할 떄 사용하는 메서드 제공

Row, Column

  • DataFrame을 구성하는 요소인 row, column을 표현하는 모델이자 API

functions

  • DataFrame을 이용해 데이터를 처리할 떄 사용할 수 있는 각종 함수를 제공하는 Object

StructType, StructField

  • 데이터에 대한 스키마 정보를 나타내는 API
  • StructType : 레코드에 대한 구조정보
  • StructField : 레코드의 필드 정보

GroupedData, GroupedDataSet

  • groupBy() 메서드 등에 의해 그루핑 연산을 수행할 때 사용
  • 집계와 관련된 다양한 연산 제공

References

Comments