pyspark parquet file 읽어오기

IT기술/hadoop family|2021. 1. 15. 23:26

2019-12-12 작성

 

jupyter notebook에서 pyspark를 사용해 parquet file을 읽어 올 때 가장 기본이 되는 code이다. 실제 pyspark shell에서는 import 등의 내용이 필요 없을 수 있다.

 

import pyspark
from pyspark.sql import SQLContext

sc = pyspark.SparkContext.getOrCreate()
sqlContext = SQLContext(sc)
df = sqlContext.read.parquet('[parquet 경로]')
df.show()

sc.stop()

댓글()