pyspark parquet file 읽어오기
IT기술/hadoop family2021. 1. 15. 23:26
2019-12-12 작성
jupyter notebook에서 pyspark를 사용해 parquet file을 읽어 올 때 가장 기본이 되는 code이다. 실제 pyspark shell에서는 import 등의 내용이 필요 없을 수 있다.
import pyspark
from pyspark.sql import SQLContext
sc = pyspark.SparkContext.getOrCreate()
sqlContext = SQLContext(sc)
df = sqlContext.read.parquet('[parquet 경로]')
df.show()
sc.stop()
'IT기술 > hadoop family' 카테고리의 다른 글
Hive Authorization Configuration 권한 설정 (0) | 2021.01.17 |
---|---|
hive에서 json포맷 기반으로 데이터 가져오기 위한 설정 (0) | 2021.01.16 |
apache zeppelin 설치하고 hadoop kerberos 연동하기 (0) | 2021.01.15 |
hadoop security distcp 시 SIMPLE authentication error(distcp hadoop secure insecure) (0) | 2021.01.15 |
zeppelin에 jdbc interpreter 설정하기(apache hive 기준) (0) | 2021.01.15 |
댓글()