pyspark parquet file 읽어오기

IT기술/hadoop family2021. 1. 15. 23:26

2019-12-12 작성

jupyter notebook에서 pyspark를 사용해 parquet file을 읽어 올 때 가장 기본이 되는 code이다. 실제 pyspark shell에서는 import 등의 내용이 필요 없을 수 있다.

import pyspark
from pyspark.sql import SQLContext

sc = pyspark.SparkContext.getOrCreate()
sqlContext = SQLContext(sc)
df = sqlContext.read.parquet('[parquet 경로]')
df.show()

sc.stop()

'IT기술 > hadoop family' 카테고리의 다른 글

Hive Authorization Configuration 권한 설정 (0)	2021.01.17
hive에서 json포맷 기반으로 데이터 가져오기 위한 설정 (0)	2021.01.16
apache zeppelin 설치하고 hadoop kerberos 연동하기 (0)	2021.01.15
hadoop security distcp 시 SIMPLE authentication error(distcp hadoop secure insecure) (0)	2021.01.15
zeppelin에 jdbc interpreter 설정하기(apache hive 기준) (0)	2021.01.15

노력의 결과 판교에서 일하는 개발자. 온통 모르는 것 투성이지만, 온갖 것에 통하고 싶다.

블로그 소개

공지사항

카테고리

최근 등록 현황

달력

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

링크

카운터

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

pyspark parquet file 읽어오기

'IT기술 > hadoop family' 카테고리의 다른 글

최근 글

최근 월별 글

최근 댓글

최근 글

최근 월별 글

최근 댓글

최근 글

최근 월별 글

최근 댓글

지난달

2025.4

다음달

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역