[pyspark] csv 파일 불러오기

Python/Pyspark

[pyspark] csv 파일 불러오기

언킴 2022. 2. 21. 23:50

파이썬에서 스파크를 활용하기 위해서는 기본적으로 Session을 지정해주어야 한다. 세션을 지정하고 빌드업을 해주면 다음과 같은 결과창이 나온다.

from pyspark.sql import SparkSession

spark = Sparksession.builder.appName('Practise').getOrCreate()

spark

스파크의 버전과 내가 지정한 AppName도 같이 출력된다.

df_pyspark = spark.read.option('header', 'true').option('inferSchema', 'true').csv('sample.csv')

option에서 header : true를 지정해주면 csv 파일의 첫번째 행을 열이름으로 인식하고 가지고 온다. inferSchema는 각 열의 Schema 를 가지고와서 해당 열이 숫자인지, 문자인지를 판단하여 Schema를 설정해준다. printSchema()를 통해 해당 변수의 Schema를 볼 수 있다. option('inferSchema','true')로 지정해주었기 때문에 age는 integer로 잡히는 것을 확인할 수 있다.

저작자표시 (새창열림)

'Python > Pyspark' 카테고리의 다른 글

[pyspark] Example of pyspark ML (0)	2022.02.22
[pyspark] 스파크 시작하기 (0)	2022.02.20
[pyspark] 환경 설정 (0)	2022.02.17

현재글[pyspark] csv 파일 불러오기

ok-lab

[pyspark] csv 파일 불러오기

'Python > Pyspark' 카테고리의 다른 글

'Python/Pyspark'의 다른글

티스토리툴바

[pyspark] csv 파일 불러오기

'Python > Pyspark' 카테고리의 다른 글

'Python/Pyspark'의 다른글

관련글

티스토리툴바