Python/Pyspark

[pyspark] csv 파일 불러오기

언킴 2022. 2. 21. 23:50
반응형

파이썬에서 스파크를 활용하기 위해서는 기본적으로 Session을 지정해주어야 한다. 세션을 지정하고 빌드업을 해주면 다음과 같은 결과창이 나온다. 

 

from pyspark.sql import SparkSession

spark = Sparksession.builder.appName('Practise').getOrCreate()

spark

 

스파크의 버전과 내가 지정한 AppName도 같이 출력된다. 

 

df_pyspark = spark.read.option('header', 'true').option('inferSchema', 'true').csv('sample.csv')

option에서 header : true를 지정해주면 csv 파일의 첫번째 행을 열이름으로 인식하고 가지고 온다. inferSchema는 각 열의 Schema 를 가지고와서 해당 열이 숫자인지, 문자인지를 판단하여 Schema를 설정해준다. printSchema()를 통해 해당 변수의 Schema를 볼 수 있다. option('inferSchema','true')로 지정해주었기 때문에 age는 integer로 잡히는 것을 확인할 수 있다.

'Python > Pyspark' 카테고리의 다른 글

[pyspark] Example of pyspark ML  (0) 2022.02.22
[pyspark] 스파크 시작하기  (0) 2022.02.20
[pyspark] 환경 설정  (0) 2022.02.17