반응형
파이썬에서 스파크를 활용하기 위해서는 기본적으로 Session을 지정해주어야 한다. 세션을 지정하고 빌드업을 해주면 다음과 같은 결과창이 나온다.
from pyspark.sql import SparkSession
spark = Sparksession.builder.appName('Practise').getOrCreate()
spark
스파크의 버전과 내가 지정한 AppName도 같이 출력된다.
df_pyspark = spark.read.option('header', 'true').option('inferSchema', 'true').csv('sample.csv')
option에서 header : true를 지정해주면 csv 파일의 첫번째 행을 열이름으로 인식하고 가지고 온다. inferSchema는 각 열의 Schema 를 가지고와서 해당 열이 숫자인지, 문자인지를 판단하여 Schema를 설정해준다. printSchema()를 통해 해당 변수의 Schema를 볼 수 있다. option('inferSchema','true')로 지정해주었기 때문에 age는 integer로 잡히는 것을 확인할 수 있다.
'Python > Pyspark' 카테고리의 다른 글
[pyspark] Example of pyspark ML (0) | 2022.02.22 |
---|---|
[pyspark] 스파크 시작하기 (0) | 2022.02.20 |
[pyspark] 환경 설정 (0) | 2022.02.17 |