Machine Learning 3

[pyspark] Example of pyspark ML

앞선 글에서 pyspark Session을 설정하는 법과 csv 파일을 불러오는 방법에 대해서 다루어 보았다. 이번에는 pyspark에서 csv 파일을 불러와 간단한 ML(machine Learning)을 수행해보자. from pyspark.sql import SparkSession spark = SparkSession.builder.appName('missing').getOrCreate() training = spark.read.csv('dataset/test2.csv', header=True, inferSchema=True) training.printSchema() training.show(4) inferSchema = True 로 설정해줌으로써 age, Experience, Salary 변수가 in..

Python/Pyspark 2022.02.22

[short] Pace My Race : Recommendations for Marathon Running, Jakim Berndsen (2019)

최근 몇년 동안 마라톤 훈련이나 마라톤 대회의 GPS 데이터가 크게 증가하면서 해당 데이터를 활용해 마라토너의 능력을 향상시켜주고, 잠재 타깃 사용자에게 페이스 조절해주는 연구가 진행되고 있다. 기존에도 마라톤 페이스에 관한 추천을 해주고 있었지만, 시간과 속도만 제공하는 것이 아니라 e-coach 형태로 페이스 조절(감속) 등의 추가적인 교육 프로그램까지 제공해준다는 것이 논문의 핵심이다. 사용자의 이전 기록과 더불어 사용자와 비슷한 다른 사용자의 데이터를 추합해 예측하기 때문에 사용자 맞춤 추천시스템이 된다. 단순히 해당 페이스로 뛰어라고만 제공해주면 속도를 따라잡기 위해 저장해둔 에너지를 소모해 완주지점까지 도달하지 못하고 중도포기하는 경우도 발생할 수 있지만, 해당 논문에서 제공하는 추천시스템은 ..

PCA (Principal Components Analysis)

PCA(Principal Components Analysis) 란? 대표적인 차원 축소(dimension reduce) 방법 중 하나다. 본인이 가진 데이터를 최대한 보존하면서 compact 한 자료를 만드는 것이 목적이다. 전진 선택법, 후진제거법, 유전 알고리즘 등 변수제거를 하는 방식이 아니라 차원을 축소하는 것이다. 원래 데이터의 분산을 최대한 보존할 수 있는 기저를 찾는 것이다. 각 점 $x^{(i)} \in \mathbb{R}^n$에 대해 그에 대응되는 code vector $c^{(i)} \in \mathbb{R}^l$을 구한다음 만약 $ n \ge l$이라면 원래보다 더 적은 메모리로 code point에 저장할 수 있을 것이다. $ Var(x)_{x\in\mathbb{R^3}} = max..

Machine Learning 2021.06.23
반응형