Python 78

[python] os, os.path로 파이썬 경로 다루기

Contents 로컬 환경에서 예제 csv 파일을 다룰 때는 본인이 위치해있는 폴더에 csv 파일을 같이 놔두고 분석을 수행하기에 경로 설정 문제를 겪을 일이 거의 없다. 하지만 협업을 진행할 때에는 사람마다 파일의 위치가 다르기에 모든 환경에서 돌아가도록 절대 경로, 상대 경로 등 경로를 제대로 지정해주어야 한다. 이번 글에서는 python 패키지 중 os, sys로 경로를 설정하는 방법에 대해서 다루어볼 것이다. os os는 경로를 조작할 때 많이 사용하는 모듈이다. os 모듈 중에서 가장 많이 사용되는 함수에 대해서 다루어보자. os.environ : 환경 확인 os.environ은 환경 변수들을 확인할 수 있는 함수이다. 환경 변수에는 JAVE_HOME, HADOOP_HOME, HOMEPATH, ..

Python 2022.04.01

[t-SNE] manifold 데이터 시각화하기

t-SNE는 차원축소 기법 중 하나다. 차원 축소 기법 중 대표적인 기법은 PCA가 있을텐데, PCA는 데이터의 형태가 선형이라는 가정하에 분석을 수행하게 된다. 그렇기 때문에 manifold 형태를 가지는 데이터에서는 성능을 발휘하기가 어렵다. 이때 사용하는 것이 바로 t-SNE이다. sklearn에서는 t-SNE와 PCA를 지원해주기에 본 글에서는 sklearn 패키지를 활용해서 시각화한다. from sklearn.manifold import TSNE from sklearn.feature_extraction.text import TfidfVectorizer newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers..

request <Response [401]>

401(Unauthorized) 에러는 client가 인증되지 않았거나 정보가 부족해 요청이 거부되는 에러를 의미한다. 클라이언트가 제대로 인증되지 않았기네 request를 정상적으로 처리할 수 없다는 것을 의미한다. API를 사용하는 경우 client의 id와 secret 을 다시 한 번 확인한 후 다시 요청한다면 에러를 해결할 수 있다. requests 함수를 사용하면 에러로 출력되고, urllib.request를 사용하면 HTTP Error 401: Unauthorized 에러가 출력된다.

Python 2022.03.11

[Python] matplotlib 시작하기

matplotlib은 파이썬에서 시각화할 때 주로 사용되는 패키지 중 하나이다. seaborn, folium 등의 다양한 패키지가 존재하지만, 가장 많이 사용되는 matplotlib에 대해서 다루어보자. 1. plt.figure() figure는 하나의 종이라고 생각하면 된다. 우리가 그림을 그리기 위해서는 종이가 필요한데, figure는 종이를 만들어주는 함수라고 보면 된다. figsize 인자를 통해 종이의 크기를 설정해주고, facecolor 인자를 통해 종이의 색을 지정해줄 수 있다. fig = plt.figure(figsize=(7, 7), facecolor = 'linen') # red plt.show() 2. plt.add_subplot() add_subplot을 통해 ax라는 변수에 sub..

[pyspark] Example of pyspark ML

앞선 글에서 pyspark Session을 설정하는 법과 csv 파일을 불러오는 방법에 대해서 다루어 보았다. 이번에는 pyspark에서 csv 파일을 불러와 간단한 ML(machine Learning)을 수행해보자. from pyspark.sql import SparkSession spark = SparkSession.builder.appName('missing').getOrCreate() training = spark.read.csv('dataset/test2.csv', header=True, inferSchema=True) training.printSchema() training.show(4) inferSchema = True 로 설정해줌으로써 age, Experience, Salary 변수가 in..

Python/Pyspark 2022.02.22

[pyspark] csv 파일 불러오기

파이썬에서 스파크를 활용하기 위해서는 기본적으로 Session을 지정해주어야 한다. 세션을 지정하고 빌드업을 해주면 다음과 같은 결과창이 나온다. from pyspark.sql import SparkSession spark = Sparksession.builder.appName('Practise').getOrCreate() spark 스파크의 버전과 내가 지정한 AppName도 같이 출력된다. df_pyspark = spark.read.option('header', 'true').option('inferSchema', 'true').csv('sample.csv') option에서 header : true를 지정해주면 csv 파일의 첫번째 행을 열이름으로 인식하고 가지고 온다. inferSchema는 각 ..

Python/Pyspark 2022.02.21

[pyspark] 스파크 시작하기

이전에 스파크를 설치해보았다. 지금은 스파크의 간단한 코드를 작성해볼 것이다. 환경은 파이썬 내에서 실행한다. 파이썬에서 스파크를 실행하기 위해서는 Session을 생성해주어야한다. 아래와 같이 Session을 생성하고 변수에 받을 수 있다. import pyspark from pyspark import SparkConf, SparkContext from pyspark.sql import SparkSession # Session 생성 spark = SparkSession.builder.appName('Basics').getOrCreate() # make DataFrame myRange = spark.range(1000).toDF('number') myRange는 0부터 999까지의 데이터를 받아 데이터 ..

Python/Pyspark 2022.02.20

[pyspark] 환경 설정

python에서 spark를 사용하기 위해서는 몇 가지 환경 설정이 필요하다. 1. JAVA 11 version $\uparrow$ 2. HADOOP 3 version $\uparrow$ 3. SPARK 3.2.1 4. PYTHON 3 version $\uparrow$ 위에서 언급한 4개의 버전을 제대로 설정해주어야만 사용이 가능하기 때문에 매우 중요하다. Spark3.2.1 버전을 사용할 것이기 때문에 JAVA는 11버전 이상을 다운받는 것이 좋다. 왜냐하면 Spark3.0.0 버전부터는 JAVA 11버전 부터 지원하기 때문이다. Hadoop도 마찬가지고 3버전 부터 지원하고 있으니 유의해서 다운받자. 파이썬의 경우 역시 3 버전부터 지원하니 유의하자. 3. Download Spark : spark-3..

Python/Pyspark 2022.02.17

[Python] logistic regression

로지스틱 회귀는 이진분류에서 사용되는 모델 중 흔히 쓰이는 모델이라고 보면 된다. 이론적인 부분을 공부하고 싶다면 여기를 눌러서 들어가면 볼 수 있다. 나는 임의로 데이터를 생성하여 분석을 진행했기 때문에 모델의 성능이 좋게 나오지는 않았다. 공식 데이터를 가지고 분석을 수행하면 보다 좋은 결과를 도출할 수 있을 것이다. def sigmoid(z): return 1/(1+np.exp(-z)) def f(x, w, b): return np.dot(x, w) + b def df(x, w, b): return x, 1 def binary_cross_entropy(z, t): return -(t*np.log(z) + (1-t)*np.log(1-z)).mean() 분석을 진행하기 앞서 로지스틱의 수식(sigmoi..

Python/Scikit-learn 2022.01.17
반응형