전체 글
-
[Pandas] 데이터 프레임에 컬럼 이름 추가하기Data Science/Machine Learning 2020. 5. 12. 11:52
배경 데이터 프레임을 분석하는데 있어 컬럼 명이 존재하지 않아서 별도로 달아주어야 할 경우가 있다. 해결 코드 column_name = ['column1', 'column2', 'column3', 'column4', 'column5'] dataframe = pd.read_csv(fullpath) data = frame.values.tolist() new_dataframe = pd.DataFrame(data, columns=column_name) 코드 해설 먼저 생성할 컬럼명을 컬럼의 개수에 맞게 작성을 해준다. pandas를 통해 분석할 데이터 프레임을 읽어들인다. 데이터 프레임의 values를 모두 리스트에 넣으며 이때 리스트에 들어가는 각 요소는 데이터 프레임의 한 행이 된다. pd.DataFrame..
-
[Taxonomy and Folksonomy] 텍소노미와 폭소노미Others/Raw 2020. 4. 28. 22:04
Taxonomy와 Folksonomy 지식을 chunk화 시켜서 저장을 시키는 뇌의 특성상 무언가를 빨리 받아들이려면 배우고자 하는 지식에 대한 체계화된 범주를 먼저 보거나 만드는 것이 중요하다. 그래서 어릴적부터 많이 듣던 마인드맵이, 흩어져 있는 지식을 하나씩 그려봄으로써 지식을 체계화할 수 있는 것 때문에 효율적인 학습 측면에서 중요하다. 또한 사람이 텍스트나 음성을 이해하는 속도와 대조하여 이미지를 이해하는 속도는 현저하게 차이가 나는데 간략한 예시는 다음과 같다. 인공지능이란 머신러닝과 딥러닝으로 구성되어 있고 머신러닝은 지도학습, 비지도학습, 강화학습으로 이루어져 있다. 또한 지도학습에는 분류와 회귀가 있으며 비지도학습에는 차원축소와 클러스터링이 있다. 혹시 머릿속에 한 번에 이해가 되는가? ..
-
[Tensorflow] tensorflow mnist 데이터셋 로드Others/TroubleShooting 2020. 4. 27. 10:26
텐서플로우에서 mnist 데이터셋을 사용하기 위해 사용했던 기존의 명령어인 다음의 코드로 동작하지 않는 다는 문제점이 있다. from tensorflow.examples.tutorials.mnist import input_data 이에 대한 이유로는 텐서플로우 github를 확인하면 tf.contrib.learn.dataset으로 부터 가져오는 것을 더이상 사용하지 말 것을 당부하고 있으며 scikits.learn과 같은 다른 모듈을 통해 데이터 셋을 불러올 것을 권장하고 있다. 'tf.contrib.learn.datasets' is deprecated. We are adding ready to use datasets to tensorflow/models. Many smaller datasets are ..
-
[머신러닝 이론] 서포트 벡터 머신(Support Vector Machine)Data Science/Machine Learning 2020. 4. 12. 22:27
서포트 벡터 머신 서포트 벡터 머신(이하 SVM)은 머신러닝의 지도학습에서 분류를 위해 사용하는 알고리즘 모델로, 결정 경계(Decision Boundary)를 찾기 위해 사용된다. 결정 경계란 위 그림에서 원과 별을 분류하기 위한 빨간 실선이며, 양 옆의 검은 실선은 Margin이라 한다. SVM의 주 목적은 두 Margin의 거리를 최대화 시킬 수 있는 즉, GAP을 최대화 시킬 수 있는 지점을 찾는 것이다. 만약 feature가 두 개만 존재할 경우 다음과 같이 Dicision Boundary는 아래와 같이 간단한 실선 형태가 될 것이다. 하지만 feature가 3개로 늘어난다면 다음과 같이 3차원으로 나타내야 한다(아래는 실제로 feature가 3개가 아님) 이 때 결정 경계는 선이 아니라 위와 ..
-
[딥러닝 이론] 최적화 문제Data Science/Deep Learning 2020. 4. 12. 18:56
최적화 문제 최적화 문제(Optimization Probelm)란 어떤 목적 함수(Objective Function)의 결과 값을 최적화(최대화 또는 최소화)시키는 파라미터(변수)의 조합을 찾는 문제를 의미한다. 최적화 문제는 보통 영상 처리와 같은 Computer Vision 분야에 있어 마주하는 많은 문제들이 최적화 문제로 귀결되는 경우가 많다. 목적 함수 목적 함수의 최적화 문제는 크게 4가지로 이루어지며 다음과 같다. 일변수 함수의 최적화 문제 목적 함수가 $f(x) = 5x + 21$과 같이 하나의 파라미터(변수)로 구성되어 있는 경우. 다변수 함수 최적화 문제 목적 함수가 $f(x,y) = 2x - 4xy + 6$과 같이 여러 개의 파라미터(변수)로 구성되어 있는 경우. 선형 최적화 문제 목적..
-
머신러닝 파이프라인Data Science/Kaggle 2020. 4. 5. 15:53
1. 데이터 이해(탐색적 데이터 분석 EDA) 데이터를 다운로드 받고, 직접 데이터 탐색 데이터에 대한 기초 통계를 뽑아보고, 막대그래프와 같은 단일 변수 시각화, 산점도와 같은 변수 간 관계를 시각화 2. 평가 척도 이해 경진대회의 평가 척도 확인(= 문제 출제 의도 확인) 어떤 예측값이 페널티를 크게 받고, 어떤 예측값이 페널티를 덜 받는지 이해 3. 교차 검증 기법 선정 경진대회서 안정적인 성적을 위해선 신뢰할 수 있는 교차 검증 기법 구축이 중요. 주어진 데이터와 문제에 맞는 교차 검증 기법이 무엇인가 고민 훈련/검증 데이터 분리 비율은 데이터가 매우 클 경우 5:5, 데이터가 적을 경우 9:1임 (일반적으로 5:5 ~ 9:1) 데이터 분리에는 재현성을 위해 random_seed(random_st..