본문 바로가기

데이터 분석 학습

(12)
[혼자공부하는머신러닝+딥러닝] Ch.04 다양한 분류 알고리즘 / 로지스틱 회귀, 확률적 경사 하강법, 이진분류, 다중 분류 본 포스팅은 저를 포함한 책을 구입한 분들의 학습 정리를 위해 쓰여졌습니다. 04-1 로지스틱 회귀 이번 장의 문제는 7개의 생선이 들어 있는 랜덤박스에 담긴 생선 종류의 확률을 알려주는 문제다. 이번에 다룰 수 있는 특성은 길이, 높이, 두께, 대각선 길이, 무게 총 5가지이다. 먼저 우리의 k-최근접 이웃 분류 알고리즘으로 클래스 확률을 계산해본다. 논리구조는 샘플 X 주위에 가장 가까운 이웃 샘플 10개 중 bream이 3개 roach가 5개 perch가 2개이면 bream 30%, roach 50%, perch 20%로 확률을 출력하는 것이다. 일단 데이터를 불러온다. pandas의 head() 메서드로 처음 5개 행을 출력해보자 import pandas as pd fish = pd.read_cs..
[혼자공부하는머신러닝+딥러닝] Ch.03 회귀 알고리즘과 모델 규제 / K-최근접이웃회귀, 선형회귀, 특성 공학과 규제 본 포스팅은 저를 포함한 책을 구입한 분들의 학습 정리를 위해 쓰여졌습니다. 03-1 k-최근접 이웃 회귀 이전에는 bream과 smelt의 2가지 특성 값(길이, 무게)을 가지고 신규 데이터를 분류하는 문제를 풀었다. 이번에는 신규 데이터의 길이 값 만을 가지고 무게를 예측하는 데이터 예측 모델을 만들어 본다. (이제 진짜 예측 관련 공부 시작!) 예측 모델을 만들기 위해선 일단 '회귀regression'에 대해 알아야한다. 참고로 이전에 학습한 방법은 '분류classification'이다. 회귀는 클래스 중 하나로 분류하는 것이 아니라 임의의 어떤 숫자를 예측하는 문제이다. 이 용어는 19세기 통계학자였던 프랜시스 골턴이 제창한 용어로, 키가 큰 사람의 아이가 부모보다 더 크지 않는다는 사실을 관찰하..
[혼자공부하는머신러닝+딥러닝] Ch.02 데이터 다루기 / 훈련-테스트 세트 분리, 전처리 본 포스팅은 저를 포함한 책을 구입한 분들의 학습 정리를 위해 쓰여졌습니다. 02-1 훈련세트와 테스트 세트 머신러닝은 입력과 타깃값을 주고 미리 훈련한 다음, 기존 훈련에 쓰이지 같은 형태의 데이터로 테스트하는 형태로 평가한다. 즉, 훈련과 테스트는 서로 다른 데이터 값으로 나누어주어야한다. 이렇게 연습문제와 시험문제가 달라야 머신러닝의 알고리즘 평가가 가능하다. 이런 형태를 만드는 방법은 평가를 위한 또 다른 데이터를 준비하거나 이미 준비된 데이터 중에서 일부를 떼어 내 활용하는 것이다. 앞서 본 그림과 같다. 데이터를 분리해 학습용과 테스트용을 분리한다. 데이터를 분리하는 방법은 1. 데이터에 index와 slicing 연산자를 이용 2. numpy라이브러리의 arrange() 함수 이용 2. sc..
[혼자공부하는머신러닝+딥러닝] Ch.01 나의 첫 머신러닝 리뷰 / K-최근접 이웃 모델 본 포스팅은 저를 포함한 책을 구입한 분들의 학습 정리를 위해 쓰여졌습니다. 혼자 공부하는 머신러닝 딥러닝은 데이터 분석 분야의 꽃인 머신러닝과 딥러닝이 대체 뭐에 쓰는 물건인지 알고 싶어하는 사람들을 위한 입문서다. 수학과 통계 지식이 전무한 사람들도 실 예시를 통해서 충분히 이해할 수 있을만큼 쉽게 잘 쓰여진 책이다. 시중에서 이만한 책을 고르기 쉽지 않을듯하다. 두꺼운 책이긴 하지만 길고 긴 데이터 공부의 여정에 비하면 새발의 피에 불과하니 한번 끝까지 달려보자. 참고로 여기에선 각 코드에 대한 자세한 설명은 하지 않는다. 파이썬 코드에 익숙하지 않은 사람은 파이썬 기본서와 파이썬 활용 데이터분석 기본서를 먼저 학습하고 오는 것을 추천한다. Ch.01 나의 첫 머신러닝 이 단원에서는 인공지능, 머신..
[모두의 데이터분석 With 파이썬] Unit.08 리뷰 / 항아리모양 그래프 그리기 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.01 리뷰 / CSV, 아나콘다, 크롬 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.02 리뷰 / 주피터, 코랩 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.03 리뷰 / 데이터 전처리 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.04 리뷰 / 기본 그래프 그리기​ 2022.03.24 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.05 리뷰 / 데이터에 맞는 시각화 2022.03.24 - [데이터 분석 학습] - [모두의 데이터분석 W..
[모두의 데이터분석 With 파이썬] Unit.07 리뷰 / 데이터에 맞는 시각화 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.01 리뷰 / CSV, 아나콘다, 크롬 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.02 리뷰 / 주피터, 코랩 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.03 리뷰 / 데이터 전처리 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.04 리뷰 / 기본 그래프 그리기 Unit.07 우리동네 인구 구조 시각화하기 이번 장부터는 인구 공공데이터를 통한 데이터 분석을 시작한다. 일단 인구통계표를 다운 받아야하는데, 행정안전부(www.mois.go.kr)에 접속한 후 정책자..
[모두의 데이터분석 With 파이썬] Unit.06 리뷰 / 다양한 그래프 시각화 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.01 리뷰 / CSV, 아나콘다, 크롬 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.02 리뷰 / 주피터, 코랩 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.03 리뷰 / 데이터 전처리 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.04 리뷰 / 기본 그래프 그리기​ 2022.03.24 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.05 리뷰 / 데이터에 맞는 시각화 Unit. 06 기온 그래프를 다양하게 시각화하기 이전에 기온데이터는 ..
[모두의 데이터분석 With 파이썬] Unit.05 리뷰 / 데이터에 맞는 시각화 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.01 리뷰 / CSV, 아나콘다, 크롬 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.02 리뷰 / 주피터, 코랩 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.03 리뷰 / 데이터 전처리 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.04 리뷰 / 기본 그래프 그리기 일단 지금까지 써왔던 데이터를 불러오는 것부터 시작하자 import csv f = open('/content/drive/MyDrive/Python Study/모두의 데이터 분석 with..
[모두의 데이터분석 With 파이썬] Unit.04 리뷰 / 기본 그래프 그리기 1. 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.01 리뷰 / CSV, 아나콘다, 크롬 2. 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.02 리뷰 / 주피터, 코랩 3. 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.03 리뷰 / 데이터 전처리 UNIT.04 기본 그래프 그리기 앞선 장(기온 데이터 분석)에서 우리는 데이터를 추출해서 출력하는 법을 배웠다. 이번엔 '데이터 시각화'를 파이썬을 통해 구현해보자. 이번에도 마찬가지로 데이터 시각화도 남들이 만들어 놓은 '라이브러리(모듈의 집합)'를 사용한다. 애초에 우리는 이미지를 제로부터 만들 능력이 없기 ..
[모두의 데이터분석 With 파이썬] Unit.03 리뷰 / 데이터 전처리 2. 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.02 리뷰 / 주피터, 코랩 1. 2022.03.23 - [데이터 분석 학습] - [모두의 데이터분석 With 파이썬] Unit.01 리뷰 / CSV, 아나콘다, 크롬 Unit. 03 서울이 가장 더웠던 날은 언제였을까? 이번 장에서 가장 중요한 부분은 데이터를 읽고 전처리하는 과정이다. 특히 값이 없는 데이터 수치를 말하는 '결측치'를 어떻게 처리하는지 집중해서 보아야한다. 이제 우리는 데이터에게 질문을 해야한다. 질문을 한다는 것은 우리의 인지능력에 맞는 형태로 데이터의 가공방향을 결정한다는 것이다. 이번 유닛의 질문은 다음과 같다. '서울의 최고 기온이 가장 높았던 날은 언제였고, 몇 도였는가?' 이..