본 리뷰는 학습 과정을 리뷰하며 정리한 글입니다. 책을 구입하신 분들이 천천히 참고하면서 읽을 수 있도록 작성하였으니 공부하고 싶으신 분들은 책을 구입하도록 합시다.

어쩌다보니 비전공자로서 개발과 관련된 분야를 배울 기회가 생겼다. 그 중에서 데이터 사이언스 분야를 선택하며 미리 한번 구입해 본 책이었는데 (나중에 데이터 분석 관련 멘토님께 들어보니 이건 중학생 수준이라고 하시더라.......) 크게 어렵지 않은 책이라 데이터 사이언스가 어떤 형태로 굴러가는가를 손톱만큼이나마 한번 보고 싶은 분들에게 추천 할만한 책이었다.
이번 학습 리뷰에서는 책에 나오는 개념 중 중요한 부분을 골라 탐구해보려 한다.
Unit. 01 기온 데이터 분석 시작하기
여기서는 특별한 코딩 작업은 없지만, 공공데이터를 추출하는 기초와 CSV, 아나콘다에 대해 다룬다.
데이터 양식인 CSV(Comma-Seperated Values)는 표 형태로 구성된 각각의 데이터 값을 콤마(,)로 구분하는 파일 형식으로 한 줄이 한개의 행에 해당하며 열을 콤마(,)로 구분하는 간단한 방법으로 범용성이 높아 엑셀뿐만 아니라 메모장에서 수정도 가능하다. 또한 엑셀이나 구글 스프레드시트를 이용해 기존 파일을 CSV로 변환하는 것도 가능하다.
단점은 데이터 오염이 취약하다는 것. 만약 웹에서 숫자 데이터를 csv형식으로 크롤링(crawling)한다고 해도 만약 숫자에 콤마(1,000)가 있다면 이를 다른 열로 인식하기 때문에 오염이 일어날 수 밖에 없다. 게다가 다양한 문자를 사용하는 문서형태는 더욱 더 위험하겠지?
정리하면, CSV 파일은 데이터를 담는 형식 중 가장 범용성이 높고 간단한 방식이라 널리 쓰이는 형식이라는 것이다. 앞으로 만날 대부분의 공공데이터는 CSV 파일일 것이다.

그리고 이 책에서는 데이터 분석 환경으로 아나콘다(Anaconda)와 크롬(Chrome)을 이용한다.
아나콘다는 파이썬과 R언어의 패키지 관리 및 배포를 지원하는 오픈소스 소프트웨어로 개인 사용자에게 '무료'라는 이점이 있어 매우 자주 사용되는 툴이다. 쉽게 말해 데이터 분석을 위한 다양한 라이브러리와 패키지를 한번에 관리할 수 있다는 것.
(비단뱀python과 아나콘다anaconda라니.... 이과의 작명센스 완전 내 스타일이다)
라이브러리와 패키지를 모르는 분들을 위해 약간의 부연설명을 하자면, 일반적으로 우리가 데이터 분석을 위해 언어를 다룰 때 모든 작업을 한땀한땀 다루는 일은 절대 없다!
모든 데이터 분석 관련 함수를 처음부터 만들어야 한다면 데이터 분석이 이렇게 활발한 분야가 되지 못했을 것이다.
이게 매우 어렵거든...... 그래서 데이터 분석을 전공하는 연구자들이 작업을 쉽게 할 수 있도록 만들어 놓은 데이터 분석 관련 함수를 모아놓은 것들을 라이브러리나 패키지라고 한다.
아나콘다는 이런 패키지와 라이브러리 관리에 최적화된 툴이다. 단순히 패키지를 한 곳에 모아 볼 수 있을 뿐 아니라 패키지별로 다른 파이썬 버전을 지원하는 경우 발생할 수 있는 충돌이나 오류도 해결해주며, 서로 다른 패키지 안의 같은 명령어도 conda 가상환경을 통해 구분해준다.
이외에도 다양한 솔루션을 지원하지만, 처음부터 복잡한 기능을 이해할 필요는 없으니 자세한 설명은 생략하는 걸로 하자. 그리고 지원하는 언어를 보면 알겠지만, 아나콘다는 데이터 사이언스에 최적화되어있어 데이터분석을 시작하는 우리를 위한 필수템이라 할 수 있다.
아나콘다 다운로드는 https://www.anaconda.com/
Anaconda | The World's Most Popular Data Science Platform
Anaconda is the birthplace of Python data science. We are a movement of data scientists, data-driven enterprises, and open source communities.
www.anaconda.com

인터넷 브라우저는 그냥 구글 크롬을 쓰는게 속이 편하다. 그러나 요즘은 네이버 웨일이나 MS 엣지도 작업 환경에서 큰 문제는 없다. 왜냐하면 이 브라우저들도 어차피 같은 크로미움 기반 브라우저이기 때문. 쉽게 말해 똑같은 DNA를 공유하는 놈들이다. 그러니 편한거 쓰도록 하자. 익스플로러만 아니면 된다.
크롬 다운로드는 https://www.google.com/intl/ko/chrome/
Chrome 웹브라우저
더욱 스마트해진 Google로 더 간편하고 안전하고 빠르게.
www.google.com
크로미움(Chromium)에 대해 더 알아보고 싶다면 https://www.itworld.co.kr/news/171849?page=0,0
“크롬도 엣지도 모두 한 뿌리” 구글 크로미움 브라우저의 정체
크롬(Chrome)과 크로미움(Chromium)은 이름이 비슷하지만 전혀 다른 웹 브라우저다. 하지만 서로 관련은 있다.하나가 다른 하나로 이어져 있다. 하나는 오픈소스지만, 다른 하나는(사실상) 아니다. 하
www.itworld.co.kr
'데이터 분석 학습' 카테고리의 다른 글
[모두의 데이터분석 With 파이썬] Unit.06 리뷰 / 다양한 그래프 시각화 (0) | 2022.03.24 |
---|---|
[모두의 데이터분석 With 파이썬] Unit.05 리뷰 / 데이터에 맞는 시각화 (0) | 2022.03.24 |
[모두의 데이터분석 With 파이썬] Unit.04 리뷰 / 기본 그래프 그리기 (0) | 2022.03.23 |
[모두의 데이터분석 With 파이썬] Unit.03 리뷰 / 데이터 전처리 (0) | 2022.03.23 |
[모두의 데이터분석 With 파이썬] Unit.02 리뷰 / 주피터, 코랩 (0) | 2022.03.23 |