본문 바로가기

데이터 분석/이것이 데이터 분석이다 with 파이썬

[이것이 데이터 분석이다 with 파이썬] 개발환경 구축, 라이브러리 알아보기

데이터를 다루는 사람 : 언어, 라이브러리는 도구일 뿐, 중요한 것은 문제 해결 능력

-주어진 문제를 어떻게단계적으로 접근할 지

 

데이터 분석 방법론 : MH (멘땅에 헤딩 ㅋ), 모르면 테크놀로지, 알면 노가다

 

데이터 분석의 핵심 : 주어진 상황과 문제를 파악하고, 적절한 분석 기법을 선택해 적용

 

//문제에 올바르게 접근하는 사고의 과정

  

//개발 환경 구축하기

- anaconda3 다운로드 후 anaconda prompt 실행

- 주피터 노트북 설치 // UI로 파이썬 코드 실행하게 해주는 도구 (코드, 마크다운 형태의 문서, 이미지 공유가 쉬움)

  (Jupyter Notebook)

 

 

>>버전 확인

>>conda create -n pybook python=3.8

//pybook 이라는 이름을 가진 파이썬 3.8 버전의 새로운 가상환경 생성

//가상환경 생성 : 독립된 개발환경 구축, 각자 독립적으로 라이브러리 관리

가능

 

 

 

 

 

 

 

 

 

생성 완료 후

 

 

 

 

 

>> conda activate pybook // 가상환경 실행

 

 

 

 

>> 아나콘다를 이용한 파이썬 개발환경 구축 완료

 

-주피터 노트북 설치

 

>> pip install jupyter

//Pip Install Packages로 PyPI라는 공식 라이브러리 저장소로부터, (파이썬 패키지를 받아 설치하는) 패키지 관리 도구를 호출

 

 

 

 

 

 

 

 

 

 

 

주피터 노트북 실행

 

>>바로 들어가지지 않는다면 http://localhost:8888/?token=~~로 되어있는 부분 복사하여 웹 브라우저 주소창에 붙여넣으면 됨

 

 

생성된 노트북 파일은 위와 같이 새로운 창으로 실행됨 // 이전에 생성, 저장된 노트북 다시 실행도 가능

 

-데이터 분석을 위한 라이브러리 설치

: pandas(판다스), numpy(넘파이), patplotlib

pandas(판다스, pd) : 파이썬에서 가장 널리 사용되는 데이터 분석 라이브러리, 데이터 프레임이라는 자료 구조를 사용

                            데이터 프레임은 엑셀의 스프레드시트와 유사, 파이썬으로 데이터를 쉽게 처리 가능

 

import pandas as pd

//import : 수입하다, 가져오다 "다른 프로그램으로부터 데이터를 가지고 옴 (모듈을 가져옴)

//pd : 판다스 라이브러리의 축약 이름

http://localhost:8888/notebooks/Untitled1.ipynb?kernel_name=python3

 

numpy(넘파이) : numerical python(np), 수치 계산을 위해 만들어진 파이썬 라이브러리, 판다스 라이브러리라는 자료구조 사용                             + Matplotlib 라이브러리의 기본 데이터 타입으로 사용되기도 함

                           배열 개념으로 변수 사용, 벡터, 행렬 등의 연산 수행을 도와줌

//파이썬의 기본 자료구조 : 리스트, 딕셔너리

//데이터 분석의 기본 자료구조 : 넘파이 배열 

http://localhost:8888/notebooks/numpy%20ex.ipynb

 

matplotlib : 데이터 시각화의 가장 기본적인 라이브러리

http://localhost:8888/notebooks/matplotlib.ipynb

 

항상 이런 프로그램을 공부하다보면 드는 생각이 이것들을 지금 공부해도 단 한 달만 지나면 까먹어버리는 나 자신이기에 공부법이 이게 맞는지, 나중에 실무는 도대체 어떻게 하려는지 온갖 생각이 다 드는데,,, 아직 방법은 못 찾음..

까먹는 걸 방지하기 위해 티스토리나 블로그에 정리하긴 하는데 거의 책의 내용 그대로 적는 거밖에 없는 느낌,,, 내것으로 받아들이면서 정리해야하는데,,, 아직 답을 못 찾기도 하고 일단 맘이 급해서 음 자기 전에 한 번 더 읽어보는 것을 목표로 일단 이렇게 해보는 중..

 

주피터 노트북 접속

-아나콘다 프롬포트 실행

-conda activate pybook

-jupyter notebook

 

라이브러리 설치

pip install pandas numpy matplotlib

 

라이브러리 불러오기

-import pandas as pd

-import numpy as np

-%matplotlib inline //현재 실행 중인 주피터 노트북에서 그래프 출력이 가능하도록 선언하는 명령어

-import matplotlib.pyplot as plt