삶의 공유

[파이썬] pandas datareader 라이브러리를 이용한 데이터 로딩 및 시각화 본문

Data Scientist/Python

[파이썬] pandas datareader 라이브러리를 이용한 데이터 로딩 및 시각화

dkrehd 2022. 5. 16. 23:10
728x90
반응형

안녕하세요 ~

 

오늘은 python 라이브러리 패키지 중 하나인 pandas의 data reader 라이브러리를 이용하여 주가를 확인하고, 시각화 해보는 것을 해보려고 합니다.

 

 

패키지 설치 및 import

우선 필요한 라이브러리를 설치 해주셔야 합니다. 아래와 같이 2가지의 라이브러리를 먼저 설치 해줍니다.

conda install pandas-datareader
pip install cufflinks

 

설치 해주셨다면 먼저 import 해주겠습니다.

import pandas as pd
import numpy
import matplotlib.pyplot as plt
import cufflinks as cf
from pandas_datareader import data

 

 

데이터 불러오기

자 이제 위의 패키지들을 이용하여 데이터를 로딩 해보겠습니다.

 

먼저 데이터를 뽑을 시작 날짜와, 끝 날짜를 정하겠습니다.

start = "2010-01-01"
end = "2020-12-31"

 

그 다음에는 종목을 선정해보겠습니다. 이번 포스팅에서는 마이크로소프트(MSFT)를 해보겠습니다.

symbol = "MSFT"

 

위의 선정한 변수들을 이용하여 데이터를 불러오겠습니다.

df = data.DataReader(name = symbol, data_source = "yahoo", start = start, end = end)
df

잘 로딩이 된 것을 볼 수 있습니다.

 

info함수를 이용하여 항목별로 결측값 여부 및 Data Type을 확인해보겠습니다.

df.info()

 

 

자 이번엔 여러 종목을 한번에 불러와보겠습니다.

 

불러올 종목을들 이렇게 리스트화를 먼저 합니다.

symbol = ["MSFT", "GE", "AAPL"]

 

위와 동일 하게 다시 적용을 해보면!

df = data.DataReader(name = symbol, data_source = "yahoo", start = start, end = end)
df

 

컬럼이 2개의 계층으로 나뉘어서 잘 나오는 것을 볼 수 있습니다.

 

이번에도 info()함수를 이용하여 데이터 프레임 형태에 대해서 확인해보겠습니다.

 

 

 

반응형

 

종가 기준으로 시각화 해보기

자 이렇게 뽑은 데이터 들을 시각화 해보겠습니다. 

 

GE (General Electric) 기업의 종가 기준으로 시각화를 해보겠습니다.

df.Close.GE.plot(figsize = (12, 8))
plt.show()

 

이 데이터 에서 20년 6월 이후로 데이터를 필터링 하여 시각화 해보겠습니다.

 

df.loc["2020-06":, ("Close", "GE")].plot(figsize = (12, 8))
plt.show()

 

 

이번에는 20년 6월달 데이터만 시각화 해보겠습니다.

df.loc["2020-06", ("Close", "GE")].plot(figsize = (12, 8))
plt.show()

 

이렇게 loc 함수를 이용하여 데이터를 쉽게 필터링 할 수 있어 편리하게 시각화 할 수 있었습니다.

 

 

이만 여기까지 pandas datareader 라이브러리를 이용한 데이터 로딩 및 시각화 하기에 대한 포스팅이었습니다.

 

 

반응형