삶의 공유
[파이썬] pandas datareader 라이브러리를 이용한 데이터 로딩 및 시각화 본문
안녕하세요 ~
오늘은 python 라이브러리 패키지 중 하나인 pandas의 data reader 라이브러리를 이용하여 주가를 확인하고, 시각화 해보는 것을 해보려고 합니다.
패키지 설치 및 import
우선 필요한 라이브러리를 설치 해주셔야 합니다. 아래와 같이 2가지의 라이브러리를 먼저 설치 해줍니다.
conda install pandas-datareader
pip install cufflinks
설치 해주셨다면 먼저 import 해주겠습니다.
import pandas as pd
import numpy
import matplotlib.pyplot as plt
import cufflinks as cf
from pandas_datareader import data
데이터 불러오기
자 이제 위의 패키지들을 이용하여 데이터를 로딩 해보겠습니다.
먼저 데이터를 뽑을 시작 날짜와, 끝 날짜를 정하겠습니다.
start = "2010-01-01"
end = "2020-12-31"
그 다음에는 종목을 선정해보겠습니다. 이번 포스팅에서는 마이크로소프트(MSFT)를 해보겠습니다.
symbol = "MSFT"
위의 선정한 변수들을 이용하여 데이터를 불러오겠습니다.
df = data.DataReader(name = symbol, data_source = "yahoo", start = start, end = end)
df
잘 로딩이 된 것을 볼 수 있습니다.

info함수를 이용하여 항목별로 결측값 여부 및 Data Type을 확인해보겠습니다.
df.info()

자 이번엔 여러 종목을 한번에 불러와보겠습니다.
불러올 종목을들 이렇게 리스트화를 먼저 합니다.
symbol = ["MSFT", "GE", "AAPL"]
위와 동일 하게 다시 적용을 해보면!
df = data.DataReader(name = symbol, data_source = "yahoo", start = start, end = end)
df
컬럼이 2개의 계층으로 나뉘어서 잘 나오는 것을 볼 수 있습니다.

이번에도 info()함수를 이용하여 데이터 프레임 형태에 대해서 확인해보겠습니다.

종가 기준으로 시각화 해보기
자 이렇게 뽑은 데이터 들을 시각화 해보겠습니다.
GE (General Electric) 기업의 종가 기준으로 시각화를 해보겠습니다.
df.Close.GE.plot(figsize = (12, 8))
plt.show()

이 데이터 에서 20년 6월 이후로 데이터를 필터링 하여 시각화 해보겠습니다.
df.loc["2020-06":, ("Close", "GE")].plot(figsize = (12, 8))
plt.show()

이번에는 20년 6월달 데이터만 시각화 해보겠습니다.
df.loc["2020-06", ("Close", "GE")].plot(figsize = (12, 8))
plt.show()

이렇게 loc 함수를 이용하여 데이터를 쉽게 필터링 할 수 있어 편리하게 시각화 할 수 있었습니다.
이만 여기까지 pandas datareader 라이브러리를 이용한 데이터 로딩 및 시각화 하기에 대한 포스팅이었습니다.
'Data Scientist > Python' 카테고리의 다른 글
[파이썬] Customizing Plotly Chart (0) | 2022.05.23 |
---|---|
[파이썬] Daily 수익률 표준 편차와 누적 수익률과의 관계 확인 (0) | 2022.05.22 |
[파이썬] 비트코인 자동매매 전략 Study(가격, 거래량 기반 전략)-백테스팅 (2) | 2022.04.25 |
[파이썬] 비트코인 자동매매 전략 Study(가격, 거래량 기반 전략)-전략수립 (0) | 2022.04.17 |
자동매매 개발 관련 로그 수익률 사용 이유 (0) | 2022.04.12 |