목록Data Scientist (44)
삶의 공유
지난 포스팅에 이어서 이번 포스팅에서도 Pandas 라이브러리의 응용과정을 알아보겠습니다. 앞 포스팅을 안보셨던 분들은 아래 링크 클릭 해주시면 됩니다! https://wg-cy.tistory.com/115 [Python 기초] Pandas(dataframe만들기, CSV/HTML로 Data 불러오기) Pandas Basics 파이썬에서 데이터 분석을 하기 위한 중요한 라이브러리 이고, 파이썬에서의 엑셀 이라고 볼수 있다. 데이터 프레임은 데이터를 행과 열을 이용하여 데이터를 다루는 영역이다. 시리 wg-cy.tistory.com 이번에는 Dataframe을 가지고 지지고 볶고 하는 데이터분석을 위한 기초를 쌓는 과정이라고 보시면 됩니다. 먼저 DataFrame을 만들어보겠습니다. bank_client_..
오늘은 파이썬 텍스트 마이닝을 하기 위한 준비 과정인 "네이버 API 이용 신청" 하기 포스팅 입니다. 1) 아래에 있는 url에 들어갑니다. ※url: https://developers.naver.com/products/service-api/datalab/datalab.md 2) 서비스 API > 데이터 랩에 들어갑니다. 3) 스크롤을 좀 내리다 보면 오픈 API 이용 신청 버튼이 있는데 이것을 클릭합니다. 4) 네이버 로그인을 합니다. 만약 네이버 로그인이 기존에 되어있으면 별도로 이런 과정이 생략됩니다. 5) 이용 약관에 동의 후 다음 스텝으로 넘어갑니다. 6) 휴대폰 인증까지 하면 하기 화면으로 넘어갑니다. 다음 화면에서 사용하고 싶은 API를 선택합니다. 7) 여기서 환경 추가가 중요한데 안드로..
Pandas Basics 파이썬에서 데이터 분석을 하기 위한 중요한 라이브러리 이고, 파이썬에서의 엑셀 이라고 볼수 있다. 데이터 프레임은 데이터를 행과 열을 이용하여 데이터를 다루는 영역이다. 시리즈는 데이터 프레임의 하나의 열, 배열이라고 볼수 있다 처음은 이게 무슨말인지 이해가 안될 수 있다. 하나씩 차근 차근 알아가보자 먼저 판다스 라이브러리를 호출 해보자. 다음과 같이 코드를 작성하면 된다. import pandas as pd 먼저 2개의 리스트를 만들어보자 my_list = ['AAPL', 'AMZN', 'T'] label = ['stock#1','stock#2','stock#3'] [Series] 시리즈는 판다스의 일차원 배열이라고 보면 된다. 이 시리즈는 데이터와 별명을 기반으로 이루어진다..
텍스트 마이닝 과정 중 하나인 데이터 수집 사이트에 대한 정보에 대해서 공유해보고자 이 포스팅을 작성해본다. [미국] 1. Kaggle : 데이터 과학 competition으로 유명한 kaggle의 데이터 저장소 https://www.kaggle.com/datasets Find Open Datasets and Machine Learning Projects | Kaggle Download Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion. www.kag..
Numpy Basic C언어로 만들어진 Python Library중 하나로 배열을 사용할 때 유용하게 쓰일 수 있다. 사용하는 방법은 다음과 같다. 먼저 라이브러리를 호출 하고 별명을 지어서 보다 편리하게 함수를 불러 올수 있다. import numpy as np 자 그럼 이것을 통해 Numpy에 대해서 하나씩 공부해보자 1) 1차원 배열 정의하기 import numpy as np mylist = [10,20,50,60,70] x = np.array(mylist) x 2) 2차원 배열 정의 하기 solution = np.array([[4,6,8,7],[20,5,6,9]]) solution Numpy built in Methods & Function 1) 0~1의 난수 만들기 x = np.random.ra..
주가데이터와 섹터 데이터연계하여 섹터별 등락률 구하기 및 코스피와 비교 1) MySQL에서 섹터 정보 불러오기(sector_info) - 앞서 저장한 MySQL DB에서 섹터 정보를 불러와보자, 전체 코드는 이렇다. import pymysql import pandas as pd # MySQL에서 Investar DB에 접속 conn = pymysql.connect(host='localhost', user='root', passwd='여러분비번', db='여러분DB', charset='utf8') sql = 'SELECT * FROM sector_info' sector_table = pd.read_sql(sql, conn) # sector_info Table을 read_sql()함수로 읽는다. sector..