삶의 공유
[Python활용]텍스트 마이닝 - 데이터 수집 본문
텍스트 마이닝 과정 중 하나인 데이터 수집 사이트에 대한 정보에 대해서 공유해보고자 이 포스팅을 작성해본다.
[미국]
1. Kaggle
: 데이터 과학 competition으로 유명한 kaggle의 데이터 저장소
https://www.kaggle.com/datasets
> 장점 : 공신력이 많은 기관들이 올려 데이터가 많다
> 단점 : 영어, 데이터를 차장보기 힘들다.
2. UC Irvine
: UC Irvine 대학의 machine learning을 위한 데이터 저장소
• https://archive.ics.uci.edu/ml/index.php
> 장점 : 연구용으로 데이터가 올라와 가공된 형태
> 단점 : 오래됨, 영어
3. Ana Cardoso Cachopo's Hompage
: 논문연구에서사용할수있는분류용테스트데이터
• http://ana.cachopo.org/datasets-for-single-label-text-categorization
4. Fast.ai
: 딥러닝 학습용 대용량 데이터
• https://course.fast.ai/datasets
[한국]
1. LG CNS
: 한국어 질의 응답 데이터
> leaderboard 내가 작성한 데이터가 점수가 몇점인지 집계 해준다는 특징이 있다.
2. 국립국어원
: 국립 국어원에서 공개한 세종 코퍼스
• https://ithub.korean.go.kr/user/guide/corpus/guide1.do
> 장점 : 공식 국가 기관이 많들었다, 데이터 양이 많다
> 단점 : 다운로드 받기가 쉽지 않다.
3. Konlpy
: 파이썬 한국어처리 라이브러리 konlpy에서 제공하는 데이터
• https://konlpy-ko.readthedocs.io/ko/v0.5.1/data/
> 장점 : 사용하기 편한다.
> 단점 : 데이터 양이 많지 않다
4. ETRI
: ETRI에서 공개한 언어 처리 학습 데이터
• http://aiopen.etri.re.kr/service_dataset.php
> 장점 : 데이터 양이 많다
> 단점 : 다운로드 받기가 어렵다.
이상으로 텍스트 마이닝 과정에서 데이터 수집을 하기 위한 미국과 한국의 사이트를 알아보았다!
'Data Scientist > Python' 카테고리의 다른 글
[Python활용] 텍스트 마이닝 - 네이버 API 이용신청 (0) | 2022.01.04 |
---|---|
[Python 기초] Pandas(dataframe만들기, CSV/HTML로 Data 불러오기) (0) | 2022.01.04 |
[Python기초] Numpy A to Z (0) | 2022.01.02 |
[금융데이터분석] 파이썬이용하여 코스피 대장주 찾기 Project(Final) (0) | 2021.12.22 |
[금융데이터분석] 파이썬이용하여 코스피 대장주 찾기 Project-3(주가 DB저장) (0) | 2021.12.22 |