삶의 공유
[Python활용]텍스트 마이닝 - 데이터 수집 본문
텍스트 마이닝 과정 중 하나인 데이터 수집 사이트에 대한 정보에 대해서 공유해보고자 이 포스팅을 작성해본다.
[미국]
1. Kaggle
: 데이터 과학 competition으로 유명한 kaggle의 데이터 저장소
https://www.kaggle.com/datasets
Find Open Datasets and Machine Learning Projects | Kaggle
Download Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion.
www.kaggle.com
> 장점 : 공신력이 많은 기관들이 올려 데이터가 많다
> 단점 : 영어, 데이터를 차장보기 힘들다.
2. UC Irvine
: UC Irvine 대학의 machine learning을 위한 데이터 저장소
• https://archive.ics.uci.edu/ml/index.php
UCI Machine Learning Repository
Welcome to the UC Irvine Machine Learning Repository! We currently maintain 622 data sets as a service to the machine learning community. You may view all data sets through our searchable interface. For a general overview of the Repository, please visit ou
archive.ics.uci.edu
> 장점 : 연구용으로 데이터가 올라와 가공된 형태
> 단점 : 오래됨, 영어
3. Ana Cardoso Cachopo's Hompage
: 논문연구에서사용할수있는분류용테스트데이터
• http://ana.cachopo.org/datasets-for-single-label-text-categorization
Ana Cardoso Cachopo's Homepage - Datasets for single-label text categorization
Here you can find the Datasets for single-label text categorization that I used in my PhD work. This is a copy of the page at IST. This page makes available some files containing the terms I obtained by pre-processing some well-known datasets used for text
ana.cachopo.org
4. Fast.ai
: 딥러닝 학습용 대용량 데이터
• https://course.fast.ai/datasets
fast.ai Datasets | Practical Deep Learning for Coders
In machine learning and deep learning we can’t do anything without data. So the people that create datasets for us to train our models are the (often under-appreciated) heros. Some of the most useful and important datasets are those that become important
course.fast.ai
[한국]
1. LG CNS
: 한국어 질의 응답 데이터
KorQuAD
What is KorQuAD 2.0? KorQuAD 2.0은 KorQuAD 1.0에서 질문답변 20,000+ 쌍을 포함하여 총 100,000+ 쌍으로 구성된 한국어 Machine Reading Comprehension 데이터셋 입니다. KorQuAD 1.0과는 다르게 1~2 문단이 아닌 Wikipedia artic
korquad.github.io
> leaderboard 내가 작성한 데이터가 점수가 몇점인지 집계 해준다는 특징이 있다.
2. 국립국어원
: 국립 국어원에서 공개한 세종 코퍼스
• https://ithub.korean.go.kr/user/guide/corpus/guide1.do
> 장점 : 공식 국가 기관이 많들었다, 데이터 양이 많다
> 단점 : 다운로드 받기가 쉽지 않다.
3. Konlpy
: 파이썬 한국어처리 라이브러리 konlpy에서 제공하는 데이터
• https://konlpy-ko.readthedocs.io/ko/v0.5.1/data/
데이터 — KoNLPy 0.5.1 documentation
세종 말뭉치로 만들어진 CSV 형태의 사전. (346MB) 컴파일 된 사전은 /usr/local/lib/mecab/dic/mecab-ko-dic (또는 MeCab 설치시 지정한 경로)에 있으며, 원본 사전은 소스코드 에서 확인하실 수 있습니다. CoinedW
konlpy-ko.readthedocs.io
> 장점 : 사용하기 편한다.
> 단점 : 데이터 양이 많지 않다
4. ETRI
: ETRI에서 공개한 언어 처리 학습 데이터
• http://aiopen.etri.re.kr/service_dataset.php
공공 인공지능 오픈 API·DATA 서비스 포털
과학기술정보통신부의 R&D 과제를 통해 개발한 다양한 인공지능 기술 및 데이터를 누구나 사용할 수 있도록 제공
aiopen.etri.re.kr
> 장점 : 데이터 양이 많다
> 단점 : 다운로드 받기가 어렵다.
이상으로 텍스트 마이닝 과정에서 데이터 수집을 하기 위한 미국과 한국의 사이트를 알아보았다!
'Data Scientist > Python' 카테고리의 다른 글
[Python활용] 텍스트 마이닝 - 네이버 API 이용신청 (0) | 2022.01.04 |
---|---|
[Python 기초] Pandas(dataframe만들기, CSV/HTML로 Data 불러오기) (0) | 2022.01.04 |
[Python기초] Numpy A to Z (0) | 2022.01.02 |
[금융데이터분석] 파이썬이용하여 코스피 대장주 찾기 Project(Final) (0) | 2021.12.22 |
[금융데이터분석] 파이썬이용하여 코스피 대장주 찾기 Project-3(주가 DB저장) (0) | 2021.12.22 |