Data Scientist/Python

[Python활용]텍스트 마이닝 - 데이터 수집

dkrehd 2022. 1. 2. 23:24
728x90
반응형

텍스트 마이닝 과정 중 하나인 데이터 수집 사이트에 대한 정보에 대해서 공유해보고자 이 포스팅을 작성해본다.

   

[미국]

 

 1. Kaggle    

   : 데이터 과학 competition으로 유명한 kaggle의 데이터 저장소 

  https://www.kaggle.com/datasets

 

Find Open Datasets and Machine Learning Projects | Kaggle

Download Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion.

www.kaggle.com

   >  장점 : 공신력이 많은 기관들이 올려 데이터가 많다

   >  단점 : 영어, 데이터를 차장보기 힘들다.

     

2. UC Irvine

  : UC Irvine 대학의 machine learning을 위한 데이터 저장소

https://archive.ics.uci.edu/ml/index.php 

 

UCI Machine Learning Repository

Welcome to the UC Irvine Machine Learning Repository! We currently maintain 622 data sets as a service to the machine learning community. You may view all data sets through our searchable interface. For a general overview of the Repository, please visit ou

archive.ics.uci.edu

    > 장점 : 연구용으로 데이터가 올라와 가공된 형태

    > 단점 : 오래됨, 영어

     

3. Ana Cardoso Cachopo's Hompage

 : 논문연구에서사용할수있는분류용테스트데이터 

http://ana.cachopo.org/datasets-for-single-label-text-categorization 

 

Ana Cardoso Cachopo's Homepage - Datasets for single-label text categorization

Here you can find the Datasets for single-label text categorization that I used in my PhD work. This is a copy of the page at IST. This page makes available some files containing the terms I obtained by pre-processing some well-known datasets used for text

ana.cachopo.org

 

4. Fast.ai   

 : 딥러닝 학습용 대용량 데이터

https://course.fast.ai/datasets

 

fast.ai Datasets | Practical Deep Learning for Coders

In machine learning and deep learning we can’t do anything without data. So the people that create datasets for us to train our models are the (often under-appreciated) heros. Some of the most useful and important datasets are those that become important

course.fast.ai

 

 

반응형

 

 

[한국]

 

1. LG CNS

  : 한국어 질의 응답 데이터

https://korquad.github.io/

 

KorQuAD

What is KorQuAD 2.0? KorQuAD 2.0은 KorQuAD 1.0에서 질문답변 20,000+ 쌍을 포함하여 총 100,000+ 쌍으로 구성된 한국어 Machine Reading Comprehension 데이터셋 입니다. KorQuAD 1.0과는 다르게 1~2 문단이 아닌 Wikipedia artic

korquad.github.io

 > leaderboard 내가 작성한 데이터가 점수가 몇점인지 집계 해준다는 특징이 있다.

 

 

2. 국립국어원

 : 국립 국어원에서 공개한 세종 코퍼스

https://ithub.korean.go.kr/user/guide/corpus/guide1.do 

   > 장점 : 공식 국가 기관이 많들었다, 데이터 양이 많다

   > 단점 : 다운로드 받기가 쉽지 않다.

 

3. Konlpy

 : 파이썬 한국어처리 라이브러리 konlpy에서 제공하는 데이터

https://konlpy-ko.readthedocs.io/ko/v0.5.1/data/

 

데이터 — KoNLPy 0.5.1 documentation

세종 말뭉치로 만들어진 CSV 형태의 사전. (346MB) 컴파일 된 사전은 /usr/local/lib/mecab/dic/mecab-ko-dic (또는 MeCab 설치시 지정한 경로)에 있으며, 원본 사전은 소스코드 에서 확인하실 수 있습니다. CoinedW

konlpy-ko.readthedocs.io

    > 장점 : 사용하기 편한다.

    > 단점 : 데이터 양이 많지 않다

 

4. ETRI

 : ETRI에서 공개한 언어 처리 학습 데이터

 • http://aiopen.etri.re.kr/service_dataset.php

 

공공 인공지능 오픈 API·DATA 서비스 포털

과학기술정보통신부의 R&D 과제를 통해 개발한 다양한 인공지능 기술 및 데이터를 누구나 사용할 수 있도록 제공

aiopen.etri.re.kr

   > 장점 : 데이터 양이 많다 

   > 단점 : 다운로드 받기가 어렵다. 

 

이상으로 텍스트 마이닝 과정에서 데이터 수집을 하기 위한 미국과 한국의 사이트를 알아보았다!

반응형