데이터과학 입문

02. 데이터 수집 - 오픈 데이터

newness 2022. 5. 4. 12:30

오픈데이터

누구나 활용할 수 있도록 데이터를 만들어 공개한 것

 

사례

1) 국가통계포털(https://kosis.kr)

2) 머신러닝 알고리즘 벤치마크 목적으로 공개한 데이터

 - 어바인 대학 머신러닝 저장소 / UC Irvine Machine Learning Repository(https://archive.ics.uci.edu/ml/index.php)

3) 특정 분야의 오픈형 데이터베이스

 - IMDB 영화 데이터베이스(https://www.imdb.com/interfaces)

4) 데이터 과학 연구, 수행 수준 진단을 위한 서비스

 - Kaggle(https://www.kaggle.com)

 - Deep Analytics(https://deepanalytics.jp)

 

 

데이터 수집 예시: 국가통계포털

국가통계포털(KOSIS)

'국가통계포털' 서비스는 사회 다양한 분야의 통계자료를 제공한다. 위 화면은 [기관별 통계 > 한국교육개발원 > 대학 개황] 을 조회한 화면이다.

 

 

데이터 수집 예시: IMDB

IMDB

IMDB는 Internet Movie Database의 약자이다. Amazon.com의 자회사이며, 전 세계에서 가장 큰 영화 사이트로 알려져있다. 작품의 국적에 상관없이 모든 영화 정보를 찾을 수 있다.

 

IMDB는 데이터베이스를 오픈하고 있으며 누구나 내려받을 수 있다. 아래 이미지는 IMDB 영화 정보 중 Title에 대한 정보이다.

 

 

국가통계포털과 IMDB가 제공하는 데이터에는 다음의 차이가 있다.

국가통계포털에서 제공하는 콘텐츠는 열람하는 사람이 쉽게 정보를 이용할 수 있도록 데이터를 가공된 자료이다.

자료(Data)를 가공하여 정보(Information) 형태로 제공하기 때문에 이용이 편리하다.

다만, 정보 이전의 로우 자료 형태를 공개하지는 않아 열람자(연구자)가 목적에 따라 분석하는데는 한계가 있을 것이다.

 

IMDB에서 제공하는 콘텐츠는 자료(Data) 형태이며, 열람하는 사람이 가공하여 정보를 만들 수 있다.

영화 검색이 본 서비스의 목적이기 때문에 로우 데이터를 유지하는 것이 유리할 것이다.

IMDB가 제공하는 것 처럼 로우 데이터 자료는 분석을 수행하는 사람의 의도를 반영하여 가공하거나 분석하기 원활하다.

'데이터과학 입문' 카테고리의 다른 글

05. 논리 연산(로직 게이트)  (0) 2022.05.04
01. 데이터 과학 입문  (0) 2022.05.03