본문 바로가기
Code4Human/친근한 IT 상식

웹의 발전과 빅데이터의 등장 - 오픈소스의 위력

by 코드포휴먼 2019. 10. 22.

빅데이터(big data)란 기존의 관리 방법이나 분석체계로는 처리하기 어려운 막대한 양의 정형 또는 비정형 데이터 집합이다. 빅데이터는 현실이 되어가고 있다. 빅데이터는 어떻게 등장한 것일까?

 

 

하둡의 등장

빅데이터가 등장하는데 가장 큰 공헌을 한 것은 하둡(Hadoop)의 등장이다. 코끼리를 로고로 한 하둡은 오픈소스 프로그램이다. 참고로 하둡의 로고는 하둡 개발자의 아들이 갖고 놀던 하둡이라는 코끼리 장난감에서 따왔다고 한다.  

 

오픈소스 기술은 과거에 소프트웨어는 공유되고 같이 발전해야 한다는 공유 정신에서 비롯됐다. 소스를 공개하고 같이 수정하며 더 좋은 프로그램을 만들자는 취지인 것이다. 하둡은 하나의 오픈소스로서 더그 커팅(Doug Cutting)에 의해 만들어졌다. 원래 야후 개발자였는데 구글의 분산 데이터 처리 시스템을 이용해 오픈소스 프레임으로 개발했다. 

 

그런데 왜 하둡이 빅데이터를 진흥시킨 것일까. 데이터가 워낙 방대해 졌기 때문에 하나의 컴퓨터에서 처리가 불가능하다. 수많은 컴퓨터들이 데이터를 처리해야 한다. 하둡은 분산된 데이터베이스를 통합해서 분석하고 원하는 정보를 추출하는 분석도구다. 분산 데이터베이스에 분산된 데이터들을 모아 실시간으로 분석할 수 있다. 하둡이 등장하기 이전에는 분석도구, 즉 데이터마이닝 도구들이 굉장히 고가였다. 그리고 데이터를 분석하는 일은 데이터분석가만 할 수 있었고 이에 많은 비용이 들어갔다. 일단 돈이 많이 들어가면 대중화 될 수 없다.  

 

기존에는 회사에서 데이터웨어하우스를 구축하고, OLAP 도구를 이용해서 분석하려면 데이터 분석 전문가에게 의뢰해야 한다. 비용도 만만치 않고 시간이 얼마나 걸릴지도 모른다. 기업들은 정말 필요한 일이 아니고서야 데이터 분석을 하지 않았다. 그러나 이제는 하둡에 의해 비용절감이 생겼을 뿐만 아니라 일반 IT 전문가들도 데이터 분석을 할 수 있게 됐다. 이때부터 빅데이터라는 용어가 생겨났다. 

 

 

더보기

구글은 기술 자체를 팔지 않는다. 기술과 제품이 아닌 서비스를 판매한다. 기술은 같이 발전시켜 나가자는 것이 구글의 모토다. 무엇인가 만들어내면 기술을 공개하며 안드로이드가 그 예다. 구글은 안드로이드라고 하는 스마트폰 운영체제를 만들었고 오픈소스로 공개했다. 안드로이드가 있었기 때문에 삼성과 같은 휴대폰 기업이 이용을 할 수 있었다. 

반면에 마이크로소프트는 오픈소스를 추구하지 않는다. 소스 프로그램을 공개하지 않고 상용 프로그램을 만들어서 판매를 한다. 마이크로소프트, 애플 같은 회사들은 자신들의 기술과 제품을 판다.  

 

 

도 같은 선상에 있다. 1990년대부터 2000년대 초반까지는 웹 2.0 시대라고 한다. 웹 2.0의 발전은 리누스 토발즈(

Linus torvalds)라는 사람이 오픈소스로 공개한 리눅스(LINUX) 운영체제 덕분이었다. 

 

그전까지는 1970년대에 대형컴퓨터용 운영체제 유닉스(UNIX)가 만들어져서 발전돼왔다. 유닉스와 비슷하게 PC에서 그대로 사용할 수 있게 만들어보자고 대학생 리누스 토발즈가 리눅스를 개발했다. 그리고 리눅스는 오픈소스로 공개됐다. 리누스 토발즈가 개발하고 리차드 스톨만이 발전시켜 왔다.  

 

리눅스는 일반 PC용 운영체제라기 보다는 서버용 운영체제다. 만약 리눅스가 없었다면 유닉스나 마이크로소프트의 고가의 서버 프로그램을 사용해야 한다. 그러면 지금과 같이 웹 서버가 많아지지 않았을 것이다. 전세계에 있는 수많은 웹 서버들이 리눅스를 이용하고 있다. 많은 회사가 서버를 구축하고 홈페이지를 만들 수 있었고, 인터넷에 수없이 많은 웹 서버들이 생기며 지금의 정보의 바다가 형성된 것이다. 

 

 

IT 교육분야의 유수 강사님이 정리한 표

IT의 발전은 마이크로소프트나 애플과 같은 회사가 주도한 것처럼 보이지만 그 뒷면에는 오픈소스의 영웅들이 있었기 때문에 존재했다. 단순히 돈만 추구했다면 지금의 웹 시대와 빅데이터는 없거나 긴 시간이 지나야했을 것이다.

 

이제부터 시작이다. 현재 야후나 네이버에서는 하둡을 이용해서 이용자들이 검색하거나 활동한 기록을 분석하고 있다. 앞으로 웬만한 기업들이 하둡 소프트웨어를 설치하고 데이터를 처리하며 분석할 것이다. 과거에는 하드디스크가 워낙 비싸서 데이터 저장하다가 삭제를 반복했다. 지금은 10만 원 남짓하는 하드디스크가 수백만 원이었다. 이제는 데이터들을 쌓고 분석해서 의미 있는 결과를 뽑아낼 것이다. 

 

 


출처 유투브 eduon <정보처리 실기_데이터베이스13강_데이터베이스의 현재와 미래>

https://youtu.be/upO__F03HFc

정보처리기사 자격증 공부를 하면서 들었던 유수 강사님의 강의에서 인상 깊은 내용을 정리해보았다.  

한편으로 컴퓨터과학을 공부하면서 많은 도움을 받았는데, 아무런 대가 없이 서로 도와주고 공유하는 모습에 감동을 받았다. 그래서 오픈소스의 정신에 매력을 느꼈다. 

댓글