최신 IT 동향주간기술동향 2012. 4. 11. NoSQL DB 인기도조사, 하둡진영과몽고 DB 의경쟁양상 * 비즈니스인텔리전스 (BI) 전문기업인재스퍼소프트 (Jaspersoft) 가 NoSQL DB 의인기도를알수있는빅데이터지수 (JBDI) 를발표 - 빅데이터는대규모의정형및비정형데이터를분석하는것이므로, 정형데이터를 SQL 쿼리로관리하는관계형데이터베이스관리시스템 (RDBMS) 과달리 SQL 외에다양한쿼리시스템을사용할수있는 NoSQL(Not-Only SQL) DB 를필요로함 - 대표적인 NoSQL DB 로는구글의빅테이블 (BigTable) 클론프로젝트인하둡 (Hadoop) HBase, 페이스북이만들어공개한카산드라 (Cassandra) 등이있으며, 뛰어난확장성과분산처리가가장큰특징 - 대부분의 NoSQL DB 는작업량을복수의머신에분배하고, 자동적인파편화 (Sharding) 를지원하며, 파편화는데이터를여러조각으로분리하고각조각을담당하는머신들을동기화한후, 질의가들어오면해당파편을처리하는머신에실행을지시하는것 - 재스퍼소프트의 BI 소프트웨어는 NoSQL DB 들을포함하여다수의데이터소스들과연결되므로어떤 DB 가빈번히연결되느냐를통해인기도를측정 - 2011 년 1 월부터 2012 년 3 월사이에재스퍼소프트의 NoSQL 커넥터 다운로드수를통해조사한인기도를보면하둡진영, 몽고 DB, 카산드라순서 JBDI 의조사결과의특징은하둡진영의인기도가높아지는반면, 대표적인 NoSQL 데이터베이스로알려진카산드라의인기도가매우낮다는사실 - 단일제품으로보면몽고 DB 의인기도가가장높으나, 하이브 (Hive), H 베이스 (HBase), 에이브로 (Avro) 등하둡진영의인기도를합하면몽고 DB 보다높게나옴 - 하둡진영 3 개제품의인기도를구분해보면, SQL 과보다유사한하이브가 H 베이스보다 50% 가량더많이연결된것을알수있음 (3,682 대 2,360) - 이는빅데이터응용분야의인기가점점높아지고하둡생태계를접하는사람들이늘 * 본내용과관련된사항은정보서비스팀 ( 042-710-1771) 과 크로센트박종훈수석아키텍트 ( 02-2078- 2088) 에게문의하시기바랍니다. ** 본내용은필자의주관적인의견이며 NIPA 의공식적인입장이아님을밝힙니다. 40
최신 IT 동향 어나고있으며, 처음에는진입장벽을낮춰주는보다친숙한도구를찾고있음을시사 - 하둡진영에서에이브로의인기도가상대적으로낮은것은에이브로가데이터집약적인응용분야를위해설계된하둡에맞게시리얼화된포맷이어서 H 베이스나하이브의방법론에비해범용성이떨어지기때문 - 카산드라는하둡진영및몽고 DB 와큰격차로 3 위에랭크된반면, 레디스 (Redis) 는급부상하여카산드라와카우치 DB(CouchDB) 에근접 JBDI 에서단일제품으로가장높은순위를차지한몽고 DB 는 2008 년에 10Gen 이개발한 NoSQL DB 로최근이용이급증 - 10Gen 은벤처캐피탈의후원을받고있는신생기업으로높은기술력을인정받아최근 4 년간급성장하고있으며, 몽고 DB 라는이름은 humongous( 거대한 ) 의철자에서가운데다섯개를따온것으로빅데이터를의미 - 몽고 DB 는오픈소스로개발된문서지향적스토리지로서스키마가없고전체색인을통해다이내믹쿼리를제공하며, 문서저장에가장적합하기도하지만비디오와이미지등여타비구조화데이터처리도가능 - 프로그래밍모델은데이터교환을위해고안된경량의텍스트기반개방형표준인제이슨 (Javascript Object Notation: JSON) 을바이너리로코딩한 BSON - 몽고 DB 의또다른특징은확장성있는아키텍처로서자동적인파편화를이용하여 < 자료 >: Japersoft, 2012. 3. ( 그림 1) 재스퍼소프트의 NoSQL 커넥터인기도 (2011.1.~2012. 3.) 정보통신산업진흥원 41
주간기술동향 2012. 4. 11. 수평적으로규모를확대할수있으며, 몽고 DB 는고가용성, 복구, 퍼포먼스를위해마스터-슬레이브또는 P2P 복제를지원 몽고 DB 는아마존 AWS, VM 웨어, 레드햇등과파트너십을체결하면서사용이급증 - 몽고 DB 는아마존의 AWS 를경유한클라우드를통해배포가가능하며, 10Gen 은지원서비스, 교육, 컨설팅을통해수익을얻고있음 - 이밖에 VM 웨어, 레드햇등과도제휴를맺고있으며, 모든클라우드플랫폼제공업체들이자신들의고객들에게옵션으로몽고 DB 를제공 - 몽고 DB 는현재 400 개이상의고객을확보하고있는데, 특히 1,000 만명의이용자를보유한위치기반체크인서비스포스퀘어가도입하면서유명해지기시작 - 이밖에크레이그스리스트등유수의인터넷기업들이다수이용하고있으나주이용고객은저가하드웨어를이용해고가용성과뛰어난퍼포먼스를추구하는벤처기업들 - 몽고 DB 에관한많은교재가출판되어있고개발자커뮤니티역시빠르게증가하는추세로서, 미국의대표적 IT 취업사이트인인디드닷컴에따르면, 몽고 DB 가 HTML5 에이어현재두번째로인기가높은키워드로부상 그러나최근개발자커뮤니티를중심으로몽고 DB 의성능과안정성에대한문제를제기하기시작 - 2011 년말부터기업용소프트웨어개발자커뮤니티인인포메이션큐 (InfoQ) 를시작으로 취업공고일치율 (%) mongodb 6 4 2 0 2006. 1. 2007. 1. 2008. 1. 2009. 1. 2010. 1. 2011. 1. 2012. 1. < 자료 >: Indeed.com, 2012. 4. 1 현재. ( 그림 2) 인디드닷컴의 IT 취업키워드트렌드순위 42
최신 IT 동향 몽고 DB 개발자커뮤니티와해커뉴스등에서몽고 DB 성능에대한문제제기가증가 - 문제제기는주로몽고 DB 의데이터안정성에대한것으로, 개발자들은몽고 DB 가명성에비해안정성이취약하다고지적 - 몽고 DB 는데이터처리가매우빠르다는점을인정받고있는데, 이는데이터를쓸때메모리에데이터를저장한후백그라운드쓰레드를통해디스크에기록하기때문 - 인메모리 (In Memory) 데이터베이스이용방식은빅데이터처리에있어필수적인기능으로하둡진영역시빠른속도로인해최근빅데이터시장에서주목받고있음 - 영국의 IT 전문지더레지스터는몽고 DB 를실제적용해보니하둡처럼대용량시스템에적합한구조가아닐뿐더러규모확장에한계가있다고지적 - 몽고 DB 의속도는색인크기와메모리에좌우되는데, 메모리가가득차 HDD 로내려가데이터를처리할경우처리속도가급감한다고설명 이에따라 NoSQL 데이터베이스시장에서향후하둡진영과몽고 DB 의위상에변화가생길지관심 - 더레지스터는몽고 DB 개발자를원하는시장의수요가많음에도불구하고, 막상개발자들은몽고 DB 를활용하려하지않으며, 몽고 DB 에서카산드라로이동하려는움직임이눈에띈다고보도 - 또한카산드라외에 H 베이스, 하이브처럼더나은데이터처리능력을보이는하둡진영의오픈소스 NoSQL 들이몽고 DB 의인기를대체할것으로전망 빅데이터시장이아직초기임을감안하면, 결국시장의전개과정에서데이터의특성에따라 NoSQL 제품들도특화되며전문화될수있을것 - RDBMS 의경우도처리하려는데이터의크기와모델에따라데이터베이스들의장단점이있으며, 결국선택은용도에맞게결정되는경향 - 빅데이터시장은빅데이터에대한정의조차아직정립되지않았을정도로이제막시작되었기때문에, 어떤 NoSQL DB 가가장적합하고우수한지는빅데이터시장의전개와성숙도에따라결정될일 - 빅데이터의유형은 SNS 의데이터, 센서데이터, 위치측정데이터등으로다양하기때문에용도별데이터처리에적합하게 NoSQL DB 들이분화해갈것으로예상 - 개발자커뮤니티들은최근몽고 DB 의인기도가높았던이유는개발자들이가장쉽게 정보통신산업진흥원 43
주간기술동향 2012. 4. 11. 접할수있었기때문으로설명하며, 몽고 DB 대신카산드라와 H 베이스등하둡진영에대한관심이높아지고있지만기술적으로는더욱난이도가높다는점을지적 - 또한하둡과같은오픈소스는발전단계에서생각지못한변수가항상발생하기때문에카산드라든하둡이든지속적으로기술발전내용을따라잡으려는노력이중요하지유행에따라기술을선택하는우를범하지말것을충고 (RedMonk, 3. 26 & SYS-CON & Bloter.net, 3. 29.) 44