2015년 기준 ... 정리했었던 Big Data Trend... 과연 지금은?
요즘 옛날 구 Blog에서 한창 이사 중이다.
블로그 이사도, 대행업체가 있으면 좋으련만 ㅋㅋㅋ
그러다 2015년도에 Big Data Trend 관련 Blogging을 해놓았던 글을 발견했다.
4년이 지난 지금 Big Data는 과연 어디쯤 와있을까?
그때의 내 생각이 대충 맞았을까? 아닐까?
한번 아래의 기록을 기준으로 비교해보았다.
현재기준의 Comment는 퍼어런 색상으로 해서 적어보았다.
---------------------------아래 부터 2015년 적은 원글 ---------------------------------------------------------------------
Big Data Trend..... 불고있는 바람?
한동안 Big Data의 새로운 기술, 동향을 조사하고자 하는 노력이 뜸했다.
-> 다행인지 불행인지, 4년이 지난 지금 나는 여전히 회사에서, Big Data를 조사하고 검토하고 있다 ㅎㅎㅎ
Big Data가 한없이 뜨거웠던 2012년이 가고...
2013년, 2014년 초까지 본격적으로,
기업들이 Big Data에 관심을 가지며 POC를 진행하고 도입 타당성을 검토하였다.
-> 국내(한국) 기준 도입/활용 사례가 많이 늘긴 했다... 특히 AWS, Google Cloud가 확산되면서, 수요가 점점 증가추세..
이러한 성장기를 지나 비로소 그 실체가 어느정도 윤곽이 잡혀가고 더 이상의 괄목할만한 새로운 개념이 나오지 않았기 때문에..
나 또한 관심에서 멀어진 것인가 보다.
최근 2015년도 사업 계획에 대한 내용을 작성하며, 문득 생각이나 다시금 Big Data Trend를 검색하다가 CIOBIZ에서
'빅데이터 분야에 부는 8가지 바람' 글을 보게 되어, 나의 생각을 정리해본다.
(기사 원문 :http://www.ciokorea.com/news/22762 )
* 해당 기사에서 제시하는 Big Data의 8가지 Trend별 생각 정리
1. 클라우드에서의 빅데이터 애널리틱스
- Big Data 특성상 대규모 Storage Infra를 필요로 하는 부분 때문에 Data Center를 가진 회사들이
Cloud 형태의 Big Data 분석 서비스를 제공하고 있고 이러한 부분은 기업 내 자연스럽게 정착될 것이라 생각.
빠른 Delivery를 요구하는 요즘 사회에 자연스러운 흐름이고 시기의 문제이지. 미래의 기술이 될 것인가? 아닌가의 문제가 아니라고 생각.
현재는 대부분의 서비스가 단기성으로 보았을 때 On-premise보다 고가이고, 보안성에 대한 확신이 정착되지 않아 아주 활성화되고 있지는 않은 것으로 보임.
-> 현재 본인도 회사에서 Cloud 전환 프로젝트에 참여하고 있음.... 장기적인 관점에서의 비용 체계 유연성, 빠른 적용가능,
자연스러운 Infra outsourcing화, Big Data 저장 수요 등이 합쳐져서 대부분의 기업이 Cloud 기반으로 환경을 전환하는 것은 시간 문제일 뿐
거스를 수 없는 Trend가 될 것 같다. 다만 Cloud 공급자 경쟁 체제가 AWS, Google로 편중이 되었고, 이것을 후발주자가 도저히 따라잡지는
못하는 그림이다.... (선택지가 별로 없음.. 그런데 굳이 그래도 상관없는 느낌?)
2. 하둡: 새로운 엔터프라이즈 데이터 운영체제로 부상
- 여전히 하둡은 뜨겁다. 이미 성숙기로 가고 있는 기술이라고 생각. 당사도 언젠가는 도입하지 않을까?
-> 지금 시점에서는 Hadoop은 Hadoop이지만, Nice to have이지 필수가 아닌 플랫폼이라는 생각이 든다. Hadoop가 유사한 file system 방식의
저장소를 많은 Cloud 공급자들이 내놓고 있고, 물론 Hadoop Paas Service 또한 제공을 하지만 굳이 Hadoop을 쓸필요가 없을 정도로
선택지가 많아졌다. 그리고 Hadoop또한 Log분석과 같은 비정형/반정형의 Big Big Data 분석시에만 유용한 것 같고, 만병통치약은 아닌 것
같다는 생각이 든다.
3. 빅 데이터 호수(Big data lakes)
- 대규모 비정형 Data 처리 기술이 확산되면서 생겨난 개념인이다. 다양한 형태의 Data들을 한 곳에 통관리 하는데 효율적인 형태를 가진 DB의 개념이
이 Big Data lakes가 아닌가 싶다.
이러한 DB들은 미리 스키마를 치밀하게 설계하여 Data를 맞춰 넣어 사용하는 것이 아니라 자유도가 높은 유연한 형태의 스키마를 정해놓고
여러 형태의 Data를 해당 스키마로 변형시켜서 통합관리할 수 있는 환경을 제공함.
-> Data Lake 개념이 나왔을때, 솔직히 긴가민가 이게 뭔가 했었다..
사실 뭐 좋은 개념이지만 Data Lake란것도 본인은 말장난이라 생각하는데, 옛날 DW (data Warehouse) 개념이 확장된 형태라고 생각한다.
DW 개념에다가 + 다양한 형태의 Data(비정형/반정형에 관련된 Source들) + 외부 Data 개념이 추가된 것이라 보면 된다.
Big Data 시대의 wanna be Enterprise 분석 환경 구성이기 때문에 많은 기업들이 수행/고려를 하고 있다. 심지어 본인도... 회사에서 수행인력으로..
4. 예측 분석 적용의 확대
- 예측 분석은 새로운 개념은 아니고... 시뮬레이션과 같은 분석으로 변수에 따른 결과 예측. 처리 기술의 발전에 따라 더 완성도가 높아졌다는 이야기를 하고 있음
-> 여기에 추가된 것은 AI/머신러닝이다. 알파고 붐이 일어나고... 그 이후 AI/머신러닝에 대한 관심이 급증하면서,
해당 알고리즘을 활용한 예측분석에 대한 시도가 증가 추세다.
물론 해당 기술을 통해 의미 있는 Output을 내고 있는 곳은 몇몇 특별한 업종 뿐인 것 같지만... (개인화된 추천, 사기 탐지 등)
개인적으로 기대감이 큰 분야이다.
5. 더 빠르고 우수해지는 하둡의 SQL
- SQL on Hadoop 이야기인 듯 한데... 여전히 Hive를 기본으로 해서 클라우데라의 Impala가 많이 사용되는 듯.
EMC Pivotal 제품 언급도 보이고.. IBM, 것도 성능이 좋다는데, Big SQL 같은 것 확인 필요.
-> 딱히 중요한 개념은 아니었다 생각. SQL on ~~ 은 특수 개념이라기 보다는 Big Data Platform 기술들에 보편화되버린 것 같다.
6. 더 풍부하고 좋아진 NoSQL
- NoSQL도 여전히 뜨겁고... 안본 새 ArangoDB 란 것도 떠오르는 듯. 여전히 MongoDB가 강세가 아닐까 생각해본다.
-> NoSQL도.. 이제보니 무조건 사용해야 된다는 아닌 정도.... 모르겠다. 내가 아직 비정형 Data를 아주 많이 다룰 기회가 없어서 그럴지도..
7. 딥러닝(Deep Learning)
- 신경망 기반 머신 러닝의 발전된 개념이라고 한다. 컴퓨터가 특정 모델이나 프로그램 명령없이 대량의 데이터에서 관심 대상을 인식해 관계를
추론한다고하는데,알고리즘의 발전은 계속 되는 것 같다.
-> 위 예측분석 항목에서 언급했지만, 매우 중요한 개념이고 앞으로도 발전할 가능성이 많다고 생각한다. 최근에는 나아가 XAI (설명가능한 AI)
등의 개념까지 나오고 있다.
8. 인-메모리 애널리틱스
- 한참 화제가 되었던, In-memory DB를 통해 빠른 처리 속도를 제공한다는 부분.
실제로 당사는 In-memory DB를 탑제한 Endeca 제품을 도입하였으나, Memory라는 부분에 한계가
있는 것은 확실 하다. (대규모 데이터의 처리 등)
만능이라는 생각을 버리고 용도에 맞게 사용하는 것이 가장 중요하다고 생각.
-> Cloud 시대가 도래하면 In-memory도 뭔가 고객이 꼭 고려를 해야하는 중요한 Trend는 아니게 되어 버린 것 같다.
사용자 입장에서는 In-memory든 뭐든 신경안쓰고 성능이 빠르기만 하면 되니까.... 중요 Trend라고 할만한 개념은 아니게 된듯..