빅데이터(Big Data)란? [4차 산업혁명]

반응형

이전 포스팅에서는 사물 인터넷(IoT)의 개념과 적용된 실제 사례에 관해서 설명했는데요. 이번에도 4차 산업혁명에서 항상 거론되고 있는 것 중 빅데이터(Big Data)에 대해 알아보겠습니다.


빅데이터 정의는 과거 아날로그 시대에서 생성되는 데이터와는 많이 차이를 보인다. 그 규모가 굉장히 방대하고, 생성 주기도 짧고, 형태에서도 이전의 수치 데이터뿐만 아니라 영상과 문자데이터를 포함하는 데이터를 우리는 빅데이터라고 부른다.


빅데이터의 생성 배경은 정보화 시대로 넘어오면서 많은 사람이 점점 PC와 스마트폰과 같은 모바일 기기를 사용하면서부터 빅데이터의 생성이 시작되었습니다. 현재는 PC나 모바일 기기를 사용하지 않는 사람이 없을 정도로 대중화가 되었습니다. 이 모든 사람들이 각자가 원하는 스타일대로 인터넷상의 검색/사이트 이용/소비 패턴(행동)등이 데이터가 되고 있습니다. 자세히 설명하자면 이용자들이 검색하는 단어를 분석하여 해당하는 분야와 어떤 정보에 관심이 있는지 또 어떤 소비 패턴(행동)들을 보이는지를 자료화 시켜 이 정보를 토대로 많은 산업에 활용하게 되었습니다. 또한, 현재에는 사물 인터넷(IoT)이 점점 생태계 속에 어우러지면서 디지털 정보 또한 급속도로 퍼졌고 그 모든 데이터가 모여 빅데이터가 되는 것이다.


빅데이터의 특징은 3V로 표현이 된다. Volume은 데이터의 양 즉, 규모를 뜻하는데요. 크기는 일반적으로  테라 바이트 단위에서 혹은 페타바이트 이상의 큰 대규모의 데이터 속성을 뜻합니다. Velocity는 데이터의 입출력 속도를 뜻합니다. 데이터는 매우 빠른 속도로 생성되며, 생성된 대용량의 데이터를 저장하고, 유통하며, 수집과 분석 처리가 가능하기 위한 속도를 의미합니다. Variety는 데이터의 다양성을 의미하며, 다양한 종류의 데이터가 있습니다. 정형화의 종류에 따라 정형, 반정형, 비정형 데이터로 구분할 수 있습니다. 또한, 오늘날에는 3V가 아닌 5V 특징을 가지게 되었는데요. 추가적으로 vercity(정확성)는 데이터의 정확성을 의미하며, Value(가치)는 데이터의 가치를 뜻합니다. 이는 일반적으로 기준이 없이 모인 데이터가 아닌 주제와 일치하는가에 대한 데이터 정확성과 또 그 데이터가 얼마나 가치 있게 활용될 수 있느냐의 가치성을 의미합니다.


빅데이터의 플랫폼 빅데이터를 수집(내부/외부 데이터로 구분하여 수집), 처리, 저장, 관리하여 지식 시각화를 위해 사용되는 것입니다. 즉 기업들은 빅데이터를 안정적이고 일련의 과정들을 이용하여 좀 더 가치 있고 사용자가 원하는 정보를 이 플랫폼 기반을 통해서 만들어 낸다고 볼 수 있습니다.


빅데이터 처리 방법에는 가장 널리 알려진 아파치 하둡(Apache Hadoop)과 같은 Map Reduce 방식의 일괄처리 기술이 있습니다. 빅데이터의 분석 기술에는 텍스트 마이닝과 오피니언 마이닝, 군집 분석 등이 있다.


빅데이터의 중요성은 크게 두 가지가 있습니다. 첫 번째는 위에서 언급한 5V의 특징을 갖춘 빅데이터를 분석하고 활용한다면 기존의 회사 재정 문제나 마케팅에 대한 해결책을 도출해 낼 수 있다는 점입니다. 이유는 빅데이터의 의미가 생기기 전 데이터들은 정확성이나 규모, 가치 등 여러 가지 특징들의 경계가 모호했습니다. 그래서 정확히 분석할 수 없었던 반면에 빅데이터는 5V의 특징을 이용해 수집 된 정확하고 가치 있는 데이터이기 때문에 목적에 맞게 활용한다면 기존 문제점의 해결책이 될 수 있습니다. 두 번째는 머신러닝을 통한 인공지능의 기초가 되기 때문입니다. 컴퓨터 스스로가 방대한 데이터를 수집, 학습할 수 있다는 점입니다.


머신러닝이란 무엇인가요? 컴퓨터 즉, 기기 자체가 스스로 데이터를 수집하고 분석하며 학습하는 것을 뜻합니다. 머신러닝과 빅데이터를 합쳐서 탄생한 용어가 바로 인공지능입니다. 예를 하나 들어보겠습니다. 여러분들 알파고 알고 계십니까? 알파고가 세계 최고의 바둑 기사 이세돌 씨를 무려 5전 4승 1패인 압도적인 전적을 보유하고 있습니다. 앞으로의 머신러닝은 빅데이터와 조합하여 인간을 월등하게 능가할 수준의 능력을 갖출 것으로 전망되고 있습니다. 머신러닝에 대해 이해가 되셨나요?


오늘은 대규모의 정형/비정형 데이터인 빅데이터에 대해 상세히 알아보았는데요. 필자 또한 포스팅을 하면서 몰랐던 사실도 알게 되었고, 4차 산업 혁명의 중요성을 절실히 깨닫게 되는 것 같습니다. 다음 포스팅에서도 4차 산업혁명과 관련된 용어로 찾아뵙겠습니다. 감사합니다.

반응형

댓글

Designed by JB FACTORY