현장실습 과정중... 비정형데이터에 대해 자료조사 과제가 주어졌다.
핵심? 기본 적인 내용만 정리한 글입니다.
비정형 데이터는
구조가 사실상 없는 데이터로, 비디오, 오디오, 일반 텍스트 등의 형태를 말합니다.
비정형 데이터는 정형 데이터에 상반되는 개념입니다.
비정형 데이터는 최근 빅데이터가 주목을 받기 시작하면서 부각된 데이터 형태인데, 정형 데이터 외의 모든 데이터가 비정형 데이터입니다.
이를테면 이메일 내용과 소셜미디어 포스트, 각종 텍스트 문서, 음원과 이미지, 스마트폰에 기록되는 각종 행동 정보와 기계에서 출력되는 각종 메시지와 로그(log, 기록)등을 말합니다.
기업이 데이터를 분석하기위해서는 여러 곳에 흩어져 있는 데이터를 한곳에 모아야합니다.
일단 분석할 만한 데이터가 있어야 하기 때문인데요,
이러한 분석할 만한 데이터로는 제품 정보, 매출, 고객정보 등이 있습니다.
이런 종류의 데이터들은 텍스트 형태의 어떤 의미인지 명확하게 구분된 데이터이고,
이것을 정형 데이터 라고 부릅니다.
그래서 기업은 이 정형 데이터들을 기업내에 커다란 데이터 저장소를 만들어 모으기 시작했습니다.
이 데이터 저장소를 “데이터 웨어하우스“(데이터 창고) 라고 합니다.
데이터 웨어 하우스에 모인 데이터는
텍스트 기반의 데이터베이스 테이블에 정렬되어 저장된 구조화 된 정형 데이터 입니다.
그리고 이렇게 한번 정리가 된 데이터들을 분석해서
1) 과거 실적 추이를 토대로 향후 실적을 예측하기도 하고
2) 특정 고객층에 잘 팔리는 제품이 무엇인지 분석해서 연관된 제품의 추가 판매 전략을 세우기도 합니다.
데이터 웨어 하우스 기반의 데이터 분석은 꽤 오랫동안 사용되어온 데이터 기반 의사결정의 초기모델이라고 볼 수 있습니다.
그런데 최근에는 정형 데이터 뿐만 아니라 비정형 데이터, 즉 텍스트 형태가 아닌 구조화 되어 있지 않은 데이터들이 폭발적으로 증가했습니다.
이제 데이터분석을 하기위해서는 정형 데이터뿐만 아니라 뭔가 정리되지 않은 비정형데이터들도 함께 분석해야합니다.
그런데 문제는 비정형 데이터는 정형 데이터보다 용량이 크기 때문에 더 커다란 저장공간이 필요한데
기존의 데이터 웨어하우스는 저장공간이 커질수록 비용이 많이 드는 단점이 있습니다.
그리고 데이터 웨어하우스는 주로 정형데이터 분석에 최적화 되어 있기 때문에 비정형 데이터들을 저장하고 분석하는데에는 적합하지 않습니다.
그렇기 때문에 비정형 데이터를 마음껏 저장해서 분석할 수 있는 또 다른 커다란 데이터 저장소의 필요성이 대두되었고 그래서 탄생한것이 바로 데이터 레이크 입니다.
데이터 레이크는 말 그대로 데이터 호수를 의미합니다.
용량이 큰 다양한 유형의 원본 그대로의 비정형 데이터들을 저장할 수 있고
필요할 때 불러와 분석할 수 있는 데이터 저장소 모델 입니다.
그리고 수많은 비정형 데이터를 저장하기 위해 하나의 커다란 데이터 스토리지를 사용하는 것이 아니라 여러대의 데이터 스토리지에 분산 저장하고 이러한 스토리지들을 마치 하나의 파일 시스템 처럼 관리 할 수 있는 특징을 가지고 있습니다.
최근에는 클라우드 기반 오브젝트 스토리지 처럼 거대한 저장소도 제공되긴 하지만 온프레미스 환경에서 고성능 데이터레이크를 구축할때에는 보통 다수의 스토리지에 분산 저장하는 분산 파일 시스템이 활용됩니다.
정리하면 데이터 기반 의사결정을 위해 과거부터 활용되어온 정형 데이터를 한데 모아 분석하는데
최적화된 것이 데이터 웨어하우스 이며,
정형 데이터뿐만 아니라 다양한 유형의 용량의 큰 비정형데이터들도 분석하기 위해 탄생한 새로운 데이터 저장소가 데이터레이크 라고 보시면 되겠습니다
'Cumputer Science > 데이터 베이스📈' 카테고리의 다른 글
데이터 처리 프로세스(저장, 처리) + 하둡(hdfs,mapreduce) (0) | 2022.12.30 |
---|---|
ER모델 개념 정리 (1) | 2022.09.19 |
day02_DBMS + DBS + VIEW에 대해..🥪 (1) | 2022.09.15 |
day01_DB(데이터베이스)란 + DBMS?🧐 (2) | 2022.09.14 |
MySQL : 초 간단 설치 방법🤗 (0) | 2022.02.20 |