Jump to section

데이터 레이크란 무엇일까요?

URL 복사

데이터 레이크는 대규모의 다양한 원시 데이터 세트를 기본 형식으로 저장하는 데이터 리포지토리 유형입니다. 데이터 레이크를 사용하면 정제되지 않은 데이터를 볼 수 있습니다. 데이터 레이크는 데이터 저장을 위해 전체적인 대규모 리포지토리를 원하는 기업의 데이터 관리 전략으로 널리 이용되고 있습니다. 

원시 데이터는 특정 목적을 위해 처리되지 않은 데이터를 말합니다. 데이터 레이크에 있는 데이터는 쿼리되기 전까지는 정의되지 않습니다. 데이터 사이언티스트들은 더욱 고도화된 분석 툴이나 예측 모델링을 사용하여 원시 데이터에 액세스할 수 있습니다.

데이터 레이크를 사용하면 모든 데이터가 보존되며, 스토리지에 저장하기 전에 제거되거나 필터링되지 않습니다. 데이터는 바로 또는 얼마 후 분석에 사용될 수도 있고 전혀 사용되지 않을 수도 있습니다. 또한 데이터가 다양한 목적으로 여러 번 사용될 수도 있지만 특정 목적으로 정제되어 다른 방식으로 재사용하기 어려운 경우도 있습니다.

필터링되지 않은 비정형 데이터

'데이터 레이크'라는 용어는 Pentaho의 CTO(최고 기술 책임자)인 James Dixon이 처음으로 소개했습니다. 이러한 유형의 데이터 리포지토리를 레이크라고 부르는 이유는 필터링되거나 패키지화되지 않은 수역과 같은 자연 상태의 데이터 풀을 저장하기 때문입니다. 데이터는 여러 소스에서 레이크로 흐르며 원래 형식으로 저장됩니다. 

데이터 레이크에 있는 데이터는 분석을 위해 필요할 때 변환되며, 이러한 경우 스키마가 적용되어 데이터 분석이 가능해집니다. 이는 '읽기 스키마(schema on read)'라고 불리는데, 데이터가 사용 준비 상태가 될 때까지 원시 상태로 보관되기 때문입니다. 

데이터에 대한 임시 액세스

사용자는 데이터 레이크에서 데이터를 다른 시스템으로 이동시킬 필요 없이 원하는 방식으로 데이터에 액세스하여 이를 탐색할 수 있습니다. 다른 플랫폼이나 다른 유형의 데이터 리포지토리에서 분석 리포트를 정기적으로 가져오는 대신 상황에 따라 인사이트 및 보고를 데이터 레이크에서 얻습니다. 그러나 사용자는 스키마 및 자동화를 적용하여 필요한 경우 리포트를 복제할 수 있습니다. 

해당 데이터를 사용하고 이에 액세스할 수 있도록 거버넌스를 통해 데이터 레이크를 지속적으로 유지관리해야 합니다. 제대로 유지 관리하지 않으면 데이터 관리가 어렵고 비용이 많이 들며 쓸모없는 액세스 불가능한 정크가 될 위험이 있습니다. 이처럼 사용자가 액세스할 수 없는 데이터 레이크를 "데이터 늪(data swamp)"이라고 합니다.

다양한 대규모 원시 데이터를 원래 형식으로 데이터 레이크로 저장하면 조직에 많은 이점이 있습니다.

  • 데이터 레이크는  확장 가능합니다. 정형, 반정형 및 비정형 데이터를 포함해 대량의 데이터를 대규모로 처리할 수 있고, 사전 정의된 스키마 없이 데이터를 저장하므로 다양한 데이터 유형을 수집할 수 있습니다. 그 결과 컴퓨팅 성능이 개선될 수 있습니다. 현대적인 데이터 레이크 솔루션은 분산식 컴퓨팅 프레임워크를 활용하므로 대규모 데이터세트의 효율적 처리가 가능합니다.
  • 데이터 레이크는 클라우드 기반 객체 스토리지와 같은 저렴한 스토리지 솔루션을 주로 사용하기 때문에 방대한 양의 데이터를  비용 효율적으로 저장할 수 있는 옵션입니다. 중앙집중식 데이터 스토리지로 구성되는 데이터 레이크는 여러 시스템 전반에서 동일한 데이터의 복사본을 여러 개씩 유지할 필요성을 줄여줍니다.
  • 데이터 레이크의 '읽기 스키마' 방식은 기존 데이터 웨어하우스보다  유연성이 더 큽니다. 데이터를 원래 형식으로 저장함으로써 데이터 레이크는 향상된  민첩성으로 다양한 데이터세트를 통합하고 분석할 수 있습니다.
  • 기존 데이터 웨어하우스와 달리 데이터 레이크가 제공하는  중앙 리포지토리는 조직 데이터에 대한 포괄적 뷰를 지원합니다. 이러한 데이터 결합으로 데이터 액세스가 개선되고 데이터 공유 및 협업의 장애물이 사라집니다.
  • 데이터 레이크의 중앙집중식 리포지토리를 통해 데이터 거버넌스가 용이해집니다. 메타데이터 관리, 데이터 계보, 액세스 제어 등과 같은 데이터 거버넌스의 기능을 통해 데이터 품질, 일관성, 규정 준수가 보장됩니다.
  • 지금까지 언급한 모든 이점은  혁신 강화로 이어집니다. 데이터 레이크는 데이터 사이언티스트가 프로덕션 시스템에 영향을 미치지 않고 데이터를 탐색하고 실험할 수 있는 샌드박스 환경의 역할을 합니다. 데이터 레이크에서는 데이터 수집 속도가 빨라지고 유연한 분석을 수행할 수 있으므로 인사이트 획득이 빨라져 시장 변화에 대한 민첩성과 대처가 개선됩니다.

데이터 레이크의 일반적인 활용 사례는 다음과 같습니다.

1. 고급 분석 및 머신 러닝: 대량의 데이터를 원래 형식으로 저장할 수 있는 기능을 갖춘 데이터 레이크는 고급 분석과 머신 러닝을 수행하는 데 필수적입니다. 데이터 레이크는 고객 상담, 판매 데이터, 소셜 미디어 활동 등과 같은 다양한 데이터 소스를 수집하고 통합할 수 있습니다. 이를 통해 데이터 사이언티스트는 예측 모델과 정교한 AI 애플리케이션을 개발할 수 있으므로 비즈니스 인사이트와 의사 결정이 개선됩니다.

2. 실시간 데이터 처리: 데이터 레이크는 실시간 데이터 수집과 처리를 지원하기 때문에 금융 거래, 사기 감지, 운영 모니터링과 같이 즉각적인 인사이트가 필요한 애플리케이션에 가장 적합합니다. 데이터 레이크는 거래 데이터를 실시간으로 모니터링하므로 사기 활동을 즉시 식별하고 방지할 수 있습니다. 제조 부서의 경우 기계에서 생성되는 실시간 데이터로 이상을 감지하고 예측적 유지 관리를 수행할 수 있으므로 다운타임이 줄고 효율성이 개선됩니다.

3. 데이터 결합 및 통합: 데이터 레이크는 여러 소스의 데이터를 단일 통합 리포지토리로 통합하므로 데이터 사일로를 제거할 수 있습니다. 이는 특히 고객에 대한 포괄적인 뷰를 만드는 데 유용합니다. 소매 회사의 경우 구매 이력, 웹사이트 상호 작용, 소셜 미디어 등의 데이터를 결합하여 고객 행동을 제대로 파악하고 맞춤형 마케팅 캠페인을 진행할 수 있습니다.

4. 규정 준수 및 데이터 거버넌스: 데이터 레이크는 대량의 데이터를 저장할 수 있는 안전하고 확장 가능한 솔루션을 제공하므로 GDPR, HIPAA, CCPA 등과 같은 규정의 컴플라이언스를 보장할 수 있습니다. 이러한 실시간 컴플라이언스는 데이터 보관 및 보안과 관련한 엄격한 규정 요건을 준수해야 하는 의료, 금융 등과 같은 산업에 매우 중요합니다. 

5. 엣지 기기 데이터 관리: 엣지 기기는 방대한 양의 데이터를 생성합니다. 데이터 레이크는 그러한 대량의 다양한 데이터를 저장하고 처리하는 기능을 갖추고 있습니다. 엣지에서는 이러한 데이터에 센서 판독, 스마트 미터 데이터, 연결된 기기 로그 등이 포함될 수 있습니다. 데이터 레이크의 이러한 기능은 스마트 시티 관리, 산업 자동화, 예측적 유지 관리와 같은 활용 사례를 지원합니다.

데이터 레이크는 데이터 저장 및 처리의 여러 현대적인 활용 사례를 다루기 위한 민첩성과 적응성을 제공합니다.

데이터 레이크와 데이터 웨어 하우스는 종종 혼동되지만, 이 둘은 동일하지 않으며 그 목적도 다릅니다. 둘 다 빅데이터를 위한 데이터 스토리지 리포지토리라는 것만이 유일한 유사점입니다. 많은 기업들이 데이터 웨어하우스와 데이터 레이크를 모두 사용하여 특정 요구 사항과 목표를 충족합니다. 

데이터 웨어하우스는 보고를 위해 설계된 구조화된 데이터 모델을 제공합니다. 이는 데이터 레이크와 데이터 웨어하우스의 주요 차이점입니다. 데이터 레이크는 현재 정의된 용도가 없는 비정형 원시 데이터를 저장합니다. 

데이터는 데이터 웨어하우스에 저장하기 전에 처리되어야 합니다. 이때 데이터 웨어하우스에 어떤 데이터를 포함할지 결정하게 되는데, 이를 '쓰기 스키마(schema on write)'라고 합니다. 

데이터를 데이터 웨어하우스에 저장하기 전에 데이터를 정제하는 프로세스는 시간이 오래 걸리고 어려울 수 있으며 몇 개월 또는 몇 년씩 걸리는 경우도 있으므로, 즉시 데이터를 수집할 수 없습니다. 데이터 레이크를 활용하면 즉시 데이터를 수집하여 향후 해당 데이터를 어디에 사용할지 파악할 수 있습니다.

데이터 구조 때문에, 정기적인 보고에 어떤 데이터가 필요한지 미리 알고 있는 비즈니스 애널리스트와 다른 비즈니스 사용자가 데이터 웨어하우스를 더 자주 사용합니다. 데이터 레이크는 데이터를 이용해 연구를 수행하는 데이터 사이언티스트 및 애널리스트가 더욱 자주 사용하며, 데이터를 사용하려면 고급 필터 및 분석이 적용되어야 합니다.

데이터 레이크와 데이터 웨어하우스는 일반적으로 다른 하드웨어를 이용하여 데이터를 저장합니다. 데이터 웨어하우스는 비용이 많이 들 수 있는 반면, 데이터 레이크는 대규모임에도 불구하고 상용 하드웨어를 자주 사용하기 때문에 그보다 비용이 저렴합니다.

클라우드 솔루션은 조직이 성장함에 따라 지불할 수 있도록 확장성과 비용 효율성을 제공합니다. 클라우드 스토리지를 사용하는 데이터 레이크는 조직이 보유한 하드웨어에 의존하여 성장하지 않으므로  무한대로 확장 가능합니다. 이러한 확장성과 더불어 클라우드 솔루션은 온디맨드로 확장하거나 축소할 수 있는  성능 솔루션을 제공합니다. 데이터 레이크를 위한 클라우드 솔루션은 유연한 인프라를 제공하기 때문에 온프레미스 하드웨어보다 더 비용 효율적일 수 있습니다.

클라우드 데이터 레이크는 세계 어디에서든지 액세스가 가능하므로 다른 솔루션들보다 더 많은  데이터 액세스를 제공하여 분산된 팀들을 지원합니다. 또한 클라우드 서비스는 다른 클라우드 서비스와 통합이 가능하도록 구축되기 때문에 클라우드 데이터 레이크를 이용하면 적은 노력으로도  통합 효율성을 개선할 수 있습니다.

클라우드 컴퓨팅 분야의 유명 브랜드가 전부 데이터 레이크 서비스를 제공합니다. Amazon S3는 AWS용 데이터 레이크의 기반입니다. Microsoft Azure는 Azure Data Lake Storage를 제공합니다. 또한 Google Cloud Storage는 Google Cloud Platform용 데이터 레이크의 기초가 되는 확장 가능하고 안전한 객체 스토리지를 제공합니다. 그리고 IBM Cloud Object Storage는 고내구성, 보안, 데이터 가용성을 위해 설계되었으므로 데이터 레이크 구축은 물론, IBM의 분석 및 AI 서비스와 통합하여 포괄적인 데이터 솔루션을 제공하는 데 가장 적합합니다. 

비정형, 반정형, 정형 데이터가 조직 전반의 다양한 소스에서 수집될 수 있는 데이터 레이크는 플랫 아키텍처(flat architecture)를 사용하는 데 반해, 데이터 웨어하우스는 파일이나 폴더에 데이터를 저장합니다. 데이터 레이크는 온프레미스나 클라우드에 위치할 수 있으며,

아키텍처로 인해 데이터 레이크는 최대 엑사바이트급 규모의 확장성을 제공할 수 있습니다. 일반적으로 데이터 레이크를 구축할 때 보유해야 할 데이터 볼륨을 미리 알 수 없기 때문에 이러한 확장성이 중요합니다. 기존의 데이터 스토리지 시스템은 이러한 방식으로 확장할 수 없습니다.

엔터프라이즈 전반에서 데이터 마이닝 및 분석을 수행하고 다양한 분야의 이기종 데이터를 포함한 각종 데이터를 공유 및 상호 참조하여 질문을 통해 새로운 인사이트를 얻을 수 있는 데이터 사이언티스트들은 이러한 아키텍처의 이점을 누릴 수 있습니다. 데이터 사이언티스트들은 또한 빅데이터 분석 및 머신 러닝을 활용하여 데이터 레이크의 데이터를 분석할 수 있습니다. 

데이터 레이크에 저장되기 전에 데이터에 고정된 스키마가 없더라도 데이터 늪(data swamp)을 피하려면 데이터 거버넌스가 여전히 중요합니다. 나중에 액세스할 수 있도록 데이터를 데이터 레이크에 보관하는 경우 메타데이터로 태그를 지정해야 합니다.

AI/ML 애플리케이션 관리 개선

이 웨비나 시리즈에서는 인공지능/머신 러닝(AI/ML) 애플리케이션의 배포 및 라이프사이클 관리를 간소화하는 방법을 전문가의 관점에서 알아봅니다. 이는 ML 모델과 AI 애플리케이션을 더 빠르게 구축하고, 이에 대한 협업을 진행하며, 공유하는 데 도움이 됩니다. 

Red Hat의 오픈 소프트웨어 정의 스토리지 솔루션으로 더 많은 작업을 더욱 신속하게 수행할 수 있으며, 중요 재무 문서 및 리치 미디어 파일 등 데이터가 안전하게 저장되므로 안심할 수 있습니다.

확장 가능하고 경제적인 소프트웨어 정의 스토리지로 대규모 데이터 레이크를 분석하여 더 나은 비즈니스 인사이트를 확보할 수 있습니다. Red Hat의 소프트웨어 정의 스토리지 솔루션은 모두 오픈소스 기반이며, 개발자와 파트너, 고객으로 구성된 커뮤니티의 혁신을 활용하고 있습니다. 이를 통해 사용자는 고유의 비즈니스 워크로드, 환경 및 요구 사항에 따라 정확히 스토리지가 어떤 형식으로 지정되고 사용되는지를 완벽히 제어할 수 있습니다.

Keep reading

문서

Red Hat 스토리지를 선택해야 하는 이유는 무엇일까요?

소프트웨어 정의 스토리지란 무엇인지, 데이터를 적절하게 관리하고 저장하고 공유할 수 있는 유연성을 제공하는 Red Hat 소프트웨어 정의 스토리지 솔루션을 어떻게 배포할 수 있을지 알아보세요.

문서

클라우드 스토리지란?

클라우드 스토리지는 권한이 있는 사용자가 인터넷으로 액세스할 수 있는 곳에 보관된 데이터를 체계적으로 관리하는 것을 말합니다. 작동 원리에 대해 자세히 알아보기

토픽

데이터 서비스 이해하기

데이터 서비스는 데이터 스토리지 볼륨 형태로 수집 및 저장되는 정보를 개선하고, 체계화하며, 공유하거나 계산하는 여러 기능이 느슨하게 결합된 독립적인 소규모 컬렉션입니다.

스토리지에 대한 자세한 내용

제품

컨테이너를 추가 또는 축소하더라도 환경 전반에서 영구적으로 데이터를 저장할 수 있는 소프트웨어 정의 스토리지입니다.

대규모로 확장 가능한 개방형 소프트웨어 정의 스토리지 시스템으로, 페타바이트 단위의 데이터를 효율적으로 관리합니다.

리소스