시계열 데이터베이스의 경제적 의미

Crystal Park
2024년 7월 19일
6분 분량

최종 수정일: 2024년 7월 22일

ree — 시계열 데이터베이스의 가치 이미지 출처(https://buly.kr/4majo9W)

1. 글을 시작하며

시계열 데이터베이스는 기존의 관계형 데이터베이스(RDBMS)와는 달리 대량의 시계열 데이터를 효율적으로 저장하고 처리할 수 있는 기능에 특화된 데이터베이스 시스템이다.

DBMS 분야에서 시계열 데이터베이스가 등장한 지는 벌써 10여년이 넘었지만 아직도 대부분의 IT 종사자들에게 ‘시계열 데이터베이스’는 생소한 개념인 것이 현실이다.(이에 대해서는 앞서의 포스팅-성큼 다가온 시계열 데이터베이스 시대, 대한민국 공공조달 시장을 위한 제언-을 참고하기 바란다.)

아직 대한민국에서는 초기 시장 단계라고 할 수 있는 시계열 데이터베이스가 확산되기 위해서는 그 성능과 기능에 대한 이해가 아니라 시계열 데이터베이스의 필요성과 가치에 대한 이해가 먼저일 것이다. 특히 마크베이스는 상용 소프트웨어이기 때문에 이 부분이 더 중요할 수 밖에 없다.

이하에서는 '왜 시계열 데이터베이스가 필요한가'에 대해 기존의 관계형 데이터베이스의 한계와 시계열 데이터베이스가 가져올 수 있는 경제적 효과를 중심으로 설명하도록 한다.

2. 시계열 데이터베이스 엔진의 정의와 특성

시계열 데이터베이스에 대한 일반적 정의는 시간에 따라 변화하는 데이터를 저장, 관리, 분석하는데 최적화된 데이터베이스 시스템이다. 주로 센서 데이터, 금융 거래 기록, 로그 데이터 등 시간 축에 따라 수집되는 데이터를 다루는 것에 최적화되어 있다.

관계형 데이터베이스와의 차이를 설명하기 위해 시계열 데이터베이스의 주요 특성과 기능을 정리해보자.

2.1 대용량 데이터 초고속 입력 및 조회

시계열 데이터베이스는 대량의 시계열 데이터를 빠르게 입력하고 조회하는 것에 주안점을 맞춰 설계되어 있다. 이로 인해 다음 항의 ‘실시간 모니터링 및 분석’과 ‘범위 질의 최적화’가 가능해진다.

2.2 실시간 모니터링 및 분석

시계열 데이터베이스의 초고속 입력 및 조회 성능은 데이터를 실시간으로 수집, 처리, 분석할 수 있도록 한다. 이는 신속한 비즈니스 의사결정과 운영 효율성으로 바로 연결된다.

즉 실시간으로 들어오는 데이터를 지속적으로 처리하여 즉각적인 분석을 할 수 있을 뿐 아니라 알람 발생 또는 트리거를 실행하여 즉각적인 대응이 되도록 할 수도 있고 실시간 데이터를 시각적으로 표현하여 트렌드와 패턴을 쉽게 파악하도록 할 수도 있다..

2.3 범위 질의 최적화

시계열 데이터의 조회는 특정 시간 범위 내에서의 데이터 조회의 형태로 이루어진다. 시계열 데이터베이스는 시간 기반 인덱스로 특정 시간 범위의 데이터를 빠르게 조회할 수 있도록 설계되어 있을 뿐 아니라 시간 구간별로 데이터를 롤업하거나 집계하여 필요한 데이터만 빠르게 추출하는 기능을 제공하여 범위 질의에 최적화된 기능을 제공한다.

마크베이스 롤업 기능 살펴보기>

2.4 데이터 압축

시계열 데이터는 일반적으로 대용량 데이터를 처리하기 때문에, 이를 위한 저장 공간의 관리가 필수적이다. 시계열 데이터베이스는 압축 기능이 뛰어나 관계형 데이터베이스에 비해 저장용량을 1/3으로 줄일 수 있다.

2.5 데이터 보존 및 관리

대용량 데이터를 처리하는 시계열 데이터의 특성상 오래된 데이터의 관리에 관한 기능도 필수적이라고 할 수 있다. 데이터에 보존 기간을 설정하고, 불필요한 데이터를 자동으로 삭제하거나 백업을 위해 아카이빙하게 할 수 있다. 한편 마크베이스에는 백업된 데이터를 빠르게 살펴볼 수 있는 ‘마운트’라는 별도의 기능이 있다.

마크베이스 마운트 기능 살펴보기>

3. 기존 데이터베이스 엔진의 한계

기존 데이터베이스 엔진, 주로 관계형 데이터베이스 시스템(RDBMS)은 시계열 데이터를 처리하는 데 여러 가지 한계를 가지고 있다. 이는 데이터 처리 성능, 확장성, 실시간 분석 기능 등에서 차이를 만들어 낸다.

3.1 시계열 데이터 처리의 어려움

데이터 모델의 비적합성

시계열 데이터는 시간에 따라 변화하는 데이터를 지속적으로 추가하는 특성을 가지는데, 이는 정규화된 테이블 구조를 사용하여 데이터를 저장하는 관계형 데이터베이스의 기본 구조와 잘 맞지 않는다. 시간 기반 데이터의 지속적인 추가는 인덱스 재구성과 테이블 확장을 자주 요구하게 되며, 이는 성능 저하를 유발한다.

고빈도 데이터 입력의 부담

시계열 데이터는 고빈도로 입력된다. 기존 관계형 데이터베이스는 입력시마다 트랜잭션 로그, 인덱스 업데이트 등의 많은 오버헤드가 발생하여 성능 저하를 유발한다.

3.2 성능 및 확장성 문제

인덱싱의 한계

관계형 데이터베이스는 일반적으로 B+Tree 기반 인덱스를 사용한다. B+Tree 기반 인덱스는 특정 시간 범위의 시계열 데이터 조회에 최적화되어 있지 않아 인덱스 조회 성능 저하를 유발한다.

스케일 아웃의 어려움

관계형 데이터베이스는 수평적 확장(scaling out)보다 수직적 확장(scaling up)에 더 적합하다. 시계열 데이터의 양이 폭발적으로 증가할 때, 데이터베이스 서버의 성능을 높이기 위한 하드웨어 업그레이드만으로는 한계가 있다. 관계형 데이터베이스는 수평적 확장이 어려워 데이터의 양이 폭발적으로 증가하는 상황에 대처하기 어렵다.

3.3 실시간 분석의 어려움

지연된 데이터 처리

관계형 데이터베이스는 주로 배치 처리(batch processing)에 적합하며 스트리밍 데이터 처리에 적합하지 않으므로 실시간 분석을 위해 데이터를 지속적으로 업데이트하고 조회하도록 스트리밍 처리 구성시 높은 부하를 초래하여 응답시간 지연을 유발한다.

실시간 알람 및 트리거 설정의 비효율성

실시간으로 이벤트를 감지하고 알람을 발생시키는 기능을 기존 관계형 데이터베이스에서 트리거 및 저장 프로시저를 통해 이를 구현할 수는 있으나 고빈도 데이터 입력을 실시간으로 처리하는 데는 한계가 있다.

4. 시계열 데이터베이스 엔진의 경제적 의미

시계열 데이터를 효율적으로 관리하고 분석할 수 있는 도구로서의 시계열 데이터베이스의 경제적 이점은 비용 절감, 효율성 증대, 새로운 비즈니스 기회 창출 등으로 정리할 수 있다.

4.1 비용 절감

저장 비용 절감

시계열 데이터베이스 엔진은 자동 데이터 압축 기능을 통해 저장 공간을 절약할 수 있다. 이는 진동데이터와 같은 고빈도 데이터를 저장하는 경우 큰 차이를 만들어 낸다. 참고로 마크베이스의 경우 csv 파일 기준으로 RDBMS의 30% 수준의 사이즈로 압축가능하다.

하드웨어 비용 절감

기존의 관계형 데이터베이스로 대량의 시계열 데이터를 처리하려면 많은 하드웨어 자원을 필요로 하나 시계열 데이터베이스를 사용시 효율적인 데이터 처리와 저장 구조를 통해 아키텍처를 단순화 할 수 있다. 참고로 마크베이스는 ETRI와의 프로젝트에서 Hadoop을 기준으로 3대의 서버를 사용하도록 한 시스템을 1대의 서버로 운영되도록 재설계한 바 있다.

한국전자통신연구원(ETRI) 사례 바로가기>

운영 비용 절감

시계열 데이터베이스 엔진은 대체로 자동화된 데이터 관리, 스케일링, 백업 및 복구 기능을 제공하여 운영의 효율성을 높일 수 있도록 하고 있다. 마크베이스 네오의 경우 여기서 더 나아가 내장 스케줄러로 엔진 레벨에서 반복 업무 자동화 기능을 제공하고 있다.

4.2 효율성 증대를 통한 개선

실시간 데이터 처리

시계열 데이터베이스 엔진은 실시간 데이터 수집, 처리, 분석 기능을 제공하여 비즈니스 의사 결정을 신속하게 할 수 있도록 지원할 수 있으며 고객 요구에 맞춘 서비스 제공과 서비스 수준 향상에 중요한 역할을 할 수 있다. 예를 들어, 금융 시장에서 실시간 거래 데이터를 분석하여 위험을 관리하고 투자 결정을 내리는 데 활용될 수 있다. 마크베이스는 코스콤의 전문투자자용 투자시스템에 시세분석용 데이터베이스로 활용되어진 바 있다.

한국증권전산(koscom) 사례 바로가기>

데이터 분석의 정밀도 향상

고빈도 데이터 입력 및 조회, 실시간 데이터 분석으로 데이터 기반 인사이트를 도출하고, 비즈니스 전략을 최적화하며 개별적인 문제 해결에도 도움이 된다. 예를 들어, 제조업에서는 센서 데이터를 실시간으로 분석하여 장비의 상태를 모니터링하고 개별 제품의 품질 이슈와도 연결하여 사전 준비 시간을 단축하고 불량율을 줄여 불량 발생시 폐기해야 할 제품의 수량도 축소시켜 품질비용을 최소화할 수 있다.

한국카본 사례 바로가기>

4.3 새로운 비즈니스 기회 창출

비즈니스 혁신

시계열 데이터 분석을 통해 새로운 비즈니스 모델을 개발하고, 시장에서의 경쟁력을 강화할 수 있다. 예를 들어, 위치 정보도 GPS를 통해 위도와 경도의 데이터로 변환될 수 있고 이를 통해 차량의 속도와 이동거리를 분석하여 주행거리에 따라 보험료가 부과되는 기존에 없던 새로운 상품을 만들 수 있다. 마크베이스는 캐롯손해보험이 차량 시가잭에 IoT기기를 설치하여 주행거리에 따라 보험료가 부과되는 보험상품을 만드는데 적용된 바 있다.

캐롯손해보험 사례 바로가기>

예측 분석 및 의사 결정 지원

시계열 데이터베이스 엔진은 대용량 데이터의 패턴 분석을 통해 미래를 예측하고, 이를 위한 비즈니스 의사 결정을 지원할 수 있다. 예를 들어, 에너지 관리 분야에서는 시계열 데이터를 분석하여 에너지 수요를 예측하고, 효율적인 에너지 공급 계획을 수립할 수 있다.

스마트 기술 구현

최근 새로운 형태의 IoT(Internet of Things)기기가 계속 출현하고 있다. 센서를 많이 사용하는 IoT기기의 기능이 제대로 구현되기 위해서는 시계열 데이터베이스가 시스템 구성에 필수적인 요소가 된다. 새로운 형태의 IoT 기기와 이 기기에서 수집된 센서 데이터를 이용하여 다양한 응용 분야에서 스마트 기술에 의한 새로운 비즈니스를 만들 수 있다.

5. 시계열 데이터베이스 엔진의 주요 적용 사례

시계열 데이터베이스 엔진은 다양한 산업 분야에서 중요한 역할을 하고 있다. 마크베이스의 홈페이지에도 적용 사례들이 있지만 대표적인 사례들을 살펴보자면 다음과 같다.

5.1 금융 산업

실시간 거래 데이터 분석

금융 기관에서 시계열 데이터베이스는 거래 데이터 자체의 관리에 적용되는 것이 아니라 거래 데이터의 분석에 사용되며 실시간으로 거래 데이터를 분석하여 시장의 변동성을 실시간으로 파악하고, 빠른 투자 결정을 내릴 수 있도록 하는 부분에 적용된다. 예를 들어, 주식 시장에서는 주가의 변동을 실시간으로 모니터링하고, 알고리즘 트레이딩을 통해 매매 시점을 최적화하는 것에 사용된다.

이상 거래 탐지

시계열 데이터베이스는 이상 거래 탐지 시스템에도 사용된다. 실시간으로 거래 패턴을 분석하여 비정상적인 활동을 감지하고, 사기 거래를 예방하는 용도로 사용된다.

5.2 제조업 및 IoT

생산 공정 모니터링 및 스마트 팩토리 구현

제조업에서는 생산 라인의 각종 기기와 시스템에서 수집되는 데이터를 실시간으로 통합적 관리 및 분석하여 불량품 발생을 줄이고, 공장의 운영 효율성을 극대화할 수 있다.

장비 예지 보전

IoT 기기를 통해 수집된 장비 데이터를 분석하여 장비의 상태를 실시간으로 모니터링하고 고장을 예측하여 예방적 유지보수로 장비의 가동 시간을 최대화하고 유지보수 비용을 절감할 수 있다.

5.3 에너지 관리

스마트 그리드 운영

에너지 관리 분야에서는 시계열 데이터베이스를 통해 스마트 그리드 시스템에서 실시간으로 전력 사용량 패턴을 분석하고 전력 공급과 수요를 최적화하여 에너지 효율성을 높일 수 있다.

재생 에너지 관리

태양광 패널, 풍력 터빈 등 재생 에너지 발전의 경우 기존의 발전소와 달리 데이터 분석에 의한 운영 관리가 필요하다. 예를 들어, 기상 데이터 분석으로 태양광 패널의 일조량이나 풍력 터빈의 풍속을 예측함으로써, 전력 생산량을 미리 예측할 수 있고 전력 생산량과 수요량을 함께 분석하여 배터리 저장 시스템 또는 기존의 화석연료 발전소 등을 전력 생산량이 부족할 경우 어떻게 활용할 것인지에 관한 계획을 세우는 데 시계열 데이터베이스를 활용할 수 있다.

6. 결론

시계열 데이터베이스는 DBMS 전체 시장에서 아직은 작은 부분을 차지하고 있지만, 그 중요성과 활용도는 빠르게 증가하고 있다. 특히 최근 AI의 발전으로 인한 머신러닝의 수요가 늘어나면서 대용량 데이터의 처리에 대한 니즈가 좀 더 구체화되는 느낌이다.(머신러닝을 하기 위해서는 데이터를 버릴 수 없기 때문이다.)

한편, 어느 경우든 대용량 데이터의 처리 능력 자체가 경제적 의미를 가져올 수는 없다. 아무리 좋은 기술이라도 어떻게 활용하는가에 따라 그 가치가 달라질 수 있는 것이고 기술 그 자체로 재무적인 효과가 발생할 수는 없기 때문이다.

다만 최근 여러 활용 사례는 시계열 데이터베이스가 대용량의 데이터를 처리하는데 유용한 기술일 뿐 아니라 경제적으로도 중요한 가치를 가질 수 있다는 것을 보여주고 있다.

초두에 언급했듯이 시계열 데이터베이스는 아직 IT업계 종사자들도 정확한 이해를 하고 있는 사람이 소수에 불과한 기술이다. 반면에 그 활용도는 부지불식 간에 점점 더 커지고 있다.

이 새로운 기술이 빨리 많은 사람들에게 활용되어 이를 적용하고 활용하는 기업들에게 높은 경제적 가치를 만들어 주기를 바라며 이 글을 마친다.