[논문이야기] 상하수도 배수관 누수 탐지 ②

곽연숙 연구원 2023-09-12 09:002023-09-16 2023-09-16 15:49

진동 센서 데이터 특성상 고속 푸리에 변환 후 실수부만 활용해도 정보 손실 별로 없을 것 주파수 도메인으로 변환 후 군집화 및 UMAP 시각화 통해 잠재 누수 데이터 분류 가능 ICA 통해 누수에 결정적인 영향 미치는 요인 찾는 것 가능하나, 모델이 복잡해져 해석에 문제 생길수도

센서신호를 통해 이상값을 탐지하려면?

그렇다면 센서를 통해 측정된 시퀀스(sequence) 데이터(예: 시간에 따른 온도·수질 측정)에서 어떠한 패턴을 찾을 수 있을까? 또한 이런 센서 데이터에서 미래 값을 예측하거나 이상치(anomaly)를 탐지하는 데 중요한 방법은 무엇이 있을까?

먼저 시계열 속성을 띄는 시퀀스 데이터의 경우엔 다양한 방법으로 유사성(similarity)을 찾아낼 수 있다. 예컨대 거리 기반 함수(예. 유클리드 거리)를 활용해 유사성을 찾아볼 수 있고, 여러 사례들을 통해 결론에 도달하는 트리(tree) 기반 방법을 적용해 볼 수도 있다. 또는 특성을 추출하는 방법(예: DFT, wavelets, SVD etc)을 활용해 볼 수도 있다. 유사성 기반 이외에도 센서 데이터에서 추이(trend), 계절성(seasonality)이 존재한다면 시계열 선형회귀방법을 적용하거나 복잡한 패턴이나 이전시간 값들을 활용한 비선형예측을 적용해 볼 수도 있다.

기존 선행 연구 중에는 유량이나 압력 데이터 등의 시계열 데이터로 활용한 경우 적응형 칼만 필터링(Adaptive Kalman Filtering)을 사용한 사례도 있다. 칼만 필터링은 시계열 데이터에 백색잡음(white noise)이 포함돼 분석에 어려움이 있을 때 적합한 모델로, 예측된 값과 측정의 차이인 에러값을 통해 파열을 감지해 낸다. 적응형 칼만 필터링의 장점은 모델의 추정값과 측정값 사이에 정확한 가중치를 채택할 수 있다는 점이다. 이 가중치도 모델을 통해 자동으로 조정돼 편향(bias)을 줄여주는 추정값을 얻을 수 있다. 실제 현업에서도 센서 데이터는 대부분 일관되게(consistent) 수집될 것이기 때문에 파열을 어느 정도 잘 찾아낼 수 있을 것으로 사료된다. 그러나 칼만 필터링을 적용한 연구들도 살펴보면 보통 시뮬레이션과 실험실 데이터를 사용하기 때문에 오경보율이 높아 이를 보완하려는 연구들 또한 이뤄지고 있다.

다시 돌아와서, 필자가 사용하려는 데이터는 특정 스펙을 가진 누수센서로, 5일 이상 진동이 반복된 데이터를 중심으로 1차 취득 후 필요시, 누수 탐사 전문가들 통한 2차 현장탐사를 실시해서 진동의 원인 및 누수여부를 최종 구분한 데이터이다. 결국 실시간 수집되는 모든 데이터를 가지고 있지 않은 만큼, 패턴을 찾아 유사성을 도출하는 방법론으로 논문의 범위를 좁혀 보려고 한다. 아울러 본 논문의 데이터가 실시간으로 얻어진 것은 아니므로 누수발생 횟수에 대해서 시계열성을 확인하기에는 어려움이 있었던 점을 밝힌다.

앞서 FT에서도 살펴봤듯, 시계열 데이터는 실수부와 허수부로 구성된 복소평면으로 맵핑이 된다. 이 때 주파수-진폭(amplitude)은 실수부로 표현되며, 진폭을 통해 어떤 주파수에서 피크가 나타나는지 확인할 수 있다. 그리고 주파수-위상(phase)으로 나타나는 허수부에선 주파수-진폭에서 피크가 뜨는 포인트에 위상변화가 존재했는지 여부를 확인할 수 있다. 해당 사실을 필자의 연구에서 상수관로의 진동센서 데이터의 실수부만 활용하는 게 과연 충분한지와 연결지어 생각해 보자. 실제 실시간 데이터에서 아무런 정보값이 없을 때 누수음을 탐지해 내고자 한다면, FFT 변환 후에 각 진동의 위상변화도 확인할 필요가 있다. 하지만 충분히 작은 단위로 쪼개어 변환한 데이터의 정보손실값은 상대적으로 적어서, 누수피크를 어느 정도는 구분할 수 있을 것으로 판단했다. 더욱이 아마도, 센서 데이터를 통해서는 사실상 아주 미세한 징후를 잡아내어 매우 이른 조기경보(super early alert)를 하는 것에는 무리가 있다. 따라서 기존의 사람이 투입돼 아날로그적으로 탐사하거나 사용자의 신고에 의한 경우 이른 알람(early alert)을 통한 위기관리(risk management)에 목적을 두었다.

결국은 분류 문제

예를 들어, 감지된 클러스터 수가 예상되는 정상 흐름 소스 수보다 높으면 대상 지역에 이상이 존재할 가능성이 높다. 필자의 상수관로 누수 여부를 검출하는 데에 있어도 클러스터가 한쪽이 집중되는 것이 생기는지, 또는 혼동되는 패턴이 들쑥날쑥하게 나타나는 여부에 따라 분류(partitioning)의 양상이 달라질 것이다. 결국, 비정상적인 방식으로 동작하는 이상 집단을 탐지하는 것이 목적이다. 시간 데이터를 고려할 때 더욱 복잡한 유형의 비정상적 동작을 포착할 수 있는 가능성이 있지만, 현재 데이터 제약이 존재하는 만큼 전자로 접근하는 것이 더 적절한 방법인 것으로 판단된다.

아래는 군집화 양상을 보기 위해 데이터를 UMAP으로 시각화한 그림이다. 비교를 위해 전체 데이터와 특정 지역(‘go-‘로 표기)을 확인했다.

일부지역과 전체 데이터 UMAP 결과. 일부지역은 ‘go-‘로 시작하게 라벨링함.

누수가 아닌 상태로 분류되는 normal(실제 정상음), other(환경음과 같은 음), noise들 중에도 정상과 노이즈들은 중앙에 몰려서 덩어리를 이루고 있다. 그리고 누수상태인 옥외(out)과 옥내(in)의 경우는 바깥쪽으로 흩뿌려져 있는 모습을 확인할 수 있다.

또한 측정 횟수별 기준치 이상 반응한 진폭 평균값을 나타낸 위 히스토그램을 살펴보면 패턴이 확연히 다르게 나타나는 것을 확인할 수 있다. 현재 필자가 가진 데이터는 FFT 이후의 데이터이다. 이미 복소평면으로 변환이 돼 있지만, 그럼에도 이를 이용한 분류모델을 현실에 적용하려면 계산효용(computational efficiency)이 꽤나 높아야 할 것이다. 기존 선행 연구를 살펴보면, 신경망(Neural Network, NN)이나 부스팅(boosting) 계열의 모델을 사용하는 경우가 있었다. 이들은 보통 유압데이터(hydraulic data)를 활용한 경우였는데, 통계량의 임곗값(threshold)을 기준으로 검출해 내거나, 군집을 나눈 후 NN을 활용하는 최근 연구들이 있었다. 그러나 일반적으로 이런 모델들은 계산효용이 매우 낮다.

특성을 잘 찾아내기 위해

앞서 언급한 대로 필자는 시간 도메인에서 주파수 도메인으로 데이터를 전처리했다. 그러면 분류를 잘해주기 위해서 정보값을 표현해 주는 축을 뽑아 데이터를 재정렬해보면 어떨까? 일단 데이터의 특성을 살펴보자. 현재 사용할 데이터는 정규성을 띄지 않고 있고, 특정 분류군의 데이터는 서로 다른 신호 분포를 가지고 있다. 따라서 여기서는 독립성분분석(Independent Component Analysis, ICA) 적용 연구를 살펴보려고 한다.

누수에서는 특정 주파수의 활동이 주로 나타나는데, 비슷하게 뇌파 연구에서도 특정 주파수 대역(델타, 세타, 알파, 베타 및 감마)에서 독특한 특성을 갖는 것으로 알려진다. 해당 연구에서는 ICA를 FFT 변환 후 주파수 도메인 데이터에 적용을 하기도 하고, ICA를 시간 도메인에 적용했다. 주파수 영역에서 얻은 해당 구성요소를 시간 영역에 맵핑함으로써 시간에 따른 공간분포를 연구하는 게 본 논문의 목적인 것으로 분석된다. 결국 뇌파이기 때문에 시공간 역학을 단일 모드로만 모델링할 수 없었다는 한계를 개선하고자 노력한 것인데, 필자가 사용하려는 누수신호연구에서도 시공간을 모두 고려하고자 한다면 꽤나 복잡한 모델이 돼야만 할 것이다.

나가며

상수관로의 누수를 찾는 것은 공공기반시설의 효율적 관리 측면과 경제적 측면 모두에 있어 중요한 현안으로 대두되고 있다. 앞서 접근한 방법론들의 일부는 관계자들 사이에서 활발히 적용하고 있지는 않은 것으로 보인다. 현실문제에 적용하려면 모델의 업데이트 주기는 어느 정도로 해야 할지, 데이터의 업데이트는 어느 구간으로 해야 할지, 비용적 비효율성은 어떻게 개선해야 할지 등 고려해야 할 점들이 잠시만 생각해 봐도 많다.

필자는 현시점으로는 분류 문제의 정확성을 높이며, 계산효율성을 높일 수 있는 방향으로 고민하고 있다. 이번 글에서는 대략적인 방법론에 대해서 언급했다. 향후 연구에서는 실시간 데이터를 가지고 있을 경우(트래킹이 가능한 경우)로 확장해서 관로의 수명을 확률적으로 예측할 수 있는 부분도 연구의 필요성이 있고, 관로 시스템 데이터를 네트워크 형태로 파악이 가능하다면 시계열 네트워크를 결합해서 연구할 수 있다.

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ②

송정훈 연구원 2022-09-02 09:002023-07-10 AI/DS논문이야기

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ①에서 이어집니다. 이전 글에서 언급했듯 에너지원 수급,생산,수송,설비 투자 등에 관한 효율적 의사결정을 위해서는 무엇보다도 에너지 사용량 추정이 정확하게 이뤄져야만 한다. 이번 글에서는 기존 연구들이 어떻게 ‘통계적으로’ 에너지 사용량을 추정했는지 개략적으로 살펴보고, 나아가 ‘계절적 추이’를 반영해야하는 이유를 짚어본다. 에너지 사용량을 현실적으로 추정하기 위한 방법, ‘회귀분석’ 이상적으로는,…

[논문이야기] 상하수도 배수관 누수 탐지 ①

곽연숙 연구원 2023-09-11 10:002023-09-15 AI/DS논문이야기

미국 환경보호청(Environmental Protection Agency, EPA)에 따르면 가정에서 매년 약 3,080리터의 물이 누수되며, 가정의 10%에서 하루 약 27.27리터 이상의 누수가 발생하는 것으로 나타났다. 또한 이처럼 가정 내 누수만 해도 규모가 큰데, 외부 공공 급수시스템에서의 누수로 인한 손실은 더하면 더했지 덜 하진 않을 것이다. 실제 국내 누수에 대한 기사를 확인해 보자. 환경부 자료에 따르면 2017년부터 2021년까지 정수장에서…

Is bubble really bubble?

하태성 연구원 2023-05-16 23:232023-06-15 AI/DS논문이야기

버블은 금융 자산 또는 상품의 가격이 내재가치 또는 시장 컨센서스보다 훨씬 높을 때 발생한다. 이는 일반적으로 과열된 경제 상황을 설명할 때 주로 사용되는 표현이다. 문제는 버블이 꺼지면서 가격이 폭락하기 전까지는 대부분의 시장 참여자가 이를 버블이라고 인지하지 못한다는 것이다. 국제적으로 상호 연관성이 커진 오늘날 어느 한 나라의 버블은 세계 경제 전반에 큰 영향을 미치기 때문에 이를…

측정오차 하 광고 시계열 모델링 연구: Poisson Time Series 및 Poisson Kalman Filter를 중심으로

하태성 연구원 2023-05-19 09:002024-02-16 AI/DS논문이야기

코로나19 팬데믹은 우리의 일상 전반의 변화와 함께 디지털 전환을 가속했다. 집에서 보내는 시간이 길어지면서 유튜브, 모바일 콘텐츠, 온라인동영상서비스(OTT) 등 미디어 시청 패러다임의 변화는 물론, 소비의 중심축이 오프라인에서 온라인으로 움직이면서 디지털 광고 시장 또한 급격하게 성장했다. 실제로 최근 한국방송광고진흥공사가 발표한 ‘2022년 방송통신광고비 조사’에 따르면 대부분 매체의 방송광고비는 감소했지만 2023년 추정 온라인광고비는 8조8400억원으로 전년 대비 10% 증가하는…

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ⑤

송정훈 연구원 2022-09-07 09:002023-07-10 AI/DS논문이야기

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ④에서 이어집니다. 이전 글(1,2,3,4)까지의 기나긴 대장정을 통해, 우리는 에너지 사용량에 대한 기존 연구의 1차 모멘트 벡터(1st moment vector) 계산과 함께 회귀 모델의 ‘공분산’을 포함한 2차 모멘트 행렬(2nd moment matrix)까지 완전히 추정할 수 있게 됐다. 아울러 이렇게 계산된 1차 모멘트 벡터 및 2차 모멘트 행렬을 통해…

[논문이야기] 부동산 경매 시장의 할인/할증 요인 – 번외

유보현 연구원 2022-10-24 09:002023-06-21 AI/DS논문이야기

이전 글(1,2,3,4)까지를 통해 부동산 경매 시장의 할인/할증 요인을 수학・통계학적으로 발견하고, 나아가 해당 요인에 대한 특성을 분석해 부동산 시장의 성격을 거시적으로 살펴봤다. 마무리 차원에서 이번 글에서는 필자가 본 연구를 하게 된 개인적인 배경과 소회를 밝힌다. 기술보다는 논리에 초점 위 주제로 논문을 쓰게 된 이유는 실제로 전공이 부동산이거나 전문 분야라서는 아니다. 최근 몇 년간의 업무 대부분은 데이터…