[논문이야기] 상하수도 배수관 누수 탐지 ②

진동 센서 데이터 특성상 고속 푸리에 변환 후 실수부만 활용해도 정보 손실 별로 없을 것 주파수 도메인으로 변환 후 군집화 및 UMAP 시각화 통해 잠재 누수 데이터 분류 가능 ICA 통해 누수에 결정적인 영향 미치는 요인 찾는 것 가능하나, 모델이 복잡해져 해석에 문제 생길수도

pabii research

[논문이야기] 상하수도 배수관 누수 탐지 ①에서 이어집니다

센서신호를 통해 이상값을 탐지하려면?

그렇다면 센서를 통해 측정된 시퀀스(sequence) 데이터(예: 시간에 따른 온도·수질 측정)에서 어떠한 패턴을 찾을 수 있을까? 또한 이런 센서 데이터에서 미래 값을 예측하거나 이상치(anomaly)를 탐지하는 데 중요한 방법은 무엇이 있을까?

먼저 시계열 속성을 띄는 시퀀스 데이터의 경우엔 다양한 방법으로 유사성(similarity)을 찾아낼 수 있다. 예컨대 거리 기반 함수(예. 유클리드 거리)를 활용해 유사성을 찾아볼 수 있고, 여러 사례들을 통해 결론에 도달하는 트리(tree) 기반 방법을 적용해 볼 수도 있다. 또는 특성을 추출하는 방법(예: DFT, wavelets, SVD etc)을 활용해 볼 수도 있다. 유사성 기반 이외에도 센서 데이터에서 추이(trend), 계절성(seasonality)이 존재한다면 시계열 선형회귀방법을 적용하거나 복잡한 패턴이나 이전시간 값들을 활용한 비선형예측을 적용해 볼 수도 있다.

기존 선행 연구 중에는 유량이나 압력 데이터 등의 시계열 데이터로 활용한 경우 적응형 칼만 필터링(Adaptive Kalman Filtering)을 사용한 사례도 있다. 칼만 필터링은 시계열 데이터에 백색잡음(white noise)이 포함돼 분석에 어려움이 있을 때 적합한 모델로, 예측된 값과 측정의 차이인 에러값을 통해 파열을 감지해 낸다. 적응형 칼만 필터링의 장점은 모델의 추정값과 측정값 사이에 정확한 가중치를 채택할 수 있다는 점이다. 이 가중치도 모델을 통해 자동으로 조정돼 편향(bias)을 줄여주는 추정값을 얻을 수 있다. 실제 현업에서도 센서 데이터는 대부분 일관되게(consistent) 수집될 것이기 때문에 파열을 어느 정도 잘 찾아낼 수 있을 것으로 사료된다. 그러나 칼만 필터링을 적용한 연구들도 살펴보면 보통 시뮬레이션과 실험실 데이터를 사용하기 때문에 오경보율이 높아 이를 보완하려는 연구들 또한 이뤄지고 있다.

다시 돌아와서, 필자가 사용하려는 데이터는 특정 스펙을 가진 누수센서로, 5일 이상 진동이 반복된 데이터를 중심으로 1차 취득 후 필요시, 누수 탐사 전문가들 통한 2차 현장탐사를 실시해서 진동의 원인 및 누수여부를 최종 구분한 데이터이다. 결국 실시간 수집되는 모든 데이터를 가지고 있지 않은 만큼, 패턴을 찾아 유사성을 도출하는 방법론으로 논문의 범위를 좁혀 보려고 한다. 아울러 본 논문의 데이터가 실시간으로 얻어진 것은 아니므로 누수발생 횟수에 대해서 시계열성을 확인하기에는 어려움이 있었던 점을 밝힌다.

앞서 FT에서도 살펴봤듯, 시계열 데이터는 실수부와 허수부로 구성된 복소평면으로 맵핑이 된다. 이 때 주파수-진폭(amplitude)은 실수부로 표현되며, 진폭을 통해 어떤 주파수에서 피크가 나타나는지 확인할 수 있다. 그리고 주파수-위상(phase)으로 나타나는 허수부에선 주파수-진폭에서 피크가 뜨는 포인트에 위상변화가 존재했는지 여부를 확인할 수 있다. 해당 사실을 필자의 연구에서 상수관로의 진동센서 데이터의 실수부만 활용하는 게 과연 충분한지와 연결지어 생각해 보자. 실제 실시간 데이터에서 아무런 정보값이 없을 때 누수음을 탐지해 내고자 한다면, FFT 변환 후에 각 진동의 위상변화도 확인할 필요가 있다. 하지만 충분히 작은 단위로 쪼개어 변환한 데이터의 정보손실값은 상대적으로 적어서, 누수피크를 어느 정도는 구분할 수 있을 것으로 판단했다. 더욱이 아마도, 센서 데이터를 통해서는 사실상 아주 미세한 징후를 잡아내어 매우 이른 조기경보(super early alert)를 하는 것에는 무리가 있다. 따라서 기존의 사람이 투입돼 아날로그적으로 탐사하거나 사용자의 신고에 의한 경우 이른 알람(early alert)을 통한 위기관리(risk management)에 목적을 두었다.

결국은 분류 문제

예를 들어, 감지된 클러스터 수가 예상되는 정상 흐름 소스 수보다 높으면 대상 지역에 이상이 존재할 가능성이 높다. 필자의 상수관로 누수 여부를 검출하는 데에 있어도 클러스터가 한쪽이 집중되는 것이 생기는지, 또는 혼동되는 패턴이 들쑥날쑥하게 나타나는 여부에 따라 분류(partitioning)의 양상이 달라질 것이다. 결국, 비정상적인 방식으로 동작하는 이상 집단을 탐지하는 것이 목적이다. 시간 데이터를 고려할 때 더욱 복잡한 유형의 비정상적 동작을 포착할 수 있는 가능성이 있지만, 현재 데이터 제약이 존재하는 만큼 전자로 접근하는 것이 더 적절한 방법인 것으로 판단된다.

아래는 군집화 양상을 보기 위해 데이터를 UMAP으로 시각화한 그림이다. 비교를 위해 전체 데이터와 특정 지역(‘go-‘로 표기)을 확인했다.

일부지역과 전체 데이터 UMAP 결과. 일부지역은 ‘go-‘로 시작하게 라벨링함.

누수가 아닌 상태로 분류되는 normal(실제 정상음), other(환경음과 같은 음), noise들 중에도 정상과 노이즈들은 중앙에 몰려서 덩어리를 이루고 있다. 그리고 누수상태인 옥외(out)과 옥내(in)의 경우는 바깥쪽으로 흩뿌려져 있는 모습을 확인할 수 있다.

측정 횟수별 기준치 이상으로 반응한 진폭 평균값

또한 측정 횟수별 기준치 이상 반응한 진폭 평균값을 나타낸 위 히스토그램을 살펴보면 패턴이 확연히 다르게 나타나는 것을 확인할 수 있다. 현재 필자가 가진 데이터는 FFT 이후의 데이터이다. 이미 복소평면으로 변환이 돼 있지만, 그럼에도 이를 이용한 분류모델을 현실에 적용하려면 계산효용(computational efficiency)이 꽤나 높아야 할 것이다. 기존 선행 연구를 살펴보면, 신경망(Neural Network, NN)이나 부스팅(boosting) 계열의 모델을 사용하는 경우가 있었다. 이들은 보통 유압데이터(hydraulic data)를 활용한 경우였는데, 통계량의 임곗값(threshold)을 기준으로 검출해 내거나, 군집을 나눈 후 NN을 활용하는 최근 연구들이 있었다. 그러나 일반적으로 이런 모델들은 계산효용이 매우 낮다.

특성을 잘 찾아내기 위해

앞서 언급한 대로 필자는 시간 도메인에서 주파수 도메인으로 데이터를 전처리했다. 그러면 분류를 잘해주기 위해서 정보값을 표현해 주는 축을 뽑아 데이터를 재정렬해보면 어떨까? 일단 데이터의 특성을 살펴보자. 현재 사용할 데이터는 정규성을 띄지 않고 있고, 특정 분류군의 데이터는 서로 다른 신호 분포를 가지고 있다. 따라서 여기서는 독립성분분석(Independent Component Analysis, ICA) 적용 연구를 살펴보려고 한다.

누수에서는 특정 주파수의 활동이 주로 나타나는데, 비슷하게 뇌파 연구에서도 특정 주파수 대역(델타, 세타, 알파, 베타 및 감마)에서 독특한 특성을 갖는 것으로 알려진다. 해당 연구에서는 ICA를 FFT 변환 후 주파수 도메인 데이터에 적용을 하기도 하고, ICA를 시간 도메인에 적용했다. 주파수 영역에서 얻은 해당 구성요소를 시간 영역에 맵핑함으로써 시간에 따른 공간분포를 연구하는 게 본 논문의 목적인 것으로 분석된다. 결국 뇌파이기 때문에 시공간 역학을 단일 모드로만 모델링할 수 없었다는 한계를 개선하고자 노력한 것인데, 필자가 사용하려는 누수신호연구에서도 시공간을 모두 고려하고자 한다면 꽤나 복잡한 모델이 돼야만 할 것이다.

나가며 

상수관로의 누수를 찾는 것은 공공기반시설의 효율적 관리 측면과 경제적 측면 모두에 있어 중요한 현안으로 대두되고 있다. 앞서 접근한 방법론들의 일부는 관계자들 사이에서 활발히 적용하고 있지는 않은 것으로 보인다. 현실문제에 적용하려면 모델의 업데이트 주기는 어느 정도로 해야 할지, 데이터의 업데이트는 어느 구간으로 해야 할지, 비용적 비효율성은 어떻게 개선해야 할지 등 고려해야 할 점들이 잠시만 생각해 봐도 많다.

필자는 현시점으로는 분류 문제의 정확성을 높이며, 계산효율성을 높일 수 있는 방향으로 고민하고 있다. 이번 글에서는 대략적인 방법론에 대해서 언급했다. 향후 연구에서는 실시간 데이터를 가지고 있을 경우(트래킹이 가능한 경우)로 확장해서 관로의 수명을 확률적으로 예측할 수 있는 부분도 연구의 필요성이 있고, 관로 시스템 데이터를 네트워크 형태로 파악이 가능하다면 시계열 네트워크를 결합해서 연구할 수 있다.

Similar Posts