머신러닝 기반 물 분배 시스템 성능평가 프레임워크 개발
Development of a Machine-learning-based Framework to Assess the Performance of Water Distribution Systems
Article information
Abstract
최근 상수도 통계에 따르면, 전국적으로 상수도 보급률이 약 99%에 이르며 매우 높은 수준을 유지하고 있다. 그러나 노후된 관로로 인해 발생하는 파손 및 수질 문제는 여전히 운영상에서 어려움을 야기하고 있다. 이러한 문제를 예방하고자 시스템의 성능을 정량적으로 평가하여 효과적인 유지관리 수행하도록 성능평가를 수행한다. 현재 국내에서 시행되고 있는 성능평가는 간접평가와 직접평가를 결합한 점수평가 방식이 적용되고 있다. 그러나 현재 수행중인 성능평가 중 관체 또는 관로내부를 조사하는 직접평가의 경우 모든 관로에 대해 시행하기에는 비용과 시간이 제한적이다. 따라서, 이러한 한계를 극복하기 위해, 본 연구에서는 머신러닝 기법 중 Deep neural network를 적용하여 물 분배 시스템의 노후도를 평가하고, 직접 평가와 간접 평가 간의 상관관계 분석을 통해 간접평가 결과를 바탕으로 직접평가 결과를 추정하여, 모든 관로를 대상으로 직접평가를 수행하고 이를 통해 성능평가의 신뢰도를 높일 수 있는 물 분배 시스템 성능평가 프레임워크를 개발하였다. 더 나아가, 직접평가에 필요한 학습데이터의 부족 문제를 해결하기 위해 데이터 증강기법을 도입하였다. 본 연구에서 제안한 물 분배 시스템 성능평가 프레임워크는 현재 수행중인 성능평가의 효율성과 정확성을 향상시킬 수 있는 새로운 방법을 제시하며, 보강 우선순위 결정을 지원하는 데 유용할 것으로 기대된다.
Trans Abstract
Recent statistics indicate that the national water supply coverage is approximately 99%, reflecting a high level of service. However, the aging infrastructure continues to cause issues such as pipe failures and water quality concerns, creating operational difficulties. To solve these issues, performance assessments are used to quantitatively evaluate the system conditions and ensure effective maintenance. In Korea, these assessments are based on a scoring system that combines direct and indirect assessments. However, direct assessment of all pipes is limited by cost and time constraints. To address this issue, a deep neural network is used to assess the aging of water distribution systems. This study develops a framework to estimate direct results from indirect data by analyzing the correlation between indirect and direct assessments. Additionally, data augmentation is considered to compensate for the lack of training data in direct assessments, improve the reliability of performance assessments, and support better prioritization in system maintenance.
1. 서 론
물 분배 시스템은 도시 생활의 필수 기반 시설로, 적절한 수량, 수압, 수질을 제공해 공공 건강과 생활 수준을 유지하는 중요한 역할을 한다. 그러나 대부분의 물 분배 시스템은 지중에 매설되어 있어 누수나 파손을 초기에 발견하기 어렵다(Park et al., 2018). 특히, 도시의 발달과 더불어 물 분배 시스템의 확장은 비정상 상황 발생 시 더 큰 피해를 유발할 수 있으며, 최근에는 관로의 노후화와 자연재해로 인한 파손 사고가 증가하고 있으며, 이는 시스템의 압력 저하와 용수 공급 중단으로 이어질 수 있으며, 병원과 소방서 같은 중요 시설에도 심각한 영향을 미친다(Jang et al., 2022). 이러한 이유로 물 분배 시스템과 같은 사회 기반시설의 정기적인 점검과 유지 관리가 필수적이다(Park and Choi, 2022). 이러한 이유로, [시설물의 안전 및 유지관리에 관한 특별법(시특법)]과 [수도법]에 따라 5년마다 수도시설물의 정밀 안전 점검과 전문 기술 진단을 통해 수도시설의 성능평가를 시행하고 있다. 시특법은 물 분배 관망의 물리적⋅기능적 결함을 조사해 구조적 안정성을 확보하는 데 중점을 두고, [수도법]은 관리 상태를 점검하여 기능 개선과 안정성을 확보하는 것을 목표로 하며, 두 법안 모두 수도관의 직⋅간접 평가를 통해 수도관의 성능을 평가하여 향후 유지관리 전략을 수립하는 데 활용한다.
여기서, 간접평가는 물 분배 시스템의 성능평가 수행과정에서 매설시기, 관경, 관종, 사고이력, 주민민원 이력 등의 객관적인 정보를 통해 성능평가 시 직접평가 여부를 결정(C 등급 이상 시 직접평가 수행)하는 데 사전평가이며, 직접평가는 관체조사 및 내시진단를 통해 관의 상태를 평가하여, 갱생 및 교체를 판단하는 평가기법이다. 하지만, 이러한 평가 절차 중 직접평가는 물리적 검사(i.e., 관체조사, 내시진단)에 크게 의존하지만 매설된 모든 관에 대해 직접평가를 하기에는 진단 비용 및 시간 등의 제약조건에 따라 모든 지점에 대한 직접평가 수행에는 한계가 발생한다. 따라서, 성능평가 과정에서 전통적인 물리적 검사방법에서 최신 인공지능 및 빅데이터를 활용한 평가 및 진단 기법이 필요하다.
최근 인공지능 기술의 급격한 발전과 데이터 분석 기술의 발달은 물 분배 시스템의 진단 및 성능평가 방식을 크게 변화시키고 있다. 인공지능을 기반으로 한 진단 및 성능평가 사례는 물 분배 시스템 유지관리에 있어 중요한 요소로 자리매김하고 있으며, 이를 통해 실시간 데이터 모니터링과 비정상상황(i.e., 누수, 관 파괴, 압력저하 등) 예측이 가능해짐으로써 더욱 효율적이고 체계적인 관리가 가능해지고 있다. 이러한 변화는 물 분배 시스템의 운영 효율성을 획기적으로 향상시킬 수 있다. 이러한 이유로 물 분배 시스템에서 관로의 상태평가와 진단에 인공지능 기술은 크게 기여하고 있으며, 관로의 잔존수명을 예측하고 누수를 탐지하는 등 다양한 분야에서 활용되고 있다. Vanijjirattikhan et al. (2022)은 성능평가 시 발생 가능한 관로의 누수를 탐지하기 위해 인공지능 기반의 누수 탐지 모델을 개발하여 관로의 노후도에 따른 누수탐지 이력을 분석하여 누수탐지의 성능을 개선하였다. 이러한 인공지능을 활용한 누수탐지는 관로에 대한 기본정보와 대규모 계측 데이터 학습을 통해 누수 발생 가능성을 사전에 예측하고, 문제 발생 시점을 경고할 수 있어 신속한 대응이 가능하다.
또한 최근에는 딥러닝 기술을 적용하여 물 분배 시스템의 노후도를 평가하여 잔존수명을 예측하거나, 간접평가 결과와 향후 비정상상황에 대한 상관관계 분석을 통해 비용과 시간 소모가 큰 직접평가를 대체 하려는 기술이 제안되고 있다(Chen et al., 2021; Lee and Park, 2017; Smith and Brown, 2020). Lee et al. (2020)은 선형회귀와 랜덤포레스트 모형을 사용하여 관로의 노후도를 평가하는 방법을 제안하였다. 특히, 본 연구에서는 물 분배 시스템의 설치 및 수리학적 데이터를 활용하여 관로의 잔존 수명과 노후도를 예측하는 모델을 개발하였으며, 이를 통해 물 분배 시스템의 문제 발생 가능성을 사전에 파악하고 유지보수 계획을 개선할 수 있음을 보였다. Smith and Johnson (2019)는 IoT 센서를 통해 물 분배 시스템 내 압력, 유속, 유량 등의 다양한 데이터를 실시간으로 수집하고, Artificial neural network (Cybenko, 1989)와 Support vector machines (Cortes and Vapnik, 1995)을 통해 데이터를 분석하여 파이프라인의 상태평가 수행하였다. 하지만, 위의 연구들은 인공지능 기법을 활용하여 물 분배 시스템의 노후도 및 잔존수명 등의 예측과 관련된 연구를 수행하였지만 시스템 전체에 대한 평가를 수행하였으며, 새로운 통합평가 지표를 개발 및 적용을 통해 성능평가 수행하였다. 이러한 연구는 물 분배 시스템의 새로운 성능평가 기법을 제안하기에 효과적인 연구이지만, 현재 진행 중인 성능평가(간접평가 결과에 따른 직접평가 수행) 절차에는 적용이 어렵거나, 추가해야할 과정이 다소 존재한다.
따라서, 본 연구에서는 이러한 관로 성능평가 기법의 한계를 개선하기 위해 머신러닝 기법을 활용한 물 분배 시스템의 성능평가 프레임워크를 제안하였다. 제안한 기법은 머신러닝 기법 중 Deep neural network (DNN; Montavon et al., 2018)를 활용하여 간접평가 결과와 직접평가 결과의 상관성을 분석하여 간접평가 결과를 바탕으로 직접평가 결과를 추정하고, 시간 및 비용 측면의 제약조건이 존재하는 직접평가를 모두 관로대상으로 수행하여 성능평가 신뢰도를 높일 수 있는 기법을 개발하였다. 이를 바탕으로 물 분배 시스템 평가성능 향상 및 보강 우선순위 선정 단계에서 의사결정 지원에 도움이 될 것으로 판단된다.
2. 인공지능을 활용한 물 분배 시스템 성능평가 프레임워크
본 연구는 물 분배 시스템 성능평가 과정에서 관체조사 및 내시진단과 같은 직접평가 방법이 지니는 한계점을 해결하기 위해, 인공지능 기술 중 하나인 Deep Neural Network (DNN)을 적용한 성능평가 프레임워크를 제안하였다. 이 기법은 물 분배 시스템의 노후도 평가 결과를 학습 자료로 활용하였으며, 모델의 학습 효율성을 높이고 성능을 최적화하기 위해 데이터 정규화 과정을 거쳤다. 이후, 성능평가 데이터 중 직접평가인 내시 진단 및 관체 조사 데이터의 부족함을 해결하기 위해 이미 확보된 데이터를 바탕으로 데이터 증강기법을 통해 데이터의 개수 및 다양성을 확보하였다. 이때, 증강된 데이터 셋은 DDN의 학습데이터로서 부족한 학습데이터의 수와 다양성 향상을 통해 물 분배 시스템 성능평가의 신뢰도를 높일 수 있었으며, 이 결과를 바탕으로 물 분배 시스템의 갱생 및 교체 우선순위 산정에 적용하였다.
2.1 성능평가 인자 산정
인공지능을 기반으로 한 물 분배 시스템 성능평가 체계를 구축하기 위해 필수적인 학습데이터는 국내에서 널리 사용되는 점수평가법(Numerical weighting system)을 통해 수집된 상수관로 노후도 평가결과를 바탕으로 하였다. 점수평가법은 상수관로의 상태를 세밀하게 파악하기 위한 방법으로, 관로의 제원, 매설환경, 운영관리 이력 등의 기초자료를 수집하여 이를 바탕으로 물리적 특성을 분석하는 간접평가와 관로 상태가 악화된 것으로 예상되는 구간을 현장에서 직접 조사하여 상태를 분석하는 직접평가를 통해 개선 방안을 마련한다(ME, 2020). 관로 정보 수집 단계에서는 신뢰성 있는 데이터를 확보하기 위해, 평가 방법에 따라 관의 종류별(i.e., 강관, 주철관종, 플라스틱 관종) 조사항목을 Table 1과 같이 정리하였다.
본 연구에서 제안된 물 분배 시스템 성능평가 체계의 평가항목으로는 Table 1의 조사항목 중 ‘관경’, ‘매설연수’, ‘최대 정수압’, ‘파손 건수’, ‘밸브 및 분기점 밀도’, ‘간접평가 점수’ 등 6가지 주요 항목을 입력변수로 사용하였다. 이는 Table 2에서 포함된 관 종에 따른 간접평가 항목에서 공동적으로 포함된 항목으로 각 평가 항목에 대한 수치범위는 0.0 부터 1.0 까지 설정되었다. 특히, 상태가 불량할수록 조건 값이 낮아지도록 설정하였다. 이는 동일한 평가 항목일지라도 관종별 상태 악화에 미치는 영향이 다를 수 있기 때문에, 관종별로 범위를 다르게 설정한 후 가중치를 적용하여 간접평가 점수를 산정하게 된다. 본 연구에서는 상수관로 중 가장 높은 비율로 사용되는 관종인 주철관(DCIP)을 대표 관종으로 선정하여 모델의 적용 가능성을 검토하였다. 관로 정보 중에서 특히 노후화에 큰 영향을 미치는 변수들을 선정하고 가중치를 부여하였다. Table 3은 점수평가법 및 연구에서 사용된 평가 항목의 가중치를 제시하며, 가중치 총합은 1.0이 되도록 조정되었다(ME, 2020).
간접평가를 통해 산정된 평가 점수는 각 평가 항목의 조건 값에 가중치를 곱한 후, 이 값들을 모두 더해 가중치 합으로 나눈 값으로 계산된다. 매설연수에 따른 노후도 보정계수도 적용되어 최종 점수가 도출된다. Table 4는 매설연수에 따른 관 상태 보정계수를 나타내고 있으며, Eq. (1)은 간접평가 단계에서 점수를 계산하는 공식을 보여준다. 또한, Table 5에서는 간접평가 점수 계산의 예를 제시하고 있다(ME, 2020).
여기서, Indirect deterioration point (IDPi)는 대상관로 (i)의 간접평가 상태점수를 의미하며, fIDPi는 평가 항목의 조건값을 의미하며, wIDPi는 평가항목의 가중치를 의미하며, IDPcor,i는 매설연도에 따른 관상태 보정계수를 의미한다.
간접평가에 따라 산정된 노후도 등급은 관종별로 상태 점수에 따라 A 등급부터 C 등급으로 구분되며, 각 등급과 그에 해당하는 관 상태는 Table 6에 나타나 있다(ME, 2020). 예를 들어, A 등급은 계속 사용하거나 세척이 필요한 상태를 나타내며, B 등급은 갱생이 필요한 상태, C 등급은 갱생 또는 교체가 필요한 상태를 의미한다. 그러나 간접평가 결과는 기초자료의 신뢰성에 따라 변동될 수 있으므로, 최종 유지관리 방안을 결정하기 위해서는 간접평가 결과를 바탕으로 직접평가가 병행되어야 한다.
직접평가는 간접평가에서 C 등급으로 평가된 관로에 대해 현장 조사지점을 선정하여 실시한다. 현장에서는 관체분석, 내시진단 등의 육안 조사를 수행하여 관 상태를 분석하며, 이를 바탕으로 개량 방안을 결정하게 된다. 본 연구에서는 직접평가 결과를 출력변수로 설정하였다. 직접평가는 관 내부의 상태(i.e., 내부 손상 두께, 부식 정도, 침전물 두께, 접합부 상태)를 세밀히 분석하며, 평가 항목별로 손상 정도를 고려해 노후도를 평가한다. 평가 결과에 따른 노후도 등급은 각 항목의 면적 비율과 가중치를 고려하여 산정된 평가 점수로 결정된다. Eq. (2)는 직접평가에 따른 관 상태 점수 산정 방식을 설명하며, Table 7은 각 평가 항목과 항목별 가중치를 보여준다.
여기서, DDPi는 대상관로 (i)의 직접평가 상태점수를 의미하며, fIDPi는 평가항목의 조건 값을 의미하며, wIDPi는 평가항목의 가중치, wa는 대상관로 (i)의 면적가중치를 의미한다.
본 연구에서는 상수관로 모델 개발을 위해 간접평가 항목을 입력변수로 설정하고, 직접평가 결과를 출력변수로 사용하였다. 모델의 학습 과정에서는 데이터의 스케일 차이를 줄이기 위해 최소-최대 정규화(Min-Max normalization)을 수행하였다. 각 평가 항목은 서로 다른 단위와 측정 방법을 통해 수집되므로, 스케일 차이가 발생할 수 있으며, 이러한 차이는 모델의 학습 과정에서 데이터 불균형을 유발하거나 학습 알고리즘의 수렴 속도 및 성능에 부정적인 영향을 미칠 수 있다(Patro and Sahu, 2015). 이를 해결하기 위해 모든 항목의 데이터를 동일한 스케일로 조정하여 학습 효율성을 높이고 안정성을 보장하기 위해 최소-최대 정규화를 사용하였다. 최소-최대 정규화는 데이터를 0과 1 사이의 값으로 변환하는 방식이며, Eq. (5)는 이 정규화 과정을 설명하는 공식을 나타낸다.
여기서, xi는 특성에 대한 개별 데이터를 의미하며, xmin는 특성 데이터의 최솟값을 의미하며, xmax는 특성 데이터의 최댓값을 의미한다.
2.2 인공지능 기법을 활용한 상수관로 성능평가모델
Deep Neural Network (DNN)은 다수의 은닉층(Hidden layer)을 포함하는 머신러닝 모델 중 하나로, 복잡하고 비선형적인 데이터 패턴을 학습하는 데 매우 효과적이다(Montavon et al., 2018). DNN의 기본적인 학습 구조는, 입력층(Input layer)에서 데이터를 입력받아 여러 은닉층을 통과하면서 중요한 정보들을 추출하고, 최종적으로 출력층(Output layer)에서 학습된 정보를 바탕으로 평가 값을 산출하는 방식으로 구성된다. 각 레이어에서는 뉴런들이 활성화 함수를 통해 데이터의 비선형적 특성을 학습하게 된다. 상수관로의 노후도를 평가하는 과정에서, DNN은 다양한 노후도 인자들을 효과적으로 분석하며, 방대한 데이터를 바탕으로 비선형적인 패턴을 학습함으로써 높은 예측 성능을 달성할 수 있다. 이에 따라 본 연구에서는 DNN을 이용해 상수관로 성능평가 모델을 개발하였으며, Fig. 1은 본 연구에서 활용한 DNN의 구조를 시각적으로 나타내고 있다.
기계 학습에서 흔히 발생하는 문제 중 하나는 기울기 소실(Gradient Vanishing)이다. 이는 역전파(Backpropagation) 과정에서 발생하며, 학습 중에 가중치 업데이트가 효과적으로 이루어지지 않기 때문에 은닉층이 충분히 학습되지 못하는 현상이다(Hu et al., 2018). 기울기 소실 문제는 DNN에서 특히 심각하게 나타날 수 있으며, 이로 인해 성능이 저하될 가능성이 크다. 본 연구에서는 이러한 문제를 해결하기 위해 ReLU (Rectified Linear Unit) 활성화 함수를 적용하였다. ReLU 함수는 비선형 함수로, 입력 값이 0 이하일 경우 0을 출력하고, 0 보다 큰 값에 대해서는 그 값 자체를 출력하는 방식이다. ReLU를 통해 깊은 신경망 구조에서도 기울기 소실 문제를 최소화할 수 있다. 또한 학습 최적화를 위해 Adam 알고리즘을 사용하였다. Adam 알고리즘은 기울기의 제곱 평균과 평균을 동시에 고려하여 학습률을 동적으로 조정한다. 이 알고리즘은 다양한 학습 환경에서 안정적으로 작동하며, 초기 학습률에 대한 민감도가 낮기 때문에 다양한 문제에 효과적으로 적용될 수 있다.
성능평가를 위해 본 연구에서는 F1-Score를 사용하였다. F1-Score는 정밀도(Precision)와 재현율(Recall)의 조화 평균으로, 데이터셋이 불균형한 경우에도 모델의 성능을 적절하게 평가할 수 있는 지표로 널리 사용된다(Goutte and Gaussier, 2005). 데이터 불균형이 심한 경우, 특정 클래스의 데이터 비율이 높으면 모델이 해당 클래스에 과도하게 편향될 수 있는데, 단순한 정확도만으로는 이러한 문제를 파악하기 어렵다. 따라서, F1-Score를 적용하여 정량적으로 평가하는 것이 중요하다. F1-Score에서 정밀도는 모델이 Positive로 예측한 값 중 실제 True인 값의 비율을 의미하며, 재현율은 실제 True인 값 중에서 모델이 Positive로 예측한 값의 비율을 나타낸다. 한 지표만 높고 다른 지표가 낮을 경우 F1-Score의 값도 낮아지게 된다. Table 8은 실제 클래스와 예측된 클래스를 기반으로 한 혼동행렬(Confusion Matrix)을 나타내며, Eqs. (3), (4)는 각각 재현율과 정밀도를 계산하는 공식을 설명하고 있다. Eq. (5)는 F1-Score를 산정하는 공식이며, Eq. (6)은 정확도를 계산식을 나타낸다.
여기서, TP는 True Positive를 의미하며, TN은 True Negative를 의미하며, FP는 False Positive, FN는 False Negative를 의미한다.
2.3 Self-training 데이터 증강기법
데이터 증강기법은 머신러닝 모델의 학습에서 데이터 부족 문제를 해결하기 위해 널리 사용된다. 특히 이미지 처리 분야에서는 데이터 증강(Data Augmentation)이 주로 사용되며, Convolutional Neural Networks (CNN)와 같은 모델을 학습할 때 이미지의 회전, 반전, 확대 및 축소 등의 변환을 통해 데이터의 다양성을 증가시키는 데 활용된다(Zhu and Goldberg, 2022). 데이터 증강기법은 이미지뿐만 아니라 수치 데이터에도 효과적으로 적용된다.
본 연구에서는 레이블이 지정된 데이터의 양이 제한적이었기 때문에, 레이블이 없는 데이터를 활용하기 위한 Self- training 기법을 적용하였다. Self-training은 준지도 학습(Semi- supervised learning) 기법 중 하나로, 레이블이 있는 데이터와 없는 데이터를 함께 활용하는 방식이다(Yang et al., 2022). Self-training의 기본 원리는 레이블이 있는 데이터를 통해 초기 모델을 학습시키고, 그 모델을 이용해 레이블이 없는 데이터를 예측한 후, 예측 결과 중 신뢰도가 높은 데이터를 다시 학습 데이터에 포함시키는 것이다. 신뢰도가 높다고 판단하는 기준은 확률적 접근에 기초한다. 예를 들어, 분류 작업에서 특정 클래스에 대한 예측 확률이 95% 이상일 경우, 해당 데이터는 신뢰도가 높다고 간주되어 레이블된 데이터에 포함될 수 있다. Self-training 기법의 장점은 제한된 레이블 데이터를 바탕으로 학습 데이터의 양을 증가시킬 수 있다는 점이다. 하지만 레이블 없는 데이터를 과도하게 추가하면 모델 성능이 저하될 수 있으므로, 적절한 임계치를 설정하는 것이 중요하다. 본 연구에서는 80% 이상의 정확도를 나타내는 데이터를 기준으로 최적의 데이터를 선정하였다. Fig. 2는 Self-training의 기본적인 절차를 나타내는 개념도를 나타낸다(Zhu and Goldberg, 2022). 이를 통해 본 연구는 DNN 모델을 최적화하고, 데이터 부족 문제를 해결하는 동시에 모델 성능을 극대화하는 방법론을 제안하였다.
3. 적용 결과
본 연구에서 개발한 물 분배 시스템 통합평가 체계의 실용성을 검증하기 위해 가상 관망을 활용한 평가를 먼저 수행한 후, 이를 실제 국내 관망에 적용하여 결과를 분석하였다. 가상 관망은 Mays 네트워크(Ozger, 2003)를 기반으로 하였으며, 이 네트워크는 두 개의 수원에서 시간당 2,202 CMS의 용수를 공급받는 13개의 절점과 21개의 관로로 구성되어 있다(Fig. 3). 9개의 제수밸브가 추가되어 블록 및 비의도적 고립구역에서 발생하는 미공급 수요량을 계산할 수 있도록 설정하였다. 이 관망은 다중 수원 체계를 갖추고 있어 수원 1 (R1) 영역의 관로가 파손되더라도 다른 수원(R2)에서 계속해서 용수를 공급할 수 있으며, 비정상 상태나 수요 패턴에 따른 공급량 분석 등의 다양한 해석 옵션에 활용되어왔다.
3.1 물 분배 시스템 성능평가
본 연구에서는 물 분배 시스템의 성능평가 모델을 개발하기 위해 다양한 물리적 특성 및 사고 이력 데이터를 기반으로 학습 데이터를 구축하였으며, 이 과정에서 인공신경망 모델 중 하나인 DNN을 사용하였다. DNN을 이용한 성능평가 모델은 다량의 데이터를 효과적으로 처리하고, 물 분배 시스템의 노후도를 정확하게 예측할 수 있는 장점을 지닌다. 학습 데이터는 국내 여러 지자체의 물 분배 시스템 정보를 대상으로 수집되었으며, 데이터의 스케일 차이를 최소화하고 학습의 효율성을 극대화하기 위해 데이터 정규화를 적용하였다. 또한, 성능을 더욱 개선하기 위해 은닉층의 뉴런 수 및 에포크 수에 따라 손실함수를 비교하고 최적화하는 매개변수 조정 과정을 거쳤다. 더불어, 학습 데이터의 양이 상대적으로 부족한 문제를 보완하기 위해 데이터 증강기법을 적용하여 모델 성능을 향상시키고자 하였다.
3.1.1 데이터 현황 및 학습데이터 구축
학습 데이터는 국내 4개의 지자체로부터 수집된 노후도 평가 결과를 기반으로 총 78,867개의 데이터를 확보하였다. 수집된 데이터는 관종별로 분류되었으며, 주요 관종으로는 DCIP (덕타일 주철관), PVC 및 PE 등의 비금속관, CIP (주철관), 그리고 SP (강관) 등이 포함된다. Table 9는 지자체별로 물 분배 시스템 현황을 나타내고 있으며, DCIP가 전체의 약 51.4%를 차지하고 있어 주요한 관종으로 분류되었다. DCIP 관은 뛰어난 내부식성 및 내압성을 지니고 있으며, 연결 방식이 용이해 물 분배 시스템에서 주로 사용되는 장점이 있다. ME의 물 분배 시스템 정밀 조사 매뉴얼에 따르면, 관종별로 평가 항목과 가중치가 다르므로, 동일한 기준으로 관종별 노후도를 평가하는 것은 어려울 수 있다. 따라서, 본 연구에서는 통일된 평가 기준을 마련하고, 일관된 분석을 위해 높은 비율을 차지하는 DCIP 관종을 중심으로 성능평가 모델을 개발하였다.
노후도 평가는 크게 간접평가와 직접평가로 나뉘며, DCIP 관종에 대한 간접평가 결과는 A 등급에서 C 등급으로 분류된다. Table 10은 DCIP 관종의 간접평가 등급별 현황을 나타내고 있으며, 총 40,555개의 데이터 중 A 등급 관로는 26,913개(64.6%), B 등급은 6,090개(15.0%), C 등급은 8,272개(20.4%)로 분류된다. G시의 물 분배 시스템 평가 결과에서는 A 등급 관로가 전체의 74.5%를 차지하며, C 등급 관로는 39.1%로 나타났다. 그러나 간접평가에서 C 등급으로 분류된 관로에 대한 직접평가는 진단 비용과 시간 제약으로 인해 수행률이 저조한 상태로, 53개소(0.64%)에 불과하다. Table 11은 DCIP 관종의 직접평가 등급별 현황을 나타내며, 5등급 관로가 교체가 필요한 상태로, 전체의 81.1%를 차지하였다.
본 연구에서 개발된 물 분배 시스템 성능평가 모델은 점수평가법을 기반으로 학습 데이터를 구축하였으며, 또한, Table 12는 학습 데이터의 항목 간 스케일 차이를 최소화하기 위해 수행된 최소-최대 정규화 결과를 제시하고 있으며, 이 데이터를 바탕으로 DNN의 학습데이터로 사용하였다.
3.1.2 매개변수 민감도 분석
물 분배 시스템 성능평가 모델은 DNN 모델을 기반으로 구축되었으며, 매개변수 설정이 모델의 성능에 중요한 영향을 미친다. DNN 모델의 매개변수에는 은닉층의 뉴런 수, 에포크 수 등이 포함되며, 이들의 최적 값을 설정하는 공식적인 규칙은 존재하지 않는다. 따라서 본 연구에서는 DNN의 매개변수 민감도 분석을 통해 최적의 매개변수를 결정하였다. 매개변수 조합에 따른 정확도 및 F1-Score를 비교하는 방식으로 최적의 매개변수를 선정하였으며, 그 결과 No. 은닉층 = 2, No. 뉴런(L1) = 16 / (L2) = 8, 활성함수 ReLU, 최적화 알고리즘 Adam으로 선정하였다. 또한, 에포크(Epoch)는 학습 데이터가 모델을 통과하는 횟수를 의미하며, 적절한 에포크 수를 설정함으로써 모델 성능의 최적화 및 과적합 방지 간의 균형을 조정할 수 있다. 앞서 선정된 뉴런 조합을 바탕으로 에포크 수에 따른 손실함수의 변화를 비교한 결과, 평균제곱오차(Mean squared error, MSE)와 평균절대오차(Mean absoulte error, MAE)를 손실함수로 사용하였다. 에포크 수는 1~1000 까지 변화하면서 손실함수의 성능 비교 결과 에포크가 300일 때, MSE는 6.87, MAE는 10.3 등 최소오차를 보이며 최적의 에포크 수를 결정할 수 있었다.
3.1.3 데이터 증강을 통한 성능평가 모델 정확도 향상 결과
본 연구에서 개발된 물 분배 시스템 성능평가 모델은 관경 및 매설연수, 정수압, 사고이력, 분기점, 간접평가 점수 등의 입력변수와 출력변수로서 직접평가 결과를 학습데이터로 구성하였다. 하지만, 대상지역의 전체관로의 약 0.1% 만이 직접평가를 수행하고 있기 때문에 입⋅출력변수를 구성하는 학습데이터의 부족문제가 잔존하고 있다. 따라서, 본 연구에서는 학습데이터의 부족 문제를 해결하고자 데이터 증강기법을 적용하였다. 이는 Self-training approach를 적용하여 기존 학습데이터를 통한 예측결과 중 높은 정확도를 보이는 결과를 학습데이터로 사용하여 데이터를 증강하는 기법이다. 따라서, 본 연구에서는 데이터 증강기법의 효과를 분석하기 위해 적용 전후에 대해 데이터 예측정확도를 비교하였다. 우선, 데이터 증강기법을 적용하지 않은 평가모델(Original version)은 원본 데이터를 바탕으로 학습이 진행되었으며, 검증 결과 약 72%의 정확도를 도출하였다. 반면, Self-training approach 데이터 증강기법을 적용한 모델은 약 84%의 예측 정확도를 나타내었다. Self-training 기법은 1회 수행 시 예측정확도가 높은 상위 10개 데이터 중 정확도 80% 넘을 경우 학습데이터로 선정 후 원본 데이터와 병합하였으며, 총 200회의 Self-training 수행 후, 140회차에서 최적의 정확도에 도달한 후 중지하였다. Fig. 4는 Self-training 데이터 증강기법의 시행횟수에 따른 평가모델의 정확도 결과를 나타내고 있다.
또한, 증강된 데이터를 학습한 평가모델의 성능을 검증하기 위해 테스트 데이터에 대한 성능평가를 수행한 결과, Table 13과 같이 C등급 관로의 정밀도는 0.88, 재현율은 0.93으로 높은 성능을 보였다. 반면, A등급 관로는 정밀도 0.22, 재현율 0.25로 상대적으로 낮은 성능을 나타냈다. Fig. 4는 증강된 데이터를 기반으로 평가모델이 구축된 결과를 나타내며, 총 8,727개의 데이터 중 1,453개를 제외한 6,819개의 데이터가 적용되었다.
결과적으로, Fig. 5와 같이 A등급 관로는 219개(3.2%), B등급 관로는 1,826개(26.8%), C등급 관로는 4,774개(70.0%)로 평가되었다. 이는 간접평가에서 관 상태가 불량하다고 판단된 관로들이 직접평가에서 상대적으로 양호하게 평가된 경우가 많았기 때문으로 해석된다. 이로인해 A 등급 관로의 데이터가 부족한 상황이 발생하였으며, 이러한 문제를 개선하기 위해 추가적인 데이터 확보와 분석이 필요하다고 판단된다.
3.1.4 Mays network에 대해 성능평가 모델 적용 결과
본 연구에서 수행된 물 분배 시스템 성능평가는 각 관로의 노후화에 영향을 미치는 다양한 요인들을 수집된 데이터를 바탕으로 분석하여 진행되었다. 그러나 본 연구에서 사용된 관망은 실제 현장 데이터를 이용한 것이 아니라, 설계 및 운영의 여러 시나리오를 평가하기 위해 구축된 가상 시스템이다. 따라서 본 연구에서는 간접평가 정보 중 매설연수, 사고이력, 분기점 등의 정보의 정규화 지표값을 가정하였고, 관경 및 최대정수압 등은 적용 관망의 수리검토를 통해 입력변수를 구성하였다. 이를 고려하여 Mays network의 제수밸브를 통해 구분된 5개의 블록 별 평균 직접평가를 수행하였다. 또한, 도출된 블록별 성능평가 등급에 따른 취약도(Vulnerability) 점수(A 등급: 1 pt, B 등급: 2 pt, C 등급: 5 pt)를 부여하여 시스템 보강 우선순위를 산정하였다. Table 14는 성능평가 결과와 각 블록별 보강 우선순위를 나타내고 있다.
블록 1은 C 등급에 속하는 관로로, 교체가 필요할 정도로 상태가 불량한 관로로 구성되어 있다. 반면에 블록 3은 상태가 양호한 A 등급 관로와 세척 또는 교체가 필요한 B 등급 관로로 혼합되어 있다. 이러한 블록은 갱생 및 교체가 필요한 상태로, 즉각적인 조치가 필요한 상황임을 의미한다. 이에 반해 블록 4와 블록 5는 A 등급 관로가 다수 포함되어 있거나 노후도 등급이 균일하게 분포되어 있어, 상대적으로 안정적인 상태를 나타내고 있다. 하지만 이러한 상태가 장기적으로 유지되기 위해서는 지속적인 관리가 필요하다. 즉, 안정적인 상태일지라도 주기적인 점검과 유지 보수가 이루어지지 않으면 노후화가 급격히 진행될 가능성이 있으므로 꾸준한 모니터링이 필수적이다. 따라서 본 연구에서 제안된 성능평가 모델은 가상의 데이터를 바탕으로 관로 상태를 평가하고 우선순위를 매기는 데 중요한 역할을 수행하며, 이는 실제 현장에서의 유지관리 방안을 수립하는 데 유용한 기준을 제공할 수 있을 것으로 판단한다.
4. 결 론
본 연구는 물 분배 시스템의 성능평가 신뢰도 향상 및 관체조사 및 내시진단 등을 통해 수행하는 직접평가의 비용적 시간적 한계를 극복하기 위해 머신러닝 기법 중 DNN을 활용하여 물 분배 시스템 성능 평가를 위한 새로운 프레임워크를 제안했다. 이 기법은 기존 성능평가 시 전체관로의 0.1% 내외로 수행되었던 직접평가(*간접평가 C 등급과 주민의 민원 및 관로 배치의 구조적 특징(e.g., 만곡부, 합류점, 분기점)이 있을 경우 직접평가 수행)를 간접평가 결과와 제안된 기법을 통해 추정하여 모든 관에 대해 적용할 수 있다는 점에서 기존 성능평가의 효율성과 정확성을 크게 개선할 수 있음을 보여준다. 특히, 본 연구에서 제안된 데이터 증강기법인 Self-training approach는 학습 데이터가 부족한 상황에서 머신러닝 모델의 성능을 최적화하는 데 중요한 역할을 했다. 이로써 물 분배 시스템의 운영 효율성을 높이고, 비정상 상황 발생 시 신속한 대처가 가능하도록 지원하는 평가 방법을 제시하였다.
그러나 본 연구는 몇 가지 한계를 가진다. 우선, 연구에서 사용된 데이터는 가상의 물 분배 시스템을 중심으로 구성되고 가정되었기 때문에, 결과의 일반화 가능성에는 제한이 있을 수 있다. 또한, 간접평가와 직접평가 간의 상관관계 분석이 이루어졌지만, 모든 환경에서 동일한 결과를 도출할 수 있는지에 대한 추가 검증이 필요하다. 이 외에도 실제 현장 적용에서 발생할 수 있는 변수들을 반영하지 못한 점도 한계로 남아 있다.
향후 연구에서는 다양한 지역과 관로에 대한 정보와 직⋅간접 성능평가 데이터를 수집하고, 이 데이터를 기반으로 모델의 적용 가능성을 더욱 확장해야 할 필요가 있다. 또한, 머신러닝 알고리즘의 성능을 높이기 위한 최적화 방법을 추가적으로 고려할 필요가 있다. 특히, 더 많은 실제 데이터를 활용하여 실시간으로 물 분배 시스템의 성능을 모니터링하고, 예측의 정확성을 높이는 방안이 요구된다. 결론적으로, 본 연구는 머신러닝 기법을 활용하여 물 분배 시스템의 성능 평가에 있어 중요한 도구로 자리 잡을 수 있음을 보여주었으며, 제안된 기법을 통해 직접평가의 비용 절감과 효율성 향상뿐만 아니라 물 분배 시스템의 안정성과 신뢰도를 유지하는 데 중요한 역할을 할 것으로 기대된다.
감사의 글
본 결과물은 환경부의 재원으로 한국환경산업기술원의 가뭄대응 물관리 혁신기술개발사업의 지원을 받아 연구되었습니다(RS-2023-00231944).