인공신경망을 이용한 호우재해 피해특성 예측 연구
Predicting Damage Characteristics of Heavy Rain Disasters Using Artificial Neural Network
Article information
Abstract
호우재해는 우리나라를 대표하는 자연재해로서 매년 태풍과 호우는 전국적으로 다양한 시군구에 피해를 발생시킨다. 호우재해를 저감하기 위해 다양한 예방대책과 저감시설이 도입되었지만 피해는 지속적으로 발생하고 있다. 호우재해의 선제적인 대응을 위해서는 정확도 높은 피해예측이 필요하다. 본 연구에서는 머신러닝을 이용한 호우재해의 피해특성에 대한 예측연구을 수행하였다. 머신러닝 기법으로는 인공신경망을 적용하였으며 1999년부터 2019년까지 호우재해의 피해데이터를 활용하였다. 인공신경망을 이용한 피해예측은 총 강우량, 일 최대 강우량 그리고 총 피해금액에 대하여 분석하였다. 호우재해의 피해특성에 대한 예측은 총 피해금액이 정확도가 가장 높았다. 총 강우량과 일 최대 강우량은 다양한 피해금액의 특성과는 상관성이 적어 낮은 정확도가 분석되었다.
Trans Abstract
Heavy rain disaster is a representative natural disaster in Korea, and causes considerable damage every year as a result of typhoons and heavy rain. Various preventive measures and reduction facilities have been introduced to reduce heavy rain damage, but damage continues to occur. Accurate damage prediction is necessary for preemptive response to heavy rain disasters. A prediction study of the damage characteristics of such disasters using machine learning was conducted. Artificial neural network (ANN) was applied as a machine learning technique, and damage data of the aforementioned disasters from 1999 to 2019 were used. Damage prediction using an ANN was analyzed in terms of total rainfall, maximum daily rainfall, and total damage amount. The prediction of the damage characteristics was most accurate for the total damage amount. Total and daily maximum rainfall are less correlated with the characteristics of various damage amounts, which may explain the low accuracy of the analysis.
1. 서 론
우리나라에서 발생하는 자연재해 중 호우와 태풍은 많은 인명과 재산상의 피해를 발생시키는 재해이다. 최근 강우패턴은 국지성 호우뿐만 아니라 강우량의 총량도 증가하는 추세로서 지속적인 피해가 발생하고 있다. 물론, 재해저감을 위한 다양한 정책이나 시설들이 운영되고 있지만 호우재해의 피해를 저감하기 위해서는 선제적인 피해예측이 중요하다. 적절한 재해저감의 정책과 저감시설을 활용하기 위해 호우재해의 피해예측이 선행된다면 보다 선제적인 재해예방이 가능할 것으로 예상된다.
머신러닝을 이용한 피해예측 연구는 활발히 진행되고 있다. 국외의 연구로 Mandal et al. (2005)은 인공신경망 기반의 홍수피해 예측모형을 개발하였다. 강수량, 온도, 습도, 지하수위 등의 인자를 활용하여 비교적 높은 예측 정확도를 보였지만 피해 발생 여부만을 결과로 제시하였기 때문에 피해 범위 및 규모를 예측하기에는 한계가 있었다. Liu (2012)는 미국에서 1993년부터 2009년까지 발생한 홍수피해의 데이터를 구축하여 극한 강도의 수문 및 기상학적 인자와 인구, 피해액 등의 경제적 인자를 고려하여 피해예측을 분석하였다. Murnane and Elsner (2012)은 미국의 허리케인 피해를 대상으로 1990년부터 2010년까지의 데이터를 이용하여 피해 예측모형을 개발하였다. Furquim et al. (2016)은 머신러닝 기법과 카오스 이론을 적용하여 하천 수위와 강우량 데이터에 대한 홍수 예측 모형의 정확도를 향상 시켰다. Asim et al. (2017)은 Pattern recognition neural network, Recurrent neural network, Random forest 등의 머신러닝 기법을 적용하여 진도 5.5 이상의 지진을 예측하는 연구를 진행하였다. Lee et al. (2020)은 심층 신경망(DNN), 합성곱 신경망(CNN), 순환 신경망(RNN) 모델을 이용하여 폭우피해를 예측하는 모델을 개발하였습니다. Calton and Wei (2022)은 인공신경망 모델인 ResNet, MobileNet, EfficientNet을 이용하여 허리케인의 피해를 예측하는 피해분류와 탐지모델을 개발하였습니다. Hayder et al. (2023)은 Long Short Term Memory (LSTM) 구조와 순환 신경망(RNN)을 기반으로 하는 예측 모델 개발하여 시간별 강수량을 예측하였습니다.
국내에서도 재해데이터가 고시되고 시스템화 되면서 다양한 통계기반의 재해피해 예측 연구가 수행되고 있다(Ahn et al., 2011; Choi et al., 2017; Kwon and Jung, 2017). Lee et al. (2016)은 경기도를 대상으로 홍수피해에 대한 재해연보의 피해액과 지속시간별 최대강우량을 적용하여 예측 함수를 개발하고 호우 피해액을 산정하였다. Kim et al. (2017)은 호우 위험도와 연계하여 호우피해액과 기상자료를 이용하여 호우피해에 대한 예측함수를 개발하였다. Choi et al. (2017)은 신경망 모형과 통계적 모형을 결합하여 11개의 호우피해 예측함수를 개발하였다. Choi et al. (2018)는 수도권을 대상으로 1994년부터 2015년까지의 기상자료와 호우피해 데이터에 머신러닝 기법을 적용하여 피해예측을 분석하였다. 머신러닝 분석방법으로는 서포트 벡터 머신, 의사결정나무, 랜덤포레스트를 이용하였으며 서포트 벡터 머신을 이용하여 개발한 함수가 가장 높은 예측력을 보이는 것으로 분석되었다.
본 연구에서는 우리나라에서 발생한 호우와 태풍을 대상으로 호우재해의 피해특성을 예측하였다. 호우재해의 피해데이터는 재해연보에서 고시하고 있는 1999년부터 2019년까지 자료를 활용하였다. 분석방법은 머신러닝 기법중 인공신경망(ANN)을 적용하였으며 분석인자로는 재해데이터의 총 피해금액과 강우데이터의 총강우량과 일 최대 강우량에 대하여 피해특성 예측을 연구하였다.
2. 인공신경망 및 예측력 분석방법
2.1 인공신경망
인공신경망(Artificial Neural Network, ANN)은 인간의 두뇌에 신경망을 모방해서 실제 데이터로부터 반복적인 학습과정을 통해 데이터의 복잡한 구조를 분석하고 특정패턴을 도출한다. 인공신경망 모형은 통계적 학습이론을 배경으로 주어진 입력샘플(입력값 및 목표값)에 대한 패턴에 대하여 학습을 통해 찾아 주어진 입력에 대한 일반화된 최적의 출력을 도출하는데 목적이 있다(Goodfellow et al., 2016).
인공신경망의 구조는 외부입력을 받아들이는 입력층(Input layer), 처리결과가 출력되는 출력층(Output layer), 그리고 입력층과 출력층 사이에 위치한 은닉층(Hidden layer)으로 Fig. 1과 같이 구성된다. 인공신경망의 분석은 입력값에 가충지를 곱하여 평향을 더하는 선형 결합과 이를 활성화 함수에 의해 비선형 변환하여 다음 층으로 전달 또는 출력하는 구조를 갖는다.
각 층에는 자료를 처리하는 여러 개의 노드(Node)가 존재하며 한 층의 노드에서 다른 층의 노드로 자료가 전달되는 과정에서 연결가중치가 곱해져 출력값이 도출된다. 결국, 인공신경망에서 학습이란 출력값이 목적한 값의 근사값에 도달할 수 있도록 연결가중치를 최적화시키는 과정이라 할 수 있다. 모형의 출력값과 목표값의 오차는 손실함수을 통해 산정되며 모형의 손실은 각 입력샘플에 대한 평균 손실로써 Eqs. (1)에서 Eq. (3)의 방법으로 분석된다.
여기서, 대문자는 행렬을 의미하며 X 는 입력값, W 는 가중치, B 는 편향, A 는 비선형변환값, O 는 출력값, L 은 손실함수값, Y 는 목표값, 아래첨자 h 는 은닉층, o 는 출력층, k 는 입력자료의 k 번째 입력샘플이다.
역방향 연산에서 계산된 평균 손실로부터 노드별 업데이트를 Eq. (4)와 같이 산정된다. 분석방법은 경사하강법이 적용되며 업데이트의 정도를 나타내는 학습률과 최적해에 도달하기 위한 편미분항을 통해 새로운 값을 찾게 된다. 인공신경망에 대한 은닉층의 가중치 업데이트는 활성화 함수가 역전파 과정과 미분의 연쇄법칙에 따라 Eq. (5)와 같이 분석된다.
여기서, η은 학습률,
2.2 예측력 평가기법
인공신경망을 통해 분석한 결과의 예측력을 평가하는 기법으로는 상관분석(Correlation analysis)과 평균 제곱근 오차(Root Mean Square Error, RMSE)를 적용하였다. 상관분석은 확률론과 통계학에서 두 변수 사이의 선형적 관계에 대한 연관성과 방향성을 측정하는 분석방법이다. 두 변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 상관관계라 한다. 상관계수의 값은 – 1과 + 1사이에서 분석되며, 상관계수가 ± 1에 가까울수록 두 변수의 완벽한 연관성을, 0에 가까울수록 두 변수의 연관성은 없다. 상관계수는 두 변수 간의 선형성이 얼마나 높은지를 측정하는 방법으로 변수의 관계가 직선으로 선형성이 높다는 것은 연관성이 높은 것을 의미하며 산정식은 Eq. (6)과 같다
여기서, r = correlation coefficient, Xi, Yi, 는 X, Y변수들의 i번째 샘플의 값,
평균 제곱근 오차(RMSE)는 추정 값 또는 모델이 예측한 값과 실제 환경에서 관찰되는 값의 차이를 다룰 때 흔히 사용되는 척도이며 정밀도를 표현하는데 적합하다. 추정 값과 예측한 값의 차이값은 잔차라고 하며, 평균 제곱근의 편차는 잔차들을 하나의 측도로 종합할 때 사용된다. 평균 제곱근 오차는 항상 음수가 아니며 값이 0(실제로는 거의 달성되지 않음)이면 데이터에 완벽하게 적합함을 나타낸다. 평균 제곱근 오차의 산정식은 Eq. (7)과 같다.
여기서, xi 는 x변수의 i번째 값, Xi 는 i번째 값 값, n은 샘플의 개수이다.
3. 데이터 기반의 호우재해 피해특성
3.1 호우재해의 피해현황
우리나라는 행정안전부에서 매년 자연재해로 발생한 피해의 현황을 데이터로 집계하여 ‘재해연보’를 매년 연말에 공표하고 있다. 재해연보는 자연재해로 발생하는 강풍, 대설, 지진, 대풍, 폭염, 폭풍, 풍랑, 호우를 대상으로 시군구별 피해현황을 피해규모와 피해금액에 대하여 제시하고 있다. 본 연구에서는 1999년부터 2019년까지 재해연보에서 고시한 피해자료를 기반으로 자연재난의 피해규모와 피해금액 데이터를 구축하였다.
약 20년 동안 우리나라에서 발생한 자연재난은 총 8개 유형이며 9,113개의 시군구에서 21,733십억원의 피해가 발생하였다. 그 중 호우재해인 태풍과 호우에서는 6,902개의 시군구, 19,093십억원의 피해금액이 Fig. 2와 같이 발생하였다. 피해현황은 전국 228개의 시군구를 대상으로 피해특성을 제시하였으며 재해발생 이벤트에 대한 시군구별 재해이력을 이용하여 산정하였다. 호우재해로 발생한 피해가 전체 시군구 피해지역의 약 75.7%, 피해금액은 87.8%에 해당한다. 우리나라에서 발생하는 자연재해의 대부분은 호우재해에서 큰 피해가 발생하고 있다. 따라서, 본 연구에서는 우리나라의 자연재해 피해 중 많은 피해가 발생한 호우재해에 대하여 연구를 수행하였다.
시군구별 호우재해 피해는 1회부터 75회로 시군구 평균 32회가 발생하였다. 50회 이상의 호우재해가 발생한 시군구는 청주시, 인천 남동구, 제주시, 창원시, 수원시, 평택시, 안산시, 용인시, 남양주시, 고양시이다. 시군구별 총 피해금액은 0.04십억원부터 1,110십억원로 시군구 평균 83십억원이 발생하였다. 300십억 이상의 피해금액이 발생한 시군구는 강릉시, 삼척시, 평창군, 양양군, 인제군, 김천시, 정성군, 김해시, 고성군, 여주시이다. 시군구별 호우재해에 대한 피해현황은 Fig. 3과 같다.
3.2 호우재해의 강우특성
호우재해의 피해특성 중 강우량은 피해규모를 산정하는 중요한 요소이다. 호우재해에서 발생한 강우사상은 총 212회이 발생하였으며 지속적으로 증가하는 추세를 보이고 있다. 호우재해의 강우발생일수는 총 703일이며 년 평균 33일이 호우피해를 유발시키는 강우사상이 발생되었다. 본 연구에서 분석한 호우재해의 강우특성은 재해발생일을 기준으로 강우사상을 구분하였으며 각 강우사상에 따른 시군구별 피해발생은 차이가 있다. 1999년부터 2019년까지 호우재해로 발생된 피해의 강우특성은 Fig. 4와 같다.
시군구별 호우재해의 총 강우일수는 390일부터 595일이며 시군구별 평균 24일의 강우사상이 발생하였다. 일 최대 강우량은 153 mm부터 794 mm이며 시군구별 평균 270 mm 이상에서 호우재해의 피해가 발생되었다. 400 mm 이상의 일 최대 강우량이 발생한 시군구로는 강릉시, 동해시, 평창군, 양양군, 남해군, 고흥군에서 발생하였으며 일부 시군구는 피해금액이 많이 발생한 지역과 일치하였다. 시군구별 호우재해에 따른 총 강우량은 8,920 mm부터 14,720 mm이며 평균 13,320 mm가 발생하였다. 시군구에서 발생한 총 강우량과 총 강우일수에 대한 일 평균 강우량은 17 mm부터 34 mm이며 평균 26 mm에서 호우재해가 발생하였다. 시군구별 호우재해에 대한 강우특성은 Fig. 5와 같다.
4. 머신러닝을 이용한 피해예측 분석
4.1 인공신경망을 이용한 호우재해 피해예측 분석
호우재해의 피해예측을 분석은 다양한 머신러닝의 분석 모형 중 지도학습과 비지도 학습을 모두 적용할 수 있는 인공신경망(ANN) 모형을 선정하였다. 호우재해의 피해발생에 따른 영향은 크게 피해규모와 피해금액 그리고 강우자료에 대한 관계를 설정하였다. 호우재해에 대한 피해규모와 피해금액은 재해연보에서 제시하고 있는 각 피해유형에 대한 합계로서 36개의 피해특성을 종속변수로 설정하였다. 독립변수로는 호우재해의 피해규모가 강우자료와 연관성이 있는 총 강우량과 일최대 강우량을 독립변수로 선정하였다. 호우재해의 피해예측을 위한 머신러닝 모형은 인공신경망(ANN)을 적용하였으며 1999년부터 2019년까지 발생한 호우재해 6,902개를 대상으로 학습데이터와 예측데이터를 구분하였다. 인공신경망 분석을 위한 조건은 Table 1과 같다.
학습데이터는 1999년부터 2018년까지 6,414개의 피해데이터를 학습시켰으며 2019년 피해데이터인 488개를 대상으로 피해예측을 분석하였다. 분석 Case는 호우재해의 피해특성을 대표하는 총강우량, 일 최대 강우량 그리고 총 피해금액을 설정하였다. 인공신경망(ANN) 분석의 입력층과 출력층 사이의 존재하는 은닉층 설정은 5개의 은닉노드를 2개 층에 적용하여 분석하였다. 은닉노드와 은닉층의 설정은 분석이 발산하지 않은 규모와 시간을 고려하여 정확도가 높은 조건을 선정하였다. 호우재해의 피해특성에 대한 총 강우량, 일 최대 강우량 그리고 총 피해금액에 대한 분석결과는 Fig. 6과 같다. 분석은 R 프로그램을 이용하였으며 Case별 분석인자와 은닉노드 및 은닉층을 확인할 수 있는 인공신경망 아키텍처를 적용하여 그림을 작성하였다.
4.2 호우재해의 정량적 예측능력 평가
인공신경망(ANN) 모형을 이용한 호우재해의 정량적인 예측능력을 평가하는 기법으로 상관분석과 평균 제곱근 오차(RMSE)를 적용하였다. 또한, 인공신경망(ANN)의 학습과 예측의 분석결과인 Error와 Sterps도 같이 제시하였다. 호우재해의 예측능력 평가는 총 강우량, 일 최대강우량 그리고 총 피해금액에 대한 분석은 Table 2와 같다. 호우재해의 피해특성을 대표하는 총 강우량, 일 최대강우량 그리고 총 피해금액의 예측능력 평가는 상관분석이 0.366에서 0.993, 평균 제곱근 오차(RMSE)가 0.0006에서 0.0926, Error는 0.003에서 45.38, Steps은 6,068에서 56,427이 분석되었다.
호우재해의 피해특성에 대한 예측능력은 총 피해금액이 총 강우량과 일 최대 강우량보다 높은 예측능력이 분석되었다. 또한, 모형의 Error와 Steps에서도 가장 작은 분석결과가 제시되었다. 상관분석에 따른 예측능력은 총 강우량과 일 최대 강우량은 상관성이 매우 낮은 것으로 볼 수 있으나 평균 제곱근 오차(RMSE)에서는 상과분석보다 예측능력이 높은 것으로 평가되었다. 또한, 학습에 따른 예측평가에서도 총 피해금액이 총 강우량과 일 최대 강우량보다는 높은 예측적용성이 평가되었다.
5. 결 론
본 연구는 우리나라에서 발생한 호우재해를 대상으로 인공신경망을 적용한 피해특성 예측을 연구하였다. 호우재해 데이터는 1999년부터 2019년까지 재해연보에서 제시한 데이터와 강우자료를 활용하였다. 우리나라에서 약 20년간 발생한 호우재해의 피해는 한 시군구에서 평균적으로 32번의 호우재해가 발생하였고 피해금액은 83십억원이 발생하였다. 호우피해를 유발한 강우특성으로는 한 시군구 당 평균 33일의 강우사상과 일 최대 강우량이 270 mm 그리고 일 평균 강우량이 26 mm일 때 호우재해가 발생하였다.
호우재해의 피해예측을 위해 1999년부터 2018년까지 학습데이터 6,414개과 2019년은 예측데이터 488개를 구분하였다. 머신러닝 모형은 인공신경망(ANN)을 적용하였으며 5개의 은닉노드를 2개의 은닉층으로 설정하였다. 분석인자는 호우재해와 피해영향이 높은 총 강우량, 일 최대 강우량 그리고 총 피해금액에 대하여 분석하였다. 피해예측에 대한 적용성은 상관분석과 평균 제곱근 오차(RMSE)로 평가하였다.
호우재해의 피해특성에 대한 예측능력은 총 피해금액이 높은 예측능력이 평가되었으며 총 강우량과 일 최대 강우량은 낮은 예측능력이 평가되었다. 호우재해의 종속변수가 대부분 피해규모와 시설별 피해금액으로 구성되어 있어 총 피해금액에서 높은 예측능력이 평가되었다. 총 강우량과 일 최대 강우량도 호우재해에 대한 영향이 높은 것으로 판단되나 재해발생에 따른 피해규모와 피해금액에 대한 적용성은 낮은 것으로 분석되었다. 따라서, 호우재해의 피해예측을 위한 분석방법으로는 총 피해금액이 가장 적용성이 높은 것으로 평가되었다.
금회 연구에서는 시군구별 호우재해의 총 피해금액, 총 강우량 그리고 일 최대 강우량에 대하여 피해예측을 분석하였다. 재해연보에서 수집한 35개의 피해인자를 고려한 호우재해의 피해예측 정확도는 모든 분석인자에서 높은 수준의 적용성을 도출하기에는 어려움이 있었다. 향후 연구에서는 재해발생에 따른 강우의 설계빈도와 강우강도에 대한 피해면적과 피해금액의 상관성분석을 통해 피해예측 인자를 선정한다면 보다 정밀도 높은 예측결과가 평가될 것으로 예상된다.
감사의 글
이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No. RS-2022-00166690).