J. Korean Soc. Hazard Mitig Search

CLOSE


J. Korean Soc. Hazard Mitig. > Volume 17(6); 2017 > Article
머신러닝을 이용한 공공시설 호우피해 예측함수 개발

Abstract

We developed heavy rain damage prediction functions for the prediction of public facility damage to be occurred by heavy rain in Gyeonggi-do province. This study used machine learning such as decision tree, bagging, and random forest models for the function development and data of public facility damages which can be obtained from annual reports for natural disaster damages published in Korea as a dependent variable. Also, meteorological factors and socio-economic factors were considered as explanatory variables then the prediction functions were developed. As a result of comparing the amount of actual heavy rain damages with the amount of predicted damages, the NRMSE(Normalized Root Mean Squared Error) was in the range of 22.93~24.16%. The function using the bagging method showed the best prediction performance. If the predicted damages by the developed functions are used for disaster prevention and preparation, it will be a great help to reduce heavy rain damage.

요지

본 연구에서는 머신러닝(기계학습)을 활용하여 경기도 지역의 호우로 인한 공공시설물 피해를 예측하는 함수를 개발하였다. 종속변수로 재해연보상의 공공시설 피해액을 사용하였고, 설명변수로 기상요소와 사회⋅경제적 요소를 고려하였다. 실제 호우피해액과 예측 호우피해액을 비교하여 예측력을 평가한 결과 NRMSE(Normalized Root Mean Squared Error)는 22.93~24.16%로 나타났으며, 배깅 방법을 이용한 함수가 가장 좋은 예측력을 보였다. 본 연구에서 개발된 함수를 이용하여 예방 및 대비 차원의 재난관리를 실시한다면, 호우피해를 줄이는데 큰 도움이 될 것으로 판단된다.

1. 서론

최근 기후변화의 영향으로 전 세계적으로 홍수, 가뭄, 폭설 등 기상이변에 따른 자연재해가 빈번히 발생하고 있다(Oh et al., 2015). 국내의 경우 예방, 대비, 대응, 복구의 4단계 재난관리가 시행되고 있지만, 최근 10년간의 자연재난 피해액을 살펴보면 연간 약 5천억 원의 피해액이 발생하는 등 아직까지 효과적인 재난관리가 시행되지 않는 것으로 보인다. 특히 방재 선진국의 경우 재난 발생 전에 시행하는 예방 및 대비 차원의 재난관리가 중심을 이루지만, 국내의 경우 재난이 발생 후에 시행하는 대응 및 복구 단계의 재난관리가 중심이 되고 있다. 만약 방재 선진국처럼 피해가 발생하기 전에 신속하게 재난피해를 예측 및 대비한다면 인명피해와 재산피해를 최소화 할 수 있을 것이라 판단된다.
자연재난 피해를 예측하는 국외 연구사례를 살펴보면 크게 자연재난 피해의 직접적인 요인이라고 볼 수 있는 기상요소만을 이용한 연구와 기상요소 외에 추가적으로 사회⋅경제적 요소를 고려한 연구로 나뉜다. 먼저 기상요소만을 이용한 연구를 살펴보면 Munich Re(2002)은 북부 및 서부 유럽 국가(오스트리아, 벨기에, 덴마크, 프랑스, 독일, 영국, 룩셈부르크, 스칸디나비아, 스위스, 네덜란드)에서 1990년에 발생한 8번의 폭풍우(storm)에 따른 피해액과 풍속 등의 기후변수에 대한 다중회귀분석을 실시하였다. 약 62%의 설명력을 갖춘 회귀모형이 구축되었고, 이를 통해 1990년 이후의 폭풍우로 인한 피해를 예측하였다. Muranae and Elsner(2012)는 미국에서 발생한 1900년대부터 2000년대까지의 허리케인 피해액과 풍속 자료를 바탕으로 분위회귀분석(quantile regression analysis)을 실시하였다. 이를 통해 2011년에 발생한 허리케인 ‘Irene’의 피해액을 비교적 정확히 예측할 수 있었다.
직접적인 영향을 주는 기상요소 외에 추가적으로 사회⋅경제적 요소를 고려한 연구를 살펴보면, Pielke and Downton (2000)은 미국 전 지역을 대상으로 1932년부터 1997년까지의 홍수피해를 종속변수로 사용하였고, 강수량, 강우강도 등의 기상요소와 소득, 인구 등 사회⋅경제적 요소를 설명변수로 사용하여 다중회귀분석을 실시하였다. 이를 통해 강수량, 강우강도 등의 기상요소와 소득, 인구 등 사회⋅경제적 요소의 영향을 실증적으로 분석하였다. 결과적으로 강수량이 홍수 피해액에 매우 유의미한 영향을 미치고 있으며, 더불어 사회⋅경제적인 요소의 영향을 종합적으로 고려할 필요가 있음을 보여주었다. Toya and Skidmore (2007)는 OECD국가와 개발도상국을 대상으로 자연재해에 따른 GDP당 피해액을 예측하기 위하여 사회⋅경제적 요소를 고려하여 회귀분석을 실시하였다. 그 결과, 교육수준과 경제의 규모가 높은 국가일수록 자연재해로 인한 피해가 적은 것으로 나타났다. Liu(2012)는 미국에서 발생한 1993년부터 2009년까지의 홍수 피해를 종속변수로 구축하였고, 극한 강도의 강우 유출량 등의 수문⋅기상학적 요소와 1인당 소득, 인구, 기존 피해액의 빈도 등의 사회⋅경제적 요소를 설명변수로 구성하여 회귀분석을 실시하였다.
최근 국외의 재난분야 연구에서는 머신러닝을 이용한 연구가 등장하고 있는데, 우선 Furquim et al. (2016)은 브라질의 São Carlos에 있는 Wireless Sensor Networks를 통해 강의 수위와 강우량 데이터를 수집하였고, 머신러닝 기법과 카오스 이론을 적용하여 홍수 예측 모형의 정확성을 향상시켰다. Asim et al. (2017)은 Hindukush 지역에서 발생하는 진도 5.5이상의 지진을 예측하는 연구를 진행하였고, Pattern recognition neural network, Recurrent neural network, Random forest 등의 머신러닝 기법을 적용하였다.
국내의 연구사례를 살펴보면, 주로 자연재난 피해를 예측 및 대비하는 목적의 연구보다는 피해를 저감하는 방안 및 대책에 관한 연구가 주를 이루었다(Han and Choi, 2002; Han et al., 2003; Yi et al., 2005; Jang et al., 2009; Ahn et al., 2011; Kim et al., 2011; Jung et al., 2014; Choi et al., 2016; Han et al., 2016).
그러나 최근에는 재해통계자료가 체계화 되면서 국내에서도 자연재난으로 인한 피해를 예측 및 대비하는 연구가 수행되고 있다. Lee et al. (2016)은 경기도 수원시, 양평군, 이천시를 대상으로 비선형회귀식을 이용하여 홍수 피해를 예측하는 함수를 개발하였다. 종속변수로 재해연보의 1994년부터 2012년까지의 총 호우피해액을 사용하였고, 1시간, 3시간, 6시간, 12시간, 24시간 지속시간 최대강우량을 복합강우로 변환하여 설명변수로 사용하였다. Kim et al. (2017)은 호우 위험도 평가를 통해 구분된 등급별로 주성분 분석과 다중회귀모형을 이용하여 호우피해 예측함수를 개발하였다. 종속변수로 총 호우피해액을 사용하였고, 기상자료를 설명변수로 사용하였다. Choi et al. (2017)은 통계적 모형으로 선형회귀모형, 일반화선형모형, 주성분 회귀모형, 인공신경망 모형을 이용하였고, 변수선택법으로 단계별 변수선택법, 벌점화를 통한 축소추정법을 적용하여 총 11개의 호우피해 예측함수를 제시하였다.
기존 국내의 선행연구를 살펴보면 주로 기상자료만을 이용하여 피해를 예측하고, 사회⋅경제적 요소를 고려한 연구는 미비하였다. 따라서, 본 연구에서는 직접적인 피해 원인으로 지목되는 기상요소뿐만 아니라 사회⋅경제적 요소를 추가함으로써 지역적 특성을 반영하였고, 최근 재난분야에 적용되기 시작하는 머신러닝 기법을 활용하여 호우피해를 사전에 예측하는 함수를 예측하고자 하였다.
이를 위해 본 연구에서는 호우피해 발생 현황을 조사하여 대상 지역을 선정하였고, 대상 지역의 자료를 수집하여 함수의 종속변수와 설명변수를 구축하였다. 구축된 변수를 머신러닝 기법에 적용하여 각각의 호우피해 예측함수를 개발하고, 개발된 머신러닝을 이용한 공공시설 호우피해 예측함수의 예측력을 평가하였다.

2. 호우피해 예측함수 개발을 위한 머신러닝 기법

호우피해 예측함수 개발을 위해 3가지의 머신러닝 기법(의사결정나무 모형, 배깅 모형, 랜덤 포레스트 모형)을 사용하였다.

2.1 의사결정나무 모형

의사결정나무 모형(Decision tree model)은 주어진 변수의 규칙 혹은 조건문을 토대로 나무 구조로 도표화하여 분류와 예측을 목적으로 수행하는 방법이다(Breiman et al., 1984). 특히, 종속변수가 범주형이 아닌 연속형일 때, 회귀나무(Regression Tree)라고 부른다. 회귀나무를 형성하기 위해서는 적절한 변수를 선택한 뒤 이를 기준으로 데이터를 나누고, 나누어진 각 독립변수 공간에서 종속변수와 독립변수와의 관계성을 찾아가는 과정을 거치게 된다. 회귀나무는 반복 이분할(binary recursive partitioning) 과정을 통해 구현된다. 각 단계에서 평균제곱오차(Mean Squared Error, MSE)를 최소화하는 분기변수 및 분기점을 찾아 데이터를 이분화하는 과정이 반복적으로 실행되면서 전체 나무의 모습을 이루게 된다. 분기 반복의 끝으로, 최종 노드에서는 설정된 모형에 따라 예측값이 정해지게 된다. 주로, 최종 노드 자료들의 평균으로 예측값을 추정한다. 이때, 교차검증(cross validation)을 이용하여 평균제곱오차를 가장 최소화하는 나무의 크기를 결정하도록 가지치기(pruning)를 진행한다. Fig. 1은 의사결정나무 모형의 구조를 나타낸 것이다.
Fig. 1
Decision Tree Structure
KOSHAM_17_06_443_fig_1.gif

2.2 배깅 모형

배깅(Bagging)은 bootstrap과 aggregating의 합성어로, Breiman(1996)이 제안하였다. 배깅은 의사결정나무의 높은 분산의 문제를 해결하기 위하여 붓스트랩(bootstrap) 샘플링을 사용하여 B개의 데이터 셋을 생성하고 각 데이터 셋을 적합하여 B개의 모델을 훈련시킨다. 이때 각각 B개의 평가용 데이터셋에 적용하여 f*b^를 얻고 예측 결과들을 평균하여 Eq. (1)을 얻는다.
(1)
fbog^(x)=1Bb=1Bf*b^(x)
배깅은 불안전한 모형들에 대하여 정확도를 크게 높이며 예측 모형의 편향(bias)에 영향을 미치지 않는다. 즉, 편향이 없고 불안정한 모형에서 잘 작동한다. 따라서 배깅의 효과를 극대화하기 위해 나무의 성장을 최대로 하고, 가지치기를 하지 않은 의사결정나무 모형이 자주 사용된다. Fig. 2는 배깅 모형의 구조를 나타낸 것이다.
Fig. 2
Bagging Structure
KOSHAM_17_06_443_fig_2.gif

2.3 랜덤 포레스트 모형

랜덤 포레스트(Random forest)는 Breiman(2001)에 의해 제안된 앙상블(ensemble) 기반 모형으로 의사결정나무 모형에 배깅의 기본 원리와 임의성을 더한 형태이다. 앞서 언급한 배깅의 상관된 예측값에 대한 문제점을 랜덤 포레스트에서는 설명변수를 임의로 선택하는 과정을 추가하여 문제를 해결하고자 하였다. 랜덤 포레스트는 일반적으로 변수의 개수가 m개이면 각 분할에서 랜덤으로 m/3개의 변수를 선택하여 트리를 만든다.
랜덤 포레스트에서 변수의 중요성은 훈련 데이터에서 j번째 특징의 값을 치환하고, 다시 데이터에 대하여 OOB-오차(Out-of-bag error)를 구하여 치환전의 OOB-오차의 차이를 평균하여 정의한다. 큰 중요도 점수를 가지는 변수는 작은 값을 갖는 변수보다 높은 순위의 중요성을 갖게 된다. 특히 랜덤 포레스트는 데이터와 변수를 샘플링하여 서로 조금씩 다른 나무들로 구성되었기 때문에 각 나무들의 예측값은 비상관하게 되어 일반화 성능을 향상시킨다. Fig. 3은 랜덤 포레스트 모형의 구조를 나타낸 것이다.
Fig. 3
Random Forest Structure
KOSHAM_17_06_443_fig_3.gif

3. 호우피해 예측함수의 구성

머신러닝을 이용한 공공시설 호우피해 예측함수를 구성하기 위해 호우피해 발생 현황을 조사하여 대상 지역을 선정하고, 대상 지역의 자료를 수집하여 함수의 종속변수와 설명변수를 구축하였다.

3.1 대상 지역 선정

호우 피해 발생이 빈번한 지역을 본 연구의 대상 지역으로 선정하기 위해 시⋅도별 최근 10년간(2006~2015년)의 호우로 인한 피해 발생횟수를 Table 1에 나타냈다. 분석 결과 경기도 지역의 호우 피해 발생횟수가 가장 많은 것으로 나타났기 때문에, 경기도를 대상 지역으로 선정하였다.
Table 1
Incidence of Public Facility Damage
Districts Incidence of total damage Incidence of public facility damage
Gyeonggi-do 434 230
Jeollanam-do 205 125
Chungcheongnam-do 143 65
Gangwon-do 132 89
Seoul 121 38
Gyeongsangbuk-do 113 61
Gyeongsangnam-do 110 69
Jeollabuk-do 93 31
Busan 90 67
Chungcheongbuk-do 86 52
Incheon 81 20
Daejeon 27 15
Gwangju 26 10
Ulsan 24 16
Jeju 9 5
Daegu 8 2
Sejong 5 1
Total 1,707 896

3.2 종속변수 산정

재해 관련 통계자료 중 비교적 체계적으로 관리되고 있는 재해연보의 경우 피해 원인별⋅지역별⋅수계별⋅기간별 등으로 분류되어 있고, 피해액의 경우 크게 공공시설 피해와 사유시설 피해로 구분되어 행정안전부(구 국민안전처)에서 매년 발간하고 있다. 공공시설 피해의 경우 도로, 하천, 소하천, 수도, 항만, 어항, 학교, 철도, 수리, 사방, 군시설, 소규모, 기타 공공시설로 구분되며, 사유시설은 건물, 선박, 농경지, 농작물, 축대⋅담장, 가축, 축사⋅잠사, 수산증양식, 어망⋅어구, 비닐하우스, 기타 사유시설로 구분하여 제공된다.
공공시설의 피해를 집계하는데 있어서는 비교적 명확한 기준으로 피해를 집계하고 있으나, 사유시설의 경우 피해에 대한 집계가 보상비의 형태로 이루어지며 피해 집계 항목이 세분화 되어있지 않는 문제점 등으로 인해 사실상 실질적인 피해 산정이 어렵다고 할 수 있다(Lee, 2017).
따라서 본 연구에서는 호우피해 예측함수를 개발하기 위한 종속변수로 비교적 신뢰성이 높은 재해연보의 공공시설물 호우피해액 자료(2006년부터 2015년까지)를 활용하였다. 또한, 과거의 화폐가치와 현재의 화폐가치가 다르기 때문에 10년간의 화폐가치를 현재의 화폐가치로 환산해야 하는데, 본 연구에서는 재해연보에서 사용한 방법과 동일하게 생산자 물가지수를 이용하여 2015년 기준으로 현가화 하였다(Choi et al., 2017).

3.3 설명변수 산정

호우피해 예측함수를 구성하는 설명변수로 기상요소와 사회⋅경제적 요소를 고려하였다. 먼저, 기상요소로 재해기간과 선행 5일간의 강우량, 기온, 풍속을 고려하였고, 재해일수와 재해발생 월을 추가적으로 고려하였다. 사회⋅경제적 요소로는 지역 면적, 도시화율, 취약인구 비율, 외국인 노동자 비율, 지역내총생산(Gross regional domestic product, GRDP), 복구비 투입액을 고려하였다.
기상청은 지상 부근의 기상상태를 실시간으로 관측하기 위한 기본 장비인 종관기상관측장비(Automated Synoptic Observing System, ASOS)와 무인으로 운영되는 방재기상관측장비(Automatic Weather System, AWS)를 이용하여 지상기상관측업무를 수행하고 있는데, 본 연구에서는 비교적 조밀하여 피해지역의 기상상태를 잘 반영할 수 있는 방재기상관측장비의 관측치를 활용하여 기상요소 자료를 구성하였다.
경기도 지역에 해당되는 방재기상관측장비 관측소의 기상자료를 Thiessen 면적법을 활용하여 행정구역별 기상자료로 환산하였고, 이를 이용하여 재해기간의 총 강우량, 선행 강우량, 재해기간의 지속시간별 최대강우량, 재해기간의 기온, 선행 기온, 재해기간의 풍속, 선행 풍속을 산정하였다.
재해기간의 총 강우량은 재해기간동안의 누적된 총 강우량을 나타내고, 선행 강우량은 재해 시작 5일전의 누적 선행 강우량을 의미한다. 재해기간의 지속시간별 최대 강우량은 재해기간 동안의 지속시간 1시간, 2시간, …, 24시간 누적 강우량의 최댓값을 나타낸다. 재해기간의 지속시간별 최대 강우량 1~24시간은 변수간의 상관성이 높아 다중공선성 문제가 발생하기 때문에, 주성분 분석을 통해 차원을 축소하여 다중공선성 문제를 해결하였다. 재해기간의 기온과 풍속은 재해기간동안의 평균, 최대, 최저 기온 및 풍속을 각각 나타내며, 선행 기온과 풍속은 재해 발생 전 5일 동안의 평균, 최대, 최저 기온 및 풍속을 각각 나타낸다. 재해일수는 재해연보상에 집계된 총 재해일수를 나타내며, 재해발생 월은 재해기간이 속해 있는 월을 이야기한다.
사회⋅경제적 요소인 지역 면적은 호우피해 지역(시군구 단위)의 면적을 나타내며, 도시화율은 도시지역에 거주하는 인구비율을 나타낸다. 취약인구 비율은 재난에 취약한 0~5세, 60세 이상의 인구비율을 나타내며, 외국인 노동자 비율은 시군구에 거주하는 전체 인구 대비 외국인 노동자의 분포를 나타낸다. 지역내총생산은 지방자치단체 단위별 생산액, 물가 등 기초통계를 바탕으로 일정 기간동안 해당지역의 총생산액을 추계하는 지방자치단체 단위의 종합경제지표를 말하며, 복구비 투입액은 해당 지자체에 투입된 복구비를 나타낸다. 복구비 투입액의 경우 전년도에 투입된 비용의 효과가 당해연도에 나타날 것이기 때문에, 전년도 복구비로 산정하였다.

4. 호우피해 예측함수 개발 및 예측력 평가

머신러닝을 이용한 공공시설 호우피해 예측함수를 개발하기 위해 의사결정나무 모형, 배깅 모형, 랜덤 포레스트 모형을 사용하였고, MSE(Mean Square Error), RMSE(Root Mean Square Error), NRMSE(Normalized Root Mean Squared Error)를 통해 각 모형의 예측력을 평가하였다.

4.1 의사결정나무 모형 적용

교차검증을 통한 의사결정나무 Pruning 후 모형을 결정하였는데, Deviance가 가장 작은 5개의 가지를 결정하였다(Fig. 4).
Fig. 4
Result of Pruning
KOSHAM_17_06_443_fig_4.gif
Decision tree를 이용하여 함수를 구성할 때 사용된 설명변수로는 지속시간별 최대강우량, 취약인구 비율, 총 강우량 등이 있다. 그 중, 지속시간별 최대강우량이 가장 크게 영향을 주며, 취약인구 비율과 재해기간별 총 강우량, 전년도 복구비 투입액이 공공시설 피해액에 영향을 미치는 것으로 나타났다(Fig. 5).
Fig. 5
Decision Tree
KOSHAM_17_06_443_fig_5.gif

4.2 배깅 모형 적용

붓스트랩 샘플링의 방법은 n개의 데이터에서 랜덤하게 복원추출을 사용하여 새로운 n개의 데이터를 형성한다. 본 연구의 배깅에서 n개의 데이터를 가지고 있는 모두 다른 1,000개의 데이터셋을 생성하여 모델링을 실시하였다.

4.3 랜덤 포레스트 모형 적용

설명변수의 개수가 23개이기 때문에, 변수를 7개씩 랜덤으로 뽑아 500개의 의사결정나무를 만들어 모형을 구축하였다. 랜덤 포레스트 모형에서 사용된 설명변수의 중요도는 Fig. 6과 같으며, 가장 중요한 변수는 지속시간별 최대강우량인 것으로 나타났다.
Fig. 6
Variable Importance
KOSHAM_17_06_443_fig_6.gif

4.4 예측력 평가

본 연구에서는 경기도 지역에서 발생한 2008년부터 2011년까지의 실제 피해액과 설명변수를 이용하여 호우피해 예측함수를 개발하였고, 함수의 성능을 검증하기 위하여 2012년부터 2015년의 실제 피해액과 모의된 피해액을 비교 및 평가하였다. 예측력 평가 방법으로는 평균제곱오차(Mean Squared Error, MSE), 평균제곱근오차(Root Mean Square Error, RMSE), RMSE를 표준화한 NRMSE(Normalized Root Mean Squared Error, NRMSE)를 사용하였으며, 각각 Eqs. (2), (3), (4)로 표현된다. 3가지의 평가방법 모두 0에 가까울수록 계산된 값이 참값과 유사하다는 것을 의미하며, 많은 선행연구에서 NRMSE를 기준으로 예측력을 평가하였다(Kim et al., 2012; Hwang, 2014; Cho et al., 2016; Kim et al., 2017; Choi et al., 2017).
(2)
MSE=1ni=1n(yiy^)2
(3)
RMSE=1ni=1n(yiy^)2
(4)
NRMSE=RMSEMax(yi)Min(yi)
여기서 yi는 i번째 실제 호우피해액을 의미하며 yi^는 i번째 모의된 호우피해액을 의미한다. 모형별 실제값과 예측값을 비교한 결과는 Table 2와 같다.
Table 2
Assessment of Predictive Power
Model MSE RMSE NRMSE
Decision tree model 0.7246 0.8512 0.2416
Bagging model 0.6528 0.8079 0.2293
Random forest model 0.7081 0.8415 0.2388
의사결정모형의 경우 예측값이 연속적이지 않고 5단계로 구분되는 단점이 있었다. 배깅모형의 경우 MSE, RMSE, NRMSE가 모두 가장 낮아서 좋은 성능을 나타낸 것으로 보이지만, 어떤 설명변수가 중요한 요소인지 판단할 수 없는 단점이 존재한다. 랜덤 포레스트의 경우 배깅 모형과 비슷한 수준의 예측력 평가 결과를 보였으며, 지속시간별 최대강우량, 총 강우량, 취약인구 비율, 재해기간의 최고기온, GRDP, 선행 최고 풍속, 선행 평균 기온, 복구비 투입액이 중요한 변수임을 알 수 있었다.

5. 결론

본 연구에서는 국내 자연재난 피해의 절반 이상을 차지하고 있는 호우피해를 대상으로 머신러닝 기법(의사결정나무 모형, 배깅 모형, 랜덤 포레스트 모형)을 적용하여 호우피해 예측함수를 개발하였다. 기존의 연구와는 다르게 종속변수를 신뢰도가 높은 공공시설물 피해액으로 한정하였고, 설명변수로 직접적인 영향을 미치는 기상요소뿐만 아니라 지역적 특징을 반영할 수 있는 사회⋅경제적 요소를 고려하였다.
대상지역은 호우피해가 가장 극심한 경기도 지역을 선택하였고, 종속변수로 매년 행정안전부(구 국민안전처)에서 자연재난 피해액을 집계하여 제시하는 재해연보의 공공시설물 호우피해액 자료(2006∼2015년)를 사용하였다. 설명변수로는 기상요소와 사회⋅경제적 요소를 고려하였는데, 기상요소로는 총 강우량, 선행강우량, 지속시간별 최대강우량, 재해기간의 기온(평균, 최대, 최저), 선행 기온(평균, 최대, 최저), 재해기간의 풍속(평균, 최대, 최저), 선행 풍속(평균, 최대, 최저), 재해일수, 재해발생 월을 고려하였다. 사회⋅경제적 요소로는 지역 면적, 도시화율, 취약인구 비율, 외국인 노동자 비율, GRDP, 복구비 투입액을 고려하였다.
주요 결과를 요약하면 다음과 같다.
  • (1) 개발된 함수의 NRMSE는 22.93~24.16%로 대부분의 함수가 경기도 지역의 호우피해를 적절하게 예측하는 것으로 나타났다.

  • (2) 의사결정나무 모형에서는 지속시간별 최대강우량이 호우피해액을 예측하는데 가장 크게 영향을 주며, 취약인구 비율과 재해기간별 총 강우량, 전년도 복구비 투입액 순으로 영향을 미치는 것을 나타났다.

  • (3) 예측력 평가 결과를 살펴보면 배깅 모형에서 가장 좋은 예측력을 나타났지만, 설명변수의 중요도를 파악할 수 없는 모형의 문제점이 있었다.

  • (4) 랜덤 포레스트 모형은 배깅 모형과 비슷한 성능을 나타내면서, 설명변수의 중요도를 파악할 수 있는 장점이 있다.

  • (5) 랜덤 포레스트 모형에서는 지속시간별 최대강우량, 총 강우량, 취약인구 비율, 재해기간의 최고기온, GRDP, 선행 최고 풍속, 선행 평균 기온, 복구비 투입액 순으로 호우피해를 예측하는데 영향력을 미치는 것으로 나타났다.

  • (6) 기존에 기상요소만을 고려하였던 선행연구들에서도 지속시간별 최대강우량 및 총 강우량이 중요한 요소로 분석되었는데, 본 연구에서도 동일한 결과를 보였고 추가적으로 취약인구 비율과 GRDP 등의 사회⋅경제적 요소가 호우피해를 예측하는데 중요한 요소인 것을 파악할 수 있었다.

  • (7) 본 연구에서는 배깅 모형이 가장 좋은 예측력 평가 결과를 보였기 때문에, 최종적으로 대상지역인 경기도 지역의 공공시설물 호우피해 예측함수로 선정하였다.

본 연구에서는 몇 가지 한계점이 있다. 우선, 설명변수로 사용한 복구비 투입액 자료가 2007년부터 존재하기 때문에, 2008년부터 2015년까지의 공공시설물 피해액 자료만을 사용하여 전체적인 자료의 개수가 다소 부족하였다. 따라서 추가적으로 체계화된 재해통계자료가 축적된다면, 추후 연구에서는 더 나은 결과를 제시할 수 있을 것이다. 또한 본 연구에서는 재해통계자료의 개수 부족으로 경기도 지역 전체를 하나의 함수식을 통하여 구성하였는데, 충분한 재해통계자료가 확보되어 시군구별로 지역적 특성이 반영된 함수식을 개발한다면 더욱 정밀하고 예측력 높은 호우피해 예측함수를 개발할 수 있을 것이다.
기존의 국내·외 연구사례를 살펴보면 주로 신뢰도가 극히 떨어지는 사유시설물 피해액을 포함한 총 피해액을 종속변수로 사용하였는데 본 연구에서는 비교적 신뢰도가 높은 공공시설물 피해액만을 종속변수로 사용하였다. 또한 선행연구에서는 호우피해에 직접적으로 영향을 미치는 요소로 기상요소만을 고려하였는데, 본 연구에서는 기존에 고려하지 못한 사회⋅경제적 요소를 설명변수로 고려하였다. 또한, 본 연구에서는 기존의 피해예측함수 개발에 적용하지 못했던 머신러닝 기법을 적용하여 재해통계기반 호우피해 예측함수를 개발하였고, 개발된 함수는 경기도 지역의 호우피해를 적절하게 예측하는 것으로 평가되었다.
본 연구의 결과로 제시한 머신러닝을 이용한 호우피해 예측함수를 통해 재해발생 전에 예방 및 대비 차원의 재난관리를 실시한다면, 국내 자연재난 피해의 가장 큰 부분을 차지하고 있는 호우피해를 줄이는데 큰 도움이 될 것으로 판단된다.

감사의 글

본 연구는 정부(행정안전부)의 재원으로 재난안전기술개발사업단의 지원을 받아 수행된 연구임 [MOIS-재난-2015-05].

References

Ahn, J.H, Lee, J.U, and Choi, C.W (2011) Flood Mitigation Analysis for Abnormal Flood at the South Han River Basin. J. Korean Soc. Hazard Mitig, Vol. 11, No. 5, pp. 265-272. 10.9798/KOSHAM.2011.11.5.265.
crossref pdf
Asim, K.M, Martínez-Álvarez, F, Basit, A, and Iqbal, T (2017) Earthquake Magnitude Prediction in Hindukush Region Using Machine Learning Techniques. Natural Hazards, Vol. 85, No. 1, pp. 471-486. 10.1007/s11069-016-2579-3.
crossref pdf
Breiman, L (1996) Bagging Predictors. Machine Learning, Vol. 24, No. 2, pp. 123-140. 10.1007/BF00058655.
crossref
Breiman, L (2001) Random Forests. Machine Learning, Vol. 45, No. 1, pp. 5-32. 10.1023/A:1010933404324.
crossref
Breiman, L, Friedman, J, Stone, C.J, and Olshen, R.A (1984). Classification and Regression Trees. CRC press.
crossref
Cho, J.P, Jung, I.W, Kim, C.G, and Kim, T.G (2016) One-month Lead Dam Inflow Forecast Using Climate Indices Based on Tele-connection. Journal of Korea Water Resources Association, Vol. 49, No. 5, pp. 361-372. 10.3741/JKWRA.2016.49.5.361.
crossref pdf
Choi, C.H, Han, D.G, Kim, J.W, Jung, J.W, Kim, D.H, and Kim, H.S (2016) Mega Flood Simulation Assuming Successive Extreme Rainfall Events. Journal of Wetlands Research, Vol. 18, No. 1, pp. 76-83. 10.17663/JWR.2016.18.1.076.
crossref
Choi, C.H, Kim, J.S, Kim, J.H, Kim, H.Y, Lee, W.J, and Kim, H.S (2017) Development of Heavy Rain Damage Prediction Function Using Statistical Methodology. J. Korean Soc. Hazard Mitig, Vol. 17, No. 3, pp. 331-338. 10.9798/KOSHAM.2017.17.3.331.
crossref
Furquim, G, Pessin, G, Faiçal, B.S, Mendiondo, E.M, and Ueyama, J (2016) Improving the Accuracy of a Flood Forecasting Model by Means of Machine Learning and Chaos Theory. Neural Computing and Applications, Vol. 27, No. 5, pp. 1129-1141. 10.1007/s00521-015-1930-z.
crossref pdf
Han, D.G, Choi, C.H, Kim, D.H, Jung, J.W, Kim, J.W, and Kim, S.J (2016) Determination of Flood Reduction Alternatives for Responding to Climate Change in Gyeongan Watershed. Journal of Wetlands Research, Vol. 18, No. 2, pp. 154-165. 10.17663/JWR.2016.18.2.154.
crossref
Han, G.Y, and Choi, G.H (2002) Comparison Study on One- and Two-Dimensional Models for Extreme Flood Routing. Proceeding of KSCE 2002 Conference. Korean Society of Civil Engineers, pp. 1589-1592.
crossref
Han, G.Y, Choi, G.H, and Choi, H.J (2003) Emergency Action Plan against Extreme Flood from Dam/Levee Break. Proceeding of KSCE 2003 Conference. Korean Society of Civil Engineers, pp. 2348-2351.
crossref
Hwang, S.W (2014) Assessing the Performance of CMIP5 GCMs for Various Climatic Elements and Indicators over the Southeast US. Journal of Korea Water Resources Association, Vol. 47, No. 11, pp. 1039-1050. 10.3741/JKWRA.2014.47.11.1039.
crossref pdf
Jang, D.W, Kim, B.S, Yang, D.M, Kim, B.G, and Seo, B.H (2009) A Development of GIS based Excess Flood Protection System - Using Decision Support methods. Proceeding of KSCE 2009 Conference. Korean Society of Civil Engineers, pp. 630-634.
crossref
Jung, J.W, Kim, Y.S, Hong, S.J, Kwon, H.S, Kim, J.W, and Kim, H.S (2014) Effectiveness Analysis of Artificial Wetland for Flood Reduction. J. Korean Soc. Hazard Mitig, Vol. 14, No. 4, pp. 369-377. 10.9798/KOSHAM.2014.14.4.369.
crossref pdf
Kim, D.G, Lee, L.Y, Lee, C.W, Kang, N.R, Lee, J.S, and Kim, H.S (2011) Analysis of Flood Reduction Effect of Washland using Hydraulic Experiment. Journal of Wetlands Research, Vol. 13, No. 2, pp. 307-317.
crossref
Kim, J, Lee, C.K, Shon, J, Choi, K.J, and Yoon, Y (2012) Comparison of Statistic Methods for Evaluating Crop Model Performance. Korean Journal of Agricultural and Forest Meteorology, Vol. 14, No. 4, pp. 269-276. 10.5532/KJAFM.2012.14.4.269.
crossref pdf
Kim, J.S, Choi, C.H, Lee, J.S, and Kim, H.S (2017) Damage Prediction Using Heavy Rain Risk As- sessment:(2) Development of Heavy Rain Damage Prediction Function. J. Korean Soc. Hazard Mitig, Vol. 17, No. 2, pp. 371-379. 10.9798/KOSHAM.2017.17.2.371.
crossref
Lee, J.S (2017). Development of Regional Flood Damage Functions for Public Facilities Based on Disaster Statistics and Impact Assessment of Climate Change. Ph.D. dissertation. University of Inha, Republic of Korea.
crossref
Lee, J.S, Eo, G, Choi, C.H, Jung, J.W, and Kim, H.S (2016) Development of Rainfall-Flood Damage Estimation Function using Nonlinear Regression Equation. Journal of the Korean Society of Disaster Information, Vol. 12, No. 1, pp. 74-88. 10.15683/kosdi.2016.3.31.74.
crossref pdf
Liu, J (2012). Weather or Wealth: An Analysis of Property Loss Caused by Flooding in the US. 2012 Annual Meeting. Agricultural and Applied Economics Association.
crossref pmid
Munich Re (2002) Winter Storms in Europe: Analysis of 1990 Losses and Future Loss Potentials.
crossref
Murnane, R, and Elsner, J (2012) Maximum Wind Speeds and US Hurricane Losses. Geophysical Research Letters, Vol. 39, No. 16, CiteID L16707. 10.1029/2012GL052740.
crossref pmid pmc pdf
Oh, S.M, Kim, G.H, Jung, Y.H, Kim, D.H, and Kim, H.S (2015) Risk Assessment of Heavy Snowfall Using PROMETHEE: The Case of Gangwon Province. J. Korean Soc. Hazard Mitig, Vol. 15, No. 1, pp. 87-98. 10.9798/KOSHAM.2015.15.1.87.
crossref pdf
Pielke, R.A, and Downton, M.W (2000) Precipitation and Damaging Floods: Trends in the United States, 1932–97. Journal of Climate, Vol. 13, No. 20, pp. 3625-3637. 10.1175/1520-0442(2000)013<3625:PADFTI>2.0.CO;2.
crossref
Toya, H, and Skidmore, M (2007) Economic Development and the Impacts of Natural Disasters. Economics Letters, Vol. 94, No. 1, pp. 20-25. 10.1016/j.econlet.2006.06.020.
crossref
Yi, C.S, Lee, S.C, Kim, H.S, and Shim, M.P (2005) Multi-Criteria Decision Making Model for Flood Control Project - 1. A Comparative Analysis of AHP and MAUT. Journal of Korean Society of Civil Engineers, Vol. 25, No. 5B, pp. 337-346.
crossref


ABOUT
ARTICLE CATEGORY

Browse all articles >

BROWSE ARTICLES
AUTHOR INFORMATION
Editorial Office
1010 New Bldg., The Korea Science Technology Center, 22 Teheran-ro 7-gil(635-4 Yeoksam-dong), Gangnam-gu, Seoul 06130, Korea
Tel: +82-2-567-6311    Fax: +82-2-567-6313    E-mail: master@kosham.or.kr                

Copyright © 2024 by The Korean Society of Hazard Mitigation.

Developed in M2PI

Close layer
prev next