인공신경망과 다중회귀모형을 이용한 호우피해 예측함수 개발

Development of Heavy Rain Damage Prediction Function Using Artificial Neural Network and Multiple Regression Model

Article information

J. Korean Soc. Hazard Mitig. 2017;17(06):73-80
Publication date (electronic) : 2017 December 31
doi : https://doi.org/10.9798/KOSHAM.2017.17.6.73
김종성*, 최창현**, 김동현***, 이명진****, 김형수
* Member, Master’s Course, Department of Civil Engineering, Inha University
** Member, Doctor’s Course, Department of Civil Engineering, Inha University
*** Master’s Course, Department of Civil Engineering, Inha University
**** Member, Master’s Course, Department of Civil Engineering, Inha University
*****Corresponding Author, Member, Professor, Department of Civil Engineering, Inha University (Tel: +82-32-874-0069, Fax: +82-32-876-9787, E-mail: sookim@inha.ac.kr)
Received 2017 August 31; Revised 2017 September 01; Accepted 2017 September 20.

Abstract

본 연구에서는 경기도 지역을 대상으로 지역별로 피해양상에 따라 4가지 등급을 부여하였고, 호우피해 예측을 위한 함수를 개발하였다. 함수 개발을 위해 재해통계 자료를 조사하여 피해액을 종속변수로 구성하였고, 수문기상 자료들을 분석하여 독립변수를 구성하였다. 통계적 기법으로는 다중회귀모형, 주성분 회귀모형, 인공신경망을 이용하였다. 모형의 학습을 위해 2005~2011년까지 자료를 활용하였고, 2012~2015년까지의 자료를 토대로 예측력을 평가하였다. 예측력 평가결과 NRMSE가 약 19~22%로 나타났고, 인공신경망에서 가장 높은 예측력을 보였다. 본 연구결과를 바탕으로 사전 대비차원의 재난관리가 이루어진다면 급증하는 자연재난으로 인한 피해를 저감할 수 있을 것으로 판단된다.

Trans Abstract

This study classified the heavy rain damage pattern into four classes for each region in Gyeonggi province and developed the damage prediction function. We determined dependent variables using disaster statistics data like damage data and independent variables using hydrological data like rainfall data. We used multiple regression models, principal component regression models, and artificial neural networks as statistical techniques for the construction of the function. This study used data from 2005 to 2011 for model construction and used data from 2012 to 2015 as the prediction period for verification of the constructed model. We evaluated the predictability of the constructed model by using NRMSE. The NRMSE was in the range of 19~22%. The model using artificial neural networks showed the best prediction performance. If disaster management is carried out based on the results of this study, it will be helpful to reduce the damage by increasing natural disasters.

1. 서론

최근 기후변화와 기후변동으로 국지성 집중호우가 빈번하게 발생하고 있으며, 도시화 및 불투수율 증가로 인해 재산피해가 급증하고 있다. 지난 2017년 7월 2일 ~ 11일 기간 중 장마전선의 정체로 인해 국지성 집중호우가 발생하였고, 그로 인해 약 85억 원의 재산피해와 6명의 인명피해가 발생하였다. 이외에도 7월 14일부터 16일까지 내린 집중호우로 청주를 비롯한 천안 등의 충청지역에서 대규모 재산피해와 인명피해가 발생하였다(MOIS, 2017). 만약 이와 같은 피해가 발생하기 전에 미리 피해의 규모를 예측할 수 있다면 재산 및 인명피해를 최소화 할 수 있었을 것이다. 따라서 본 연구에서는 국내 자연재난의 64%이상을 차지하고 있는 호우피해를 대상으로 사전 대비차원의 예측함수를 개발하고 이를 통해 피해를 최소화 하고자 한다.

국외의 재해통계 기반 연구사례를 살펴보면 Dorland et al. (1999)은 네덜란드에서 폭풍우 피해액을 종속변수로 선정하고, 기후변수(시간당 최대 풍속 등)와 사회⋅경제적 변수(주택 및 사업체 수 등)를 설명변수로 선정하여 미래 폭풍우 피해액 회귀모형을 제안하였다. 하지만 기후변화 시나리오의 불확실성, 한정적인 데이터를 사용했다는 점, 사회⋅경제적 변수들은 예측이 어려워 예측에 활용하지 못했다는 점의 한계점을 언급하였다.

Pielke and Downton(2000)은 미국 전 지역을 대상으로 1932년부터 1997년까지의 홍수피해에 대하여 다중회귀분석을 통해 강수량, 강우강도와 같은 기후변수의 변화, 단위면적당 자산, 인구증가율 등 사회⋅경제적 변수의 영향을 분석하였다. 그 결과, 홍수피해와 가장 밀접하게 관련된 것은 강수관련 변수였으나, 강수량과 홍수피해 사이에는 강한 상관관계가 있음에도 일부 비선형성에 대한 부분은 설명할 수 없었다. 이는 강수량만으로는 홍수피해의 선형적 관계를 설명하기에 부족하다는 것을 의미한다.

Mendelsohn and Saher(2011)은 회귀모형을 통해 국가별 재난피해를 예측하였는데, 국제재난역학연구센터에서 제공하는 전 세계 재난피해 자료를 종속변수로 활용하고 인구, 소득 자료, 기상 관측자료(강수량, 기온 등)를 설명변수로 사용하였다. 또한 기후변화를 고려하여 2010년을 기준으로 100년 후 자연재난의 변동을 평가하였다. Murnane and Elsner(2012)는 미국에서 발생한 1900년대부터 2000년대까지의 허리케인 피해와 풍속 자료를 바탕으로 분위회귀모형(quantile regression model)을 통해 허리케인 피해액 예측 함수를 제안하였고, 2011년의 허리케인에 적용한 결과 경제적 손실을 정확하게 예측하였다.

국내의 연구사례를 살펴보면 Chae et al. (2004)는 산사태 발생을 예측하기 위하여 지질요소별 특성을 파악하고, 로지스틱회귀모형을 적용하여 산사태 발생 예측 모형을 제시하였다. 분석결과 토질자료와 지형자료가 유의한 결과를 나타냈으며, 모형의 성능은 90%의 판별력을 나타냈다. Sohn et al. (2005)은 MOS 기법과 로지스틱 회귀모형(주효과 및 이차효과), 신경회로망 모형을 적용하고 비교하였다. 그 결과 호남지역 집중호우발생유무 예측모형으로 주효과만을 고려한 로지스틱 회귀모형의 적용을 제안하였다. Lee et al. (2006)은 우리나라 홍수피해액 평가를 위하여 간편법을 근간으로 하여 평가 방법을 수정하고 보완하였다. 다차원홍수피해산정방법을 이용하여 도시지역에 적합하도록 변형하여 홍수피해액을 산정하는데 적용하였다.

국내에서는 피해를 예측하는 연구보다는 피해를 저감하는 방안에 관한 연구(Kwak et al., 2008; Jung et al., 2014; Choi et al., 2016; Han et al., 2016)나 물리적 프로세스를 적용한 빈도별 홍수피해금액을 산정하는 연구(Lee et al., 2006; Lee et al., 2015)가 주를 이루었는데, 최근에는 재해통계자료가 체계화 되면서 사전대비차원으로 다양한 통계기반의 피해 예측 연구가 수행되고 있다(Kim et al., 2017; Choi et al., 2017; Choo et al., 2017; Kwon and Jung, 2017).

기존 국내⋅외 통계기반 피해예측에 관한 연구사례를 살펴보면 피해예측함수를 개발함에 있어, 지역적 특성을 충분히 반영하지 못하였다. 따라서 본 연구에서는 지역별로 피해양상을 파악하여 등급을 부여하고, 이를 독립변수로 활용함으로써 지역적 특성을 반영하였다. 또한 다중회귀모형, 주성분 회귀모형, 인공신경망 등의 다양한 통계기법을 적용하여 호우피해를 사전에 예측할 수 있는 함수를 개발하였다.

2. 호우피해 예측함수 구축을 위한 모형

2.1 다중회귀모형

다중회귀모형은 여러 개의 독립변수와 종속변수간의 인과관계를 통계적 방법에 의해 추정하는 방법을 말한다. 다중회귀분석은 종속변수 Y에 대한 N개의 독립변수 x1, x2, x3, … xn의 관계를 선형 함수라고 가정하여 Eq. (1)과 같이 나타낸다.

(1)yi'=β0+β1xi1+β2x2+...+βixi+εi

여기서, β0은 상수항, β1βi은 독립변수의 회귀계수, εi는 종속변수를 추정할 때 발생되는 오차를 말한다. 다중회귀모형의 회귀계수를 추정하기 위해서는 최소제곱법(ordinary least square, OLS)을 사용하며, 오차제곱합이 최소화되는 회귀계수를 추정한다(Ryu et al., 2016).

회귀모형에서 독립변수들이 서로 독립적일 때 모형의 설명력이 높아지며, 그렇지 않을 경우 독립변수들의 특성이 유사하여 추정량의 변동이 커지게 된다. 이러한 문제를 다중공선성이라고 하며, 원인으로는 표본수가 적거나 독립변수들 사이의 상관관계가 존재할 경우이다(Ryu et al., 2016). 다중공선성을 판별할 때 분산팽창요인(Variance Inflation Factors, VIF)을 통해 평가하는데, 일반적인 수용기준은 VIF가 10이상인 경우 다중공선성이 높다고 판별한다(Kim et al., 2017). 다중공선성문제를 해결하기 위하여 통계적 유의도가 높은 일부변수를 추출하게 되는데, 이때 변수선택법이 고려될 수 있다. 변수선택방법으로는 전진 선택법(Forward), 후방 소거법(Backward), 단계적 선택법(Stepwise)이 있으며, 단계선택법이 가장 안정적이며 주로 사용된다. 본 연구에서는 단계선택법을 이용하여 모형을 구축하였다.

2.2 주성분 분석

다중공선성을 해결하기 위한 방법으로 일부 변수를 추출하지 않고, 상관성이 있는 독립변수들을 정보손실을 최소화하여 저차원의 데이터로 축소하는 방법인 주성분 분석(Principal Component Analysis, PCA)이 고려될 수 있다. 주성분 분석은 공분산 행렬이나 상관행렬의 연산과정을 통해 고차원의 데이터에서 선형적 특성 또는 의미 있는 성분만을 추출하여 압축하는 통계기법이다(Back et al., 2014).

행렬을 연산하는 과정에서 성분을 회전하게 되는데 추출하는 성분들에 대한 해석을 용이하게 한다. 성분회전 방법으로는 Varimax, Quartimax 등의 직각회전과 Direct Oblimin Rotation 등의 사각회전 방법이 있다. 본 연구에서는 널리 사용되고 있는 Varimax를 사용하였다. 주성분의 개수를 선택하는 방법으로는 스크리도표를 확인하여 고유값이 1 이상일 경우나 누적분산으로 선정하게 된다. 일반적인 수용기준은 70~90%일 경우이며, 본 연구에서는 80% 이상의 누적분산일 때 주성분의 수를 결정하였다. 최종적으로 도출되는 주성분을 이용하여 회귀모형을 구축하는 것을 주성분 회귀모형이라고 한다.

2.3 인공신경망

인공신경망은 인간의 뇌가 수많은 신경들로부터 입력과 출력의 신호를 전달하는 과정을 착안하여 모델화한 방법이다. 다음 Fig. 1에서 인공신경망의 구조를 나타냈다. 먼저 입력층과 은닉층, 출력층으로 구성되며, 각 노드간의 가중치를 통해 결과값을 결정하게 된다.

Fig. 1

The Structure of Artificial Neural Network

인공신경망이 다른 모형과 가장 큰 차이점은 학습과정에서 있다. 변수들간의 관계를 의미하는 가중치를 학습의 반복을 통한 보정으로 결정되며, 학습방법으로는 역전파(Backpropagation) 알고리즘이 사용된다. 또한 연구자가 직접 은닉층의 노드수, 반복횟수, 등을 조정할 수 있게 되는데 이 과정에서 학습구간에 과적합화나 과소적합화 된다면 모형의 예측력이 현저하게 떨어진다. 본 연구에서는 노드수와 반복횟수를 기준으로 조정하였다.

3. 대상지역 선정 및 입력자료 설정

3.1 대상 지역 선정

본 연구에서는 호우피해 발생이 가장 빈번한 지역을 선정하기 위하여 시⋅도별로 호우피해 발생횟수를 피해금액과 함께 파악하였다(Table 1). 분석결과 피해횟수와 피해금액을 고려하여 경기도 지역을 대상지역으로 선정하였다. 경기도 지역의 피해횟수는 총 458회로 피해금액은 5천 4백 억 원의 피해를 입었다.

Heavy Rain Damage in Each Province

3.2 종속변수 설정

본 연구에서는 호우피해를 예측하기 위하여 행정안전부(구 국민안전처)에서 매년 발간하고 있는 재해연보를 활용하였다. 재해연보는 1970년대부터 작성이 시작되었으나, 체계화된 자료는 1994년부터 제공하고 있다. 또한 재해연보는 재해관련 통계자료 중 비교적 체계적이며, 원인별⋅기간별⋅지역별⋅시설물별로 구분되어 작성된다. 피해 원인으로는 태풍, 호우, 대설, 풍랑, 강풍으로 구분되고 있으며, 총 229개의 시군구로 구분되고 있다. 기간은 재해의 시작일시와 재해의 종료일시로 구분되고, 시설물은 공공시설물 총 13개와 사유시설물 총 10개로 구분되고 있다.

본 연구에서는 2005년부터 2015년까지의 경기도 지역의 호우피해 금액을 수집하였고, 이를 종속변수로 활용하였다. 또한 2005년과 2015년의 화폐가치가 상이하기 때문에 재해연보에서 사용하는 생산자 물가지수를 이용하여 모든 기간의 피해금액을 2015년 기준으로 환산하였다.

3.3 피해수준에 따른 지역 등급화

경기도 지역은 총 31개의 시군구로 구성되며, 각 시군구의 피해 빈도와 금액이 상이하게 분포되어 있다. 이는 31개의 지역이 모두 특성이 다르기 때문이며, 지역적 특성을 고려한다면 예측모형의 정확도가 높아질 것이라 판단된다. 따라서 본 연구에서는 경기도 전체 피해금액을 4분위수로 구분하여 기간별 피해에 대하여 A~D로 총 4가지 등급을 부여하였다. 경기도 지역에서 2005년부터 2015년까지의 실제피해액을 4분위로 구분한 결과, 최소값(0%)은 12만원, 1분위(25%)는 4백만 원, 2분위(50%)는 3천5백만 원, 3분위(75%)는 3억1천5백만 원, 최대값(100%)은 5백3십억 원으로 도출되었다. 다음 Table 2에서 등급을 분류하기 위한 기준을 제시하였다. 또한 해당 시군구의 피해등급 개수를 파악하여 가장 빈번한 피해등급을 해당 시군구의 등급으로 부여하였고 이를 범주형 변수로 활용하였다(Table 3).

Classification Criteria

Damage Class of Each Region in Gyounggi Province

3.4 독립변수 설정

호우피해 예측함수를 구성하는 독립변수는 기상자료, 재해일수, 지역적 특성을 반영한 피해등급과 시군구 면적을 사용하였다. 기상자료는 신뢰도가 비교적 높은 기상청 관측소를 사용하였다.

기상청은 종관기상관측장비(Automated Synoptic Observing System, ASOS)와 무인으로 운영되는 방재기상관측장비(Automatic Weather System, AWS)를 이용하여 지상기상관측업무를 수행하고 있는데, 본 연구에서는 비교적 조밀하여 피해지역의 기상상태를 잘 반영할 수 있는 방재기상관측장비의 관측치를 활용하여 기상요소 자료를 구성하였다. 경기도 지역에 해당하는 관측소를 파악하기 위하여 티센다각형방법을 이용하였고, 총 75개의 관측소로 파악되었다. 또한 티센다각형의 면적가중평균을 이용하여 지점으로 수집된 기상자료(2005~2015년)를 행정구역별 면적단위자료로 환산하였다. 이렇게 산정된 면적단위 자료를 이용하여 재해기간별 총 강우량, 선행강우량, 지속시간별 최대강우량을 산정하였다.

본 연구에서는 최종적으로 재해일수, 시군구 면적, 지역별 피해등급, 재해기간별 총 강우량, 선행강우량(1일~7일), 지속시간별 최대강우량(1시간~24시간)을 독립변수(총 37개)로 활용하였다.

4. 호우피해 예측함수 구축 및 예측력 평가

본 연구에서는 호우피해를 예측하기 위하여 다중회귀모형과 주성분 회귀모형, 인공신경망을 구축하였다. 모형을 구축할 때는 예측값에 대한 안전성을 위하여 종속변수를 로그로 변환하여 입력하였다. 또한 학습과 검증을 위하여 자료의 기간을 구분하였는데, 2005년부터 2011년까지를 학습구간, 2012년부터 2015년까지를 예측구간으로 설정하였다. 모형의 검증을 위하여 예측력 평가 방법으로 RMSE (Root Mean Square Error), NRMSE(Normalized Root Mean Square Error)를 활용하여 각 모형의 예측력을 평가하였다.

4.1 다중회귀모형 구축

다중회귀모형에서는 먼저 앞에서 설정한 종속변수와 독립변수를 모두 입력하여 모형을 구축하였고, 모형의 유의성 및 다중공선성을 파악하였다(Table 4).

VIF and P-Value of Regression Model

여기서 (*)는 통계적 유의성이 높은 변수를 의미하며, Date는 재해일수를 의미하며, d1~d7은 선행강우량(1~7일), x1~x24는 지속시간별 최대강우량(1~24시간), Area는 시군구 면적, Tot는 재해기간의 총 강우량, class는 지역별 피해등급을 의미한다. Table 4에서 살펴보면 모형의 유의확률은 0.05 이하로 문제되지 않지만, 대부분의 독립변수에서 VIF가 10 이상이므로 다중공선성에 문제가 발생한다. 따라서 변수선택법을 고려할 수 있는데, 본 연구에서는 독립변수의 통계적 유의성이 높은 변수를 선택하는 방법과 단계선택방법으로 회귀모형을 구축하였다.

먼저 통계적 유의성으로 선택된 모형을 구축하였을 때 d1, Date, Tot, x1, class 총 5가지의 변수를 선택하였다. 첫 번째 다중회귀모형의 산점도를 다음 Fig. 2에서 나타냈다. 첫 번째 호우피해 예측함수의 설명력이 약 42.98%로 나타났다.

Fig. 2

The Scatter Plot of Multiple Regression Models (1)

두 번째 다중회귀모형으로 단계선택방법을 이용하여 변수를 선택하였을 때 d1, x15, class 총 3가지 변수로 모형이 구성되었고, 다음 Fig. 3에서 산점도를 나타냈다. 두 번째 호우피해 예측함수의 설명력은 약 43.19%로 나타났다.

Fig. 3

The Scatter Plot of Multiple Regression Models (2)

4.2 주성분 회귀모형 구축

독립변수들간의 상관관계로 인해 다중공선성의 문제가 발생할 경우 정보손실 측면에서 최소화할 수 있는 방안으로 주성분 분석이 꼽힌다. 본 연구에서는 선행강우량(1일 ~ 7일), 지속시간별 최대강우량(1~24시간)이 가장 상관관계가 높다고 판단하여, 주성분 분석을 수행하였다. 주성분 분석을 수행할 때 누적분산을 확인하여 주성분 개수를 정하게 되는데, 본 연구에서는 86%의 누적분산을 나타내는 2가지 주성분을 선택하였다.

이를 다시 독립변수로 활용하여 회귀모형을 구축하였고, Table 5에서 VIF를 확인해본 결과 다중공선성의 문제는 발견되지 않았다.

VIF of PCA Regression Model

여기서 RC1과 RC2는 주성분 분석을 통해 도출된 주성분 점수를 의미한다. 세 번째 호우피해예측함수인 주성분 회귀모형은 약 42.42% 설명력을 나타냈고, 다음 Fig. 4와 같이 산점도를 나타냈다.

Fig. 4

The Scatter Plot of PCA Regression Models

4.3 인공신경망 구축

인공신경망 구축을 위해서는 모든 입력변수들에 대한 표준화가 선행되어야 하며, 신경망 모형은 블랙박스 모형이기 때문에 다중공선성을 고려하지 않아도 무방하다. 따라서 본 연구에서는 총 37개의 독립변수와 1개의 종속변수에 대하여 표준화를 수행하였다. 표준화 방법은 Re-scaling 방법을 이용하였는데, 이는 본 연구에서 사용하는 데이터가 비정규성을 따르기 때문이다. Re-scaling 방법은 다음 Eq. (2)와 같이 계산된다.

(2)Rescaling=ximin(x)max(x)min(x)

여기서 xii번째 관측값을 의미한다. 신경망은 블랙박스 모형으로 앞의 절에서 활용했던 회귀모형과는 다르게 회귀식이 도출되지 않는다. 반면 다음 Fig. 5와 같이 망의 구성을 시각화 할 수 있으며, 이를 통해 각 노드들의 가중치를 파악할 수 있다.

Fig. 5

Visualization of Artificial Neural Network

또한 신경망은 매개변수들에 대한 보정과정이 필수적이며, 보정을 어떻게 하냐에 따라 예측값에 대한 정확도가 판이하게 달라진다. 여러 가지 매개변수 중 본 연구에서는 학습 횟수와 히든레이어에서의 노드수를 매개변수로 보정하였다. 목적함수는 예측구간에 대한 RMSE(Root Mean Square Error, RMSE)와 NRMSE(Normalized Root Mean Square Error, NRMSE)가 최소가 되는 시점으로 설정하였다.

최종적으로 가장 높은 예측력을 나타낸 노드의 수는 총 2개이며, 반복횟수는 50번으로 결정되었다. 네 번째 호우피해 예측함수인 인공신경망은 36.61%의 설명력을 나타냈고, 다음 Fig. 6과 같이 산점도를 나타냈다.

Fig. 6

The Scatter Plot of Artificial Neural Network

4.4 예측력 평가

본 연구에서는 경기도 지역의 호우피해를 예측하기 위하여 통계적 유의성하여 변수를 선택한 다중회귀모형, 단계선택법을 이용한 다중회귀모형, 주성분 회귀모형, 인공신경망을 구축하였다. 총 4가지 모형에 대한 예측력을 평가하기 위하여 2012년부터 2015년까지의 자료를 이용하였다. 예측력 평가 방법으로는 RMSE와 RMSE를 표준화한 NRMSE를 사용하였다. RMSE는 모형이 예측한 값과 실제 측정된 값의 차이를 다룰 때 흔히 사용되며 여러 잔차들을 하나의 측도로 종합할 때 사용된다. NRMSE는 RMSE를 표준화하여 단위가 상이한 값을 비교할 때 용이하며, RMSE보다 직관적으로 이해하기 쉽다. 즉, 두 가지 평가방법 모두 예측값과 실제값에 대한 오차를 통해 예측력을 평가하는 방법이며, 모두 0에 가까울수록 예측력이 높음을 의미한다. 다음 Eqs. (3)과 (4)에서 RMSE와 NRMSE를 수식으로 표현하였다.

(3)RMSE=1ni=1n(yiy^)2
(4)NRMSE=RMSEMax(yi)Min(yl)

여기서 yi는 i번째 실제 호우피해액을 의미하며 y^i는 i번째 모의된 호우피해액을 의미한다. 일반적으로 NRMSE 결과값이 20% 내외일 경우 예측력이 높다는 것을 의미하고, 50% 이하일 경우 예측력이 보통이라고 판단한다. 또한 50% 이상일 경우 예측력이 떨어짐을 의미한다.

각 모형별 실제값과 예측값에 대한 오차 비교결과는 Table 6과 같다. 여기서 Model ①은 다중회귀모형에서 유의성을 고려하여 선택한 방법이며, Model ②는 다중회귀모형에서 단계선택법을 의미한다. 또한 Model ③은 주성분 회귀모형을 나타내고, Model ≣는 인공신경망 모형을 나타낸다. 예측력 평가 결과, Model ① ~ Model ≣까지 모두 약 20% 내외의 오차를 보이고 있으며, 경기도 지역의 호우피해를 적절하게 예측을 하는 것으로 판단된다. 다중공선성의 문제가 발생할 경우 변수를 제거하는 것보다 정보손실측면에서 주성분 분석을 수행하는 것이 더 효과적임을 알 수 있다.

Predictability Evaluation of Models

Model ≣의 경우 학습구간의 설명력은 가장 낮았으나, 예측구간에서 가장 높은 예측력을 보이고 있다. 이는 훈련데이터에 과적합화나 과소적합하지 않도록 매개변수를 적절히 보정하였기 때문으로 판단된다. 바로 이 부분이 인공신경망의 장점이자 단점으로 볼 수 있다. 즉, 인공신경망은 매개변수를 보정하는데 많은 시간이 걸리며 학습이 느린 반면 보정이 적절히 된다면 가장 높은 예측력을 나타낼 수 있음을 의미한다.

5. 결론

본 연구에서는 급증하고 있는 자연재난에 대하여 사전에 대비할 수 있는 방편으로 호우피해 예측함수를 개발하고자 하였다. 재해연보를 통한 지역별 호우피해액과 기상자료개방포털을 통한 AWS의 수문기상자료를 구축하였다. 또한 지역별 피해양상에 따라 4분위수를 이용하여 4가지 등급으로 부여하였다. 통계적 기법으로는 다중회귀모형, 주성분 회귀모형, 인공신경망을 사용하였고, 변수선택법과 조합하여 총 4가지 예측함수를 개발하였다.

주요 결과를 요약하면 다음과 같다.

  • (1) 경기도의 31개 시군구를 피해양상에 따라 등급을 부여한 결과 A등급의 지역은 10개, B등급은 6개, C등급은 7개, D등급은 8개의 지역으로 구분되었음

  • (2) 다중공선성의 문제가 발생할 경우 변수선택을 통한 회귀모형보다 주성분 회귀모형이 예측력측면에서 더 효과적임을 알 수 있었음

  • (3) 다양한 통계적 기법으로 개발된 4가지 모형의 NRMSE는 약 19~22%로 나타났음

  • (4) Model ④(인공신경망)는 학습구간에서 설명력이 낮았지만 예측구간에서는 가장 높은 예측력을 나타냈으며, 이는 학습구간에서의 매개변수 보정이 적절히 이루어졌음을 알 수 있음

본 연구의 한계점으로는 몇 가지가 있다. 우선, 독립변수를 설정함에 있어 대부분의 자료가 강우량으로부터 파생된 변수를 사용하였기 때문에 향후 연구에서는 호우피해에 영향을 미치는 추가적인 변수가 고려되어야 할 것이다. 또한 통계적 기법으로 3가지 모형에서 모두 선형모형을 사용하였는데, 비선형모형인 인공신경망이 가장 높은 예측력을 나타냈기 때문에 향후 연구에서는 다항회귀모형이나 비선형모형을 추가적으로 고려할 필요가 있다. 마지막으로 본 연구에서는 예측값에 안전성 확보를 위하여 종속변수를 로그로 대수변환을 취했는데, 이 경우 다시 역로그를 취할 때 범위가 크게 차이가 난다. 따라서 향후 연구에서는 대수변환과정에서 변화의 폭을 줄일 수 있는 방안을 고려할 필요가 있다.

기존 국⋅내외 연구 사례에서는 대부분 피해예측함수를 개발함에 있어 지역적인 특성을 반영하지 못하였다. 반면 본 연구에서는 지역별로 피해양상을 파악하여 해당하는 등급을 부여하였고, 호우피해 예측함수를 개발할 때 이를 반영하였다.

본 연구의 결과를 바탕으로 사전 대비차원의 재난관리를 실시한다면 급증하고 있는 자연재해를 최소화 할 수 있을 것으로 판단된다.

감사의 글

본 연구는 정부(행정안전부)의 재원으로 재난안전기술개발사업단의 지원을 받아 수행된 연구임 [MOIS-재난-2015-05]

References

Back S.S, Jang S.K, Park A.S, Han D.G, Ryu J.C. 2014;A Study on CPA Performance Enhan- cement using the PCA. Journal of The Korea Institute of Information Security & Cryptology 24(5):1013–1022.
Chae B.G, Kim W.Y, Cho Y.C, Kim K.S, Lee C.O, Choi Y.S. 2004;Development of a Logistic Regression Model for Probabilistic Prediction of Debris Flow. The Journal of Engineering Geology 14(2):211–222.
Choi C.H, Han D.G, Kim J.W, Jung J.W, Kim D.H, Kim H.S. 2016;Mega Flood Simulation Assuming Successive Extreme Rainfall Events. Journal of Wetlands Research 18(1):76–83. 10.17663/JWR.2016.18.1.076.
Choi C.H, Kim J.S, Kim J.H, Kim H.Y, Lee W.J, Kim H.S. 2017;Development of Heavy Rain Damage Prediction Function Using Statistical Methodology. J. Korean Soc. Hazard Mitig 17(3):331–338. 10.9798/KOSHAM.2017.17.3.331.
Choo T.H, Kwon J.W, Yun G.S, Yang D.U, Kwak K.S. 2017;Development of Predicting Function for Wind Wave Damage based on Disaster Statistics: Focused on East Sea and Jeju Island. Journal of Korean Society of Environtal Technology 18(2):165–172.
Dorland C, Tol R.S, Palutikof J.P. 1999;Vulnerability of the Netherlands and Northwest Europe to Storm Damage under Climate Change. Climatic Change 43(3):513–535. 10.1023/A:1005492126814.
Han D.G, Choi C.H, Kim D.H, Jung J.W, Kim J.W, Kim S.J. 2016;Determination of Flood Reduction Alternatives for Responding to Climate Change in Gyeongan Watershed. Journal of Wetlands Research 18(2):154–165. 10.17663/JWR.2016.18.2.154.
Jung J.W, Kim Y.S, Hong S.J, Kwon H.S, Kim J.W, Kim H.S. 2014;Effectiveness Analysis of Artificial Wetland for Flood Reduction. J. Korean Soc. Hazard Mitig 14(4):369–377. 10.9798/KOSHAM.2014.14.4.369.
Kim J.H, Kim T.G, Lee B.R. 2017;An Analysis of Typhoon Damage Pattern Type and Development of Typhoon Damage Forecasting Function. J. Korean Soc. Hazard Mitig 17(2):339–347. 10.9798/KOSHAM.2017.17.2.339.
Kim J.S, Choi C.H, Lee J.S, Kim H.S. 2017;Damage Prediction Using Heavy Rain Risk Assessment:(2) Development of Heavy Rain Damage Prediction Function. J. Korean Soc. Hazard Mitig 17(2):371–379. 10.9798/KOSHAM.2017.17.2.371.
Kwak J.W, Kim D.G, Yoon S.H, Kim H.S. 2008;Washland Constructions and Effectiveness Analysis of Flood Control using MD-FDA. Journal of Wetlands Research 10(3):69–78.
Kwon S.H, Jung G.H. 2017;Estimation of Snow Damages using Multiple Regression Model: The Case of Gangwon Province. Journal of the Korean Society of Civil Engineers 37(1):61–72. 10.12652/Ksce.2017.37.1.0061.
Lee J, Kim D, Kim J, Han D, Kim H.S. 2015;Flood Damage Reduction Plan Using HEC-FDA Model. Journal of Wetlands Research 17(3):237–244. 10.17663/JWR.2015.17.3.237.
Lee K.H, Choi S.A, Kim H.S, Shim M.P. 2006;Application of Multi-dimensional Flood Damage Analysis for Urban Flood Damage. Journal of the Korean Society of Civil Engineers 26(4B):363–369.
Mendelsohn R, Saher G. 2011. The Global Impact of Climate Change on Extreme Events Policy Research Working Paper, World Bank.
Murnane R.J, Elsner J.B. 2012;Maximum Wind Speeds and US Hurricane Losses. Geophysical Research Letters 39:16. CiteID L16707. 10.1029/2012GL052740.
Pielke R.A, Downton M.W. 2000;Precipitation and Damaging Floods: Trends in the United States, 1932–97. Journal of Climate 13(20):3625–3637. 10.1175/1520-0442(2000)013<3625:PADFTI>2.0.CO;2.
Ryu N.H, Kim H.S, Kang P.S. 2016;Evaluating Variable Selection Techniques for Multivariate Linear Regression. Journal of the Korean Institute of Industrial Engineers 42(5):314–326. 10.7232/JKIIE.2016.42.5.314.
Sohn K.T, Lee J.H, Lee S.H, Ryu C.S. 2005;Statistical Models for Prediction of Heavy Rain in Honam Area. Asia-Pacific Journal of Atmospheric Sciences 41(6):897–907.

Article information Continued

Fig. 1

The Structure of Artificial Neural Network

Table 1

Heavy Rain Damage in Each Province

Districts Incidence of total damage Total damage (1,000,000 won)
Gyeonggi-do 458 544,003
Jeollanam-do 209 146,633
Chungcheongnam-do 148 89,788
Gangwon-do 141 1,758,791
Seoul 124 55,540
Gyeongsangbuk-do 121 459,085
Gyeongsangnam-do 121 128,106
Jeollabuk-do 120 444,205
Busan 94 154,605
Chungcheongbuk-do 90 146,787
Incheon 83 12,181
Daejeon 30 4,706
Gwangju 28 3,345
Ulsan 24 32,458
Jeju 10 4,901
Daegu 8 909
Sejong 5 184
Total 1,814 3,986,227

Table 2

Classification Criteria

Class A B C D
Classification criteria (%) 0~25 25~50 50~75 75~100

Table 3

Damage Class of Each Region in Gyounggi Province

Region Class Region Class Region Class
Gapyeong D Seongnam A Yongin C
Goyang B Suwon B Uiwang A
Gwacheon A Siheung A Uijeongbu D
Gwang myeong A Ansan B Icheon D
Gwangju C Anseong C Paju C
Guri A Anyang C Pyeongtaek B
Gunpo A Yangju B Pocheon C
Gimpo A Yang pyeong D Hanam B
Namyangju D Yeoju D Hwaseong C
Dongdu cheon A Yeoncheon D
Bucheon D Osan A

Table 4

VIF and P-Value of Regression Model

Variable VIF Variable VIF Variable VIF
Date(*) 12.74 x3 148.6 x15 2,355.6
d7 18.51 x4 194.6 x16 2,301.4
d6 112.35 x5 311.9 x17 3,037.7
d5 84.77 x6 344.2 x18 3,642.6
d4 9.64 x7 457.4 x19 5,063.8
d3 9.94 x8 970.7 x20 5,803.3
d2 4.23 x9 856.1 x21 5,542.2
d1(*) 1.93 x10 970.0 x22 4,164.8
Area 3.23 x11 1,412.9 x23 5,662.4
Tot(*) 25.04 x12 1,374.7 x24 2,508.1
x1(*) 13.14 x13 2,231.2 class(*) 3.82
x2 51.66 x14 2,265.3
P-Value 2×10−15

Fig. 2

The Scatter Plot of Multiple Regression Models (1)

Fig. 3

The Scatter Plot of Multiple Regression Models (2)

Table 5

VIF of PCA Regression Model

Variable VIF Variable VIF
Date 1.06 tot 4.01
area 2.66 RC1 1.08
class 2.62 RC2 1.06

Fig. 4

The Scatter Plot of PCA Regression Models

Fig. 5

Visualization of Artificial Neural Network

Fig. 6

The Scatter Plot of Artificial Neural Network

Table 6

Predictability Evaluation of Models

Model RMSE NRMSE
Model ① Multiple regression model (Slect) 1.125 0.225
Model ② Multiple regression model (Stepwise) 1.095 0.219
Model ③ Princiapl component analysis regression model 1.074 0.214
Model ④ Artificial neural network 0.959 0.192