J. Korean Soc. Hazard Mitig Search

CLOSE


J. Korean Soc. Hazard Mitig. > Volume 17(3); 2017 > Article
통계적 방법론을 이용한 호우피해예측함수 개발

Abstract

In this study, we develop heavy rain damage prediction functions for Han river basin by using statistical models such as linear regression model, generalized linear model, principal component regression model, artificial neural network model. The prediction functions were estimated from the training data (1994 to 2011) and evaluated by the test data (2012 to 2015). Their performances were assessed by comparing observed heavy rain damages and predicted damages. Specifically, the NRMSE was 10.61~13.89%. A generalized linear model based on penalized likelihood method showed the best prediction performance. This heavy rain damage prediction function developed in this study can be used not only for estimating quickly the magnitude and impact of disaster damage, but also for disaster management in prevention and preparation level.

요지

본 연구에서는 한강권역을 대상으로 선형회귀모형, 일반화선형모형, 주성분 회귀모형, 인공신경망 모형과 같은 통계적 모형을 적용하여 호우피해예측함수를 개발하였다. 학습용 데이터(1994∼2011년)로부터 개발된 함수를 평가용 데이터(2012∼2015년)에 적용하고, 실제 호우피해액과 예측 호우 피해액을 비교하여 예측력을 평가하였다. 평가결과 NRMSE는 10.61∼13.89%로 나타났으 며, 일반화선형모형에 벌점화를 통한 축소추정법을 적용한 함수에서 가장 좋은 예측력을 나타냈다. 본 연구에서 개발된 호우피해예측함수를 활용하여 재난 피해 발생 전 피해규모와 영향을 신속하게 추정한다면, 예방 및 대비 차원의 재난관리에 유용하게 활용될 수 있을 것이다.

1. 서론

전 세계적으로 재난으로 인한 심각한 경제적 손실과 인명피해가 발생하고 있고, 기후변화와 급격한 도시화로 인해 피해 규모가 더욱 커지고 있다. 세계은행(World Bank)의 조사에 의하면 지난 39년간(1970∼2008년) 전 세계적으로 자연재해로 인해 330만 명의 사람이 목숨을 잃고, 피해금액은 2조 3천억 달러에 이르는 것으로 나타나 재난관리 체계에 많은 문제점이 있음이 드러났다(World bank and United Nations, 2010). 우리나라는 자연재난으로 인해 최근 10년(2006~2015)간 연 평균 약 5천 5백억원의 피해액이 발생하였고, 그 중 65%는 호우로 인한 피해인 것으로 나타났다(MPSS, 2016). 만약 기존에 발생한 재해통계자료를 기반으로 재난피해 발생 전에 피해범위 및 영향을 예측할 수 있다면 효율적인 재난관리를 통해 피해액은 크게 감소될 것이다. 이와 같이 재난에 관한 정보의 수요가 급증하고 있으나 국내에는 아직 통계기반 정보체계를 통한 피해 예측 관련 연구가 미비한 상태이다.
재해통계자료를 기반으로 피해액을 예측하는 국외의 연구를 살펴보면 Davis and Skaggs(1992)는 미육군공병단(U.S. Army Corps of Engineers, USACE)에서 조사한 지역별 홍수 피해정보를 설명변수로 하고 회귀모형을 구축하여 주거지 구조물과 내용물에 대한 침수심별 홍수피해 함수를 제안하였다. Dorland et al.(1999)은 네덜란드에서 1987~1992년 동안 발생한 폭풍우 피해액을 종속변수로 선정하고, 시간당 최대 풍속 등의 기후변수와 주택 및 사업체 수 등과 같은 사회⋅경제적 변수를 설명변수로 선정하여 폭풍우 피해액 회귀모형을 제안하였다. 분석 결과 시간당 최대 풍속이 폭풍우 피해액에 가장 큰 영향을 미치는 것으로 나타났고, 사회⋅경제적 변수들의 영향은 미비한 것으로 나타났다. Toya and Skidmore(2007)의 연구에서는 회귀모형을 이용하여 OECD국가와 개발도상국을 대상으로 자연재해에 따른 GDP당 피해를 예측하였다. 사회⋅경제적 요인을 고려하여 분석한 결과, 교육수준과 경제의 규모가 높은 국가일수록 자연재해로 인한 피해가 적은 것으로 나타났다. Mendelsohn and Saher(2011)은 회귀모형을 통해 국가별 재난피해를 예측하였는데, 국제재난역학연구센터에서 제공하는 전 세계 재난피해 자료와 인구, 소득 자료, 기상 관측자료(강수량, 기온 등)를 설명변수로 사용하였다. Murnane and Elsner(2012)는 미국에서 발생한 1900년대부터 2000년대까지의 허리케인 피해와 풍속 자료를 바탕으로 분위회귀모형(quantile regression model)을 통해 풍속에 따른 허리케인 피해액 예측 함수를 제안하였고, Zhai and Jiang(2014)는 미국의 보험회사의 자료를 바탕으로 1988∼2012년까지의 73개 열대저기압 바람 속도와 폭풍 크기에 따른 피해에 대해 다변량최소제곱회귀분석(multi-variate least squares regression)을 적용하여 피해액 예측함수를 제안하였다.
국내의 연구사례를 살펴보면 MOLIT(2001)에서는 홍수피해액과 침수심간의 관계를 회귀모형을 통해 도출하여 침수심별 홍수피해손실함수를 제안하였고, Yeo(2003)은 회귀모형을 통해 침수면적과 홍수피해액의 관계식을 제안하였다. Chung et al.(2005)은 인공신경망 모형을 이용하여 침수피해 예측모형을 개발하였는데, 108개의 중유역을 대상으로 침수피해면적과 유역환경정보를 변수로 사용하였다. Jang et al.(2009)은 비선형회귀모형을 통해 홍수피해예측함수를 개발하였고, 설명변수로 상관성이 높은 2가지의 강우자료를 혼합한 복합강우를 제안하였다. Choi(2010)의 연구에서는 인공신경망 모형을 이용하여 자연재난 피해액 예측함수를 개발하였는데, 5일 선행강우량, 누적강우량, 최대풍속을 설명변수로 이용하였다. Lee et al.(2016)의 연구에서는 수원시, 양평군, 이천시를 대상으로 비선형 회귀식을 이용하여 강우로 인한 홍수피해 예측함수를 제시하였고, 실제피해액과 비교해보면 각각의 피해액이 –14%, -15%, 37% 가량 과소⋅과대 추정되는 것으로 나타났다.
기존 국내⋅외 선행연구를 살펴보면 주로 태풍과 호우피해를 모두 고려한 홍수피해를 예측하거나, 1가지의 통계적 방법론만을 적용하여 재난피해를 예측하는 함수를 개발하였다. 그러나 호우피해와 태풍피해의 특성은 매우 다르기 때문에 본 연구에서는 재해원인별로 구분 되어 있는 재해연보상의 구분에 따라 호우피해만을 대상으로 연구를 진행하였다. 본 연구에서는 통계적 모형으로 선형회귀모형, 일반화선형모형, 주성분 회귀모형, 인공신경망을 이용하였고, 변수선택법으로 단계별 변수선택법, 벌점화를 통한 축소추정법을 적용하여 총 11개의 재난통계기반 호우피해액 예측함수를 개발하였다.

2. 호우피해예측함수 개발을 위한 통계적 방법론

호우피해예측함수를 개발하기 위해서는 호우피해액과 설명변수 사이의 함수 관계를 파악하는 것이 중요하다. 호우피해액과 설명변수 사이의 관계를 선형 함수로만 가정하는 것은 심각한 제약조건이 되므로 실제 자료를 유연하게 다루기 위해 비선형 관계를 모형화 할 수 있고, 반응변수의 평균수준에 따른 분산 수준의 변화 등을 고려할 수 있는 유연한 방법을 고려할 필요가 있다. 이를 위해 일반화선형모형과 인공신경망모형을 고려하였다. 그리고 다중공선성을 해소하기 위한 주성분 회귀모형과 최근 예측력 개선이 큰 도움이 되는 것으로 알려져 있는 벌점화를 통한 축소추정법을 포함하여 고려하였다. 위에서 언급된 다양한 통계적 모형과 변수선택법의 조합으로부터 여러 후보 모형을 추정한 다음, 예측력 평가를 통해 가장 우수한 예측력을 갖는 최종모형을 선정하고자 하였다.

2.1 선형회귀모형

선형회귀모형(Linear Regression Model, LRM)은 종속변수 y에 유의한 영향을 미칠 것으로 기대되는 설명변수들인 x1, …, xK을 고려하여, 종속변수가 여러 개의 설명변수들로 설명되는 Eq. (1)과 같은 구조를 갖는다(Chatterjee and Hadi, 2012).
(1)
yi=β0+β1xi1+...+βkxik+εi=β0+j=1kβjxij+εifori=1,...,n
Eq. (1)에서의 아래 첨자 ii번째 데이터의 값을 의미하며, 데이터의 총 개수는 n개를 가정한다. Eq. (1)에서β0는 절편(intercept)이며, 설명변수 앞에 붙은β1, …, βK는 회귀계수(regression coefficient)를 나타낸다. Βjj번째 설명변수 xj를 제외한 나머지 설명변수들의 효과가 통제되고 있는 상황에서xj의 값이 한 단위 증가할 때, y의 기댓값인μ(=E(y))의 변화량을 의미한다. ε는 오차(error)로써, 종속변수 y가 설명변수x1, …, xK에 의해 설명되지 않는 나머지 부분을 나타낸다. 회귀모형에서 오차항은 서로 통계적으로 독립이며, 평균이 0이고 동일한 분산을 가지는 정규분포(normal distribution)를 따른다고 가정한다.

2.2 일반화선형모형

일반화선형모형(Generalized Linear Model, GLM)은 선형회귀모형에서 종속변수에 대한 분포 가정을 다양화 할 수 있는 모형이다(Nelder and Wedderburn, 1972). 일반화선형모형은 Eq. (2)와 같이 표현된다.
(2)
g(μi)=β0+β1xi1+...+βkxik=β0+j=1kβjxij
Eq. (2)에서μ는 종속변수의 평균인 E(y)을 의미하며, g(·)는 종속변수의 평균과 설명변수의 선형결합을 연결하는 역할을 수행하는 연결함수(link function)이다. Eqs. (3-5)는 본 연구에서 사용된 일반화선형모형의 분포 가정을 표현한 것이다.
(3)
E(yi)=μi,Var(yi)=σ2,g(μi)=μi
(4)
E(yi)=μi,Var(yi)=ϕμi,g(μi)=log(μi)
(5)
E(yi)=μi,Var(yi)=μi+1kμi2,g(μi)=log(μi)
Eq. (3)는 종속변수의 평균과 분산이 서로 다른 변수라고 가정한 것이다. Eq. (4)는 종속변수의 분산이 산포모수(dispersion parameter)인φ에 의해 종속변수의 평균의 1차함수로 표현된다고 가정하고, 로그 연결함수를 사용하였다. Eq. (5)는 종속변수의 분산이 산포모수 k에 의해 종속변수의 평균의 2차함수로 표현된다고 가정하고, 로그 연결함수를 사용한다.

2.3 주성분 회귀모형

주성분 분석은 차원축소(dimension reduction) 기법 중 하나로써, 설명변수들의 공분산행렬 또는 상관행렬을 고유치-고유벡터 분해(eigen value–eigen vector decomposition)하여 설명변수들의 선형결합으로 이루어지는 서로 상관되어있지 않은 변수를 찾아낸다(Hotelling, 1933). 이 변수를 주성분이라고 하는데, 주성분들은 설명변수들의 변동(variation)을 최대한 설명할 수 있도록 만들어지게 되므로 정보의 손실이 최소화된다. 다중공선성을 피하면서, 높은 상관관계를 갖는 다수의 설명변수들 대신에 소수의 주성분을 설명변수로 대신 사용하는 회귀모형을 주성분 회귀모형(Principle Component Regression model, PCR)라고 한다. 설명변수x1, …, xK로부터 m개의 주성분점수z1, …, zm(mk)를 구성하였다고 할 때, 적합되는 주성분 회귀모형은 Eq. (6)과 같다.
(6)
yi=α0+α1zi1+...+αmzim+ε=α0+j=1mαjzij+εifori=1,...,n

2.4 인공신경망 모형

인공신경망(Artificial Neural Network, ANN)은 생체 신경망의 특징을 단순화 한 것으로 인간이 과거의 경험과 훈련을 통해 지식을 축적하여 다른 상황에 적용하듯이 과거자료의 입⋅출력패턴 정보를 추출하여 저장하고, 저장된 정보를 기초로 시스템의 입⋅출력 관계를 반복적인 훈련(training)을 통해 가중치(weight)를 최적화함으로서 새로운 데이터에 미래상황에 대한 정보를 제시하도록 하는 방법이다(Kim, 2013). 인공신경망의 구조는 Fig. 1과 같이 외부 입력을 받아들이는 입력층(input layer), 입력층과 출력층 사이에 위치하여 외부로 나타나지 않는 은닉층(hidden layer), 처리된 결과가 출력되는 출력층(output layer)로 이루어진다. 처리요소는 여러 다른 처리 요소들로부터 입력을 받아들여 연결가중치(connection weight)를 사용하여 순 입력값을 계산한 후 활성화 함수(activation function)를 통해 출력값을 결정하게 된다(Oh et al., 2008). 신경망의 지도학습 알고리즘으로는 역전파 알고리즘과 Fletcher- Reeves 알고리즘, BFGS 알고리즘이 있다. 본 연구에서는 실측값과 결과값의 차이를 역으로 진행시키면서 오차가 최소가 되도록 층과 층 사이의 연결강도를 구하는 역전파 알고리즘을 이용하여 모형을 구축하였다.
Fig. 1
Artificial Neural Network Structure
KOSHAM_17_03_331_fig_1.jpg

2.5 전통적 변수선택법

변수선택은 설명변수 중 종속변수와 유의한 연관성을 갖는 설명변수만을 선택하여 사용하는 방법이다. 전통적인 변수선택 알고리즘으로는 전진선택법(forward selection), 후진소거법(backward elimination), 단계별선택법(stepwise selection) 등이 있으며, 단계별선택법은 다른 독립변수가 회귀식에 존재할 때 종속변수에 영향력이 있는 변수들만을 회귀식에 포함시키기 때문에 예측함수를 개발하는데 효과적이어서 많이 쓰이고 있다.

2.6 벌점화를 통한 축소추정법

전통적 변수선택법은 설명변수의 개수가 많을 경우 계산시간이 오래 걸린다는 단점이 있다. 이러한 문제를 해결하기 위한 방법으로 벌점화를 통한 축소추정법이 제안되었다. 회귀모형의 경우를 예로 들어 설명하면, 벌점화를 통한 축소추정법은 Eq. (7)을 최소화하는 회귀계수의 추정량을 찾는다.
(7)
i=1n(yiβ0j=1kβjxij)2+λj=1k|βj|q
Eq. (7)에서 첫 번째 항은 잔차제곱합으로 자료에 대한 모형의 적합된 정도를 의미하며, 두 번째 항은 큰 회귀계수 값에 벌점을 주고 있다. λ는 잔차제곱합과 벌점 간의 상대적 비중을 조정하는 조율 모수(tuning paramter)이다. 보통λ는 학습용 데이터를 10-분할 교차 검증(10-fold cross-validation)하여 얻어지는 예측오차의 평균을 최소화하는 기준으로 계산되며, 이렇게 얻어진λ하에서 Eq. (7)를 풀어 회귀계수 들을 추정한다.
Eq. (7)에서 q = 2인 경우의 회귀계수 추정치를 구하는 문제를 능형회귀(ridge regression)이라고 하는데, 설명변수 사이의 강한 상관관계로 인한 다중공선성의 문제를 극복하기 위해 Hoerl and Kennard(1970)에 의해 고안되었다. 하지만 이 방법은 모든 설명변수들이 모형에 포함되므로 변수선택 관점에서는 적절하지 않다.
반면 q = 1인 경우의 회귀계수 추정치를 구하는 방법이 Tibshirani(1996)에 의해 제안되었으며 이를 lasso (least absolute shrinkage and selection operator)라고 한다. 이후 ridge와 lasso의 절충인 elastic net이 Zou and Hastie(2005)에 의해 제안되었고, Eq. (8)과 같다.
(8)
i=1n(yiβ0j=1kβjxij)2+λj=1k(αβj2+(1α)|βj|)
Eq. (8)에서α ∊ [0, 1]의 값을 갖는다. elastic net은 상관관계가 높은 설명변수들 중에서 하나의 변수만을 흔히 선택하는 lasso의 단점을 보완하기 위하여 제안되었다. Eq. (8)에서α= 1이면 ridge, α = 0이면 lasso의 문제를 푸는 것이 된다.
전술한 lasso 또는 elastic net의 경우, 일부 설명변수에 대한 회귀계수 추정치가 정확히 0이 되어 변수선택과 동일한 효과를 가진다. 즉, 설명변수에 대한 회귀계수 추정 및 변수선택을 동시에 하는 이점이 있으며 계산시간 또한 전통적인 변수선택법보다 더 빠르다는 점 때문에 다양한 응용 분야에서도 각광을 받게 되었다.

2.7 예측력 평가

전체 데이터셋을 독립이라고 가정하고 학습용 데이터와 평가용 데이터를 나눈 다음, 학습용 데이터만을 이용하여 예측함수를 구성하였다. 이후 학습용 데이터에서 만들어진 예측함수를 평가용 데이터셋에 적용하여, 평가용 데이터셋의 실제값과 예측값을 비교하였다. 평가용 데이터에서의 예측력이 우수할수록 미래 데이터에 대한 예측력이 우수한 모형을 기대할 수 있으므로 동일한 학습용 데이터에서 여러 가지 통계적 방법으로 모형을 만든 다음, 평가용 데이터에서 가장 예측력이 우수한 모형을 최종 모형을 선정하는 것이 바람직하다고 판단하였다. 예측력 평가과정을 요약하면 다음과 같다.
① 1994~2011년 데이터셋을 학습용 데이터로, 2012~2015년 데이터셋을 평가용 데이터로 지정
② 학습용 데이터셋으로 예측함수 추정 후, 평가용 데이터셋에 적용
③ 평가용 데이터셋에서의 예측값과 실제값 비교
본 연구에서는 예측력 평가의 지표로 RMSE(root mean squared error)를 표준화한 NRMSE(normalized root mean squared error)를 사용하였다. NRMSE는 모형의 예측력을 평가할 때 주로 사용된다(Kim et al., 2012; Hwang, 2014; Cho et al., 2016). NRMSE는 분자인 RMSE를 분모인 종속변수의 범위로 표준화한 값으로 0에 가까울수록 종속변수의 범위 대비한 오차의 정도가 작음을 의미한다. 이는 평가용 데이터에서의 실제값 과 예측값 를 이용하여 Eq. (9)와 같이 계산된다.
(9)
NRMSE:1n*i=1n*(yi*y^i*)2(max(yi*)min(yi*))
Eq. (9)의 n은 평가용 데이터의 개수이며, 분모는 종속변수의 평균과 같은 다른 값으로 대체될 수 있다.

3. 호우피해액 예측함수 개발

3.1 대상 지역 선정

본 연구에서는 국민안전처(구 소방방재청)에서 발간한 재해연보를 통해 1994년부터 2015년까지의 호우피해액 자료를 권역별로 구분하여 Table 1에 나타냈다. 분석 결과 한강권역의 호우피해액이 가장 크고, 발생횟수도 가장 많은 것으로 나타났다. 따라서 Fig. 2와 같이 총 5개의 시도(서울시, 인천시, 경기도, 강원도, 충북 일부)로 이뤄진 한강권역을 대상 지역으로 선정하였다.
Table 1
Total Damage and Number of Damage
Division Total damage (1,000 won) Number of damage
Han River 5,357,378,063 1,352
Nakdong River 1,988,598,916 763
Geum River 1,358,501,156 674
Seomjin River, Yeongsan River 579,478,564 585
Fig. 2
Target Area
KOSHAM_17_03_331_fig_2.jpg

3.2 종속변수 산정

한강 권역에 해당하는 호우피해 예측함수를 개발하기 위해 종속변수로 재해연보의 1994년부터 2015년까지의 호우피해액 자료를 활용하였다. 과거의 화폐가치와 현재의 화폐가치가 다르기 때문에 22년간의 화폐가치를 환산해야 하는데, 본 연구에서는 재해연보에서 사용한 방법과 동일하게 생산자 물가지수를 이용하여 2015년 기준으로 현가화 하였다. 재해연보에는 재해발생기간별로 시군구별 호우피해액이 수집되기 때문에 호우피해액 예측함수에서 종속변수는 총 1,352건의 재해발생기간별 시군구 단위의 호우피해액으로 산정하였다.

3.3 설명변수 산정

선행 연구들을 참고하여 호우피해액 예측함수를 구성하는 설명변수로 총 강우량(Total rainfall), 선행강우량(Antecedent rainfall), 지속시간별 최대강우량(Maximum rainfall by duration), 지역 면적(Area), 재해기간(Number of date)을 고려하였다.
총 강우량, 선행강우량, 지속시간별 최대강우량과 같은 수문기상자료를 고려하기 위해 1994년부터 2015년까지의 기상청 시강우 자료를 기초 자료로 사용하였다. 기상청은 지상 부근의 대기상태를 실시간으로 관측하기 위한 기본 장비인 종관기상관측장비(Automated Synoptic Observing System, ASOS)와 무인으로 운영되는 자동기상관측장비(Automatic Weather System, AWS)를 이용하여 지상기상관측업무를 수행하고 있는데, 본 연구에서는 비교적 관측 자료의 검증 및 관리가 꾸준히 이루어지고 있는 종관기상관측장비의 시강우 자료를 활용하였다. 한강 권역에 해당되는 종관기상관측장비 관측소의 시강우자료를 Thiessen 면적법을 활용하여 행정구역 단위별 면적 강우량으로 산정하였고, 이를 이용하여 호우피해액에 영향을 미칠 것으로 판단되는 총 강우량, 선행강우량, 지속시간별 최대강우량을 산정하였다. 총 강우량은 재해기간동안의 누적된 총 강우량을 나타내고, 선행 강우량은 재해 시작 1일, 2일, …, 7일전의 누적 선행 강우량을 의미한다. 지속시간 별 최대 강우량은 재해기간 동안의 지속시간 1시간, 2시간, …, 24시간 누적 강우량의 최댓값을 나타낸다. 지역 면적은 호우피해 지역(시군구 단위)의 면적을 나타내며, 재해기간는 총 재해기간을 나타낸다. Table 2는 설명변수와 변수의 단위를 나타낸 것이다.
Table 2
Explanatory Variables
Explanatory Variables Unit Explanatory Variables Unit
Total rainfall mm Area km2
Antecedent rainfall mm Number of date day
Maximum rainfall by duration mm

3.4 통계적 방법론을 적용한 호우피해액 예측함수 개발

통계적 모형으로 선형회귀모형, 일반화선형모형, 주성분 회귀모형, 인공신경망을 이용하였고, 변수선택법으로 단계별 변수선택법, 벌점화를 통한 축소추정법을 적용하여 총 11개의 호우피해액 예측함수를 개발하였다. Table 3은 예측함수의 모형과 변수선택법을 정리한 것이다.
Table 3
Heavy Rainfall Damage Prediction Function
Number Model Variable Selection
LRM none
LRM stepwise selection
GLM (Eq. (4)) lasso
GLM (Eq. (5)) lasso
GLM (Eq. (6)) lasso
GLM (Eq. (4)) elastic net
GLM (Eq. (5)) elastic net
GLM (Eq. (6)) elastic net
PCR none
PCR stepwise selection
ANN none
Table 3에서 예측함수 ①, ②는 선형회귀모형의 결과이다. 예측함수 ①에서는 모든 설명변수(총 강우량, 선행강우량, 지속시간별 최대강우량, 지역 면적, 재해기간)를 설명변수로 고려하였다. 예측함수 ②는 예측함수 ①에서 사용된 설명변수들에 대해 단계적 선택법을 적용하여 선택된 변수들만 사용하였다.
예측함수 ③, ④, ⑤는 모든 설명변수를 사용하여 각각 Eqs. (3-5)의 일반화선형모형에 lasso를 통해 변수선택을 한 모형이다. 예측함수 ⑥, ⑦, ⑧은 모든 설명변수를 사용하여 각각 Eqs. (3-5)의 일반화선형모형에 elastic net을 통해 변수선택을 한 모형이다.
예측함수 ⑨는 선행강우량을 나타내는 설명변수들로부터 계산된 2개의 주성분과 지속시간 별 최대강우량으로부터 계산된 2개의 주성분이 각 설명변수 집합의 변동을 각각 83%, 97% 정도 설명하였다. 따라서 이렇게 계산된 총 4개의 주성분과 나머지 설명변수들을 설명변수로 사용하였다. 예측함수 ⑩은 예측함수 ⑨에서 사용한 설명변수들을 사용하여 단계적 선택법을 통해 변수선택을 진행하였다.
예측함수 ⑪은 모든 설명변수와 1개의 은닉층과 10개의 은닉노드를 사용하여 인공신경망 모형을 구축하였다.

4. 호우피해예측함수 예측력 평가 및 최종모형 개발

4.1 예측력 평가

평가용 데이터에 모형을 적합한 결과는 Table 4와 같다. NRMSE를 기준으로 여러 모형을 비교해보았을 때 Eq. (4)의 일반화선형모형에 lasso를 통한 변수선택한 예측함수 ④가 10.61%로 가장 낮은 NRMSE값을 가진 것을 볼 수 있다. 따라서 예측함수 ④를 최종모형으로 선택하였다.
Table 4
Result of Models in Validation Set
Model NRMSE Model NRMSE
10.77% 10.62%
10.86% 10.62%
10.71% 10.95%
10.61% 11.01%
10.62% 13.89%
10.71%

4.2 최종모형 개발

4.1절에서 선택된 최종모형인 예측함수 ④에 대해 모든 데이터셋을 이용하여 회귀계수를 갱신하였다. 기존에 함수식을 개발하기 위해 1994년부터 2011년까지의 데이터만을 사용하였는데, 최종모형을 선택하였기 때문에 1994년부터 2015년까지의 전체 데이터셋을 사용하여 회귀계수를 추정하였다. 갱신된 한강권역의 호우피해예측함수 최종모형은 Eq. (10)과 같다.
(10)
log(예측총호우피해액)=(2.128225)+(0.000194)면적+(0.000103)총강우량+(0.004887)재해기간(0.000350)7일선행강우량+(0.002633)6일선행강우량(0.003140)5일선행강우량+(0.001163)4일선행강우량(0.000062)3일선행강우량+(0.000102)2일선행강우량+(0.001145)1일선행강우량+(0.000017)지속01시간별최대강우량+(0.000340)지속02시간별최대강우량+(0.002175)지속03시간별최대강우량(0.002130)지속06시간별최대강우량+(0.000357)지속07시간별최대강우량+(0.000209)지속08시간별최대강우량(0.003360)지속09시간별최대강우량+(0.005065)지속11시간별최대강우량(0.000320)지속15시간별최대강우량(0.001470)지속16시간별최대강우량(0.000380)지속19시간별최대강우량+(0.001780)지속22시간별최대강우량(0.074300)1(지역=경기도)(0.197010)1(지역=서울특별시)(0.169230)1(지역=인천광역시)(0.002000)1(지역=충청북도)
Eq. (10)에서 1(지역=지역명)은 해당 지역명이면 1이고, 아니면 0의 값을 가지는 더미변수를 의미하며, 회귀계수가 표시되지 않은 일부 설명변수들은 lasso의 벌점함수에 의해 회귀계수가 0으로 추정되므로 기재하지 않았다. 총 피해액을 계산할 때는 먼저 로그 단위의 예측값을 얻어낸 다음, 다시 지수 변환하여 원래 단위의 예측값을 얻는다. 모든 데이터셋을 사용하여 갱신된 모형의 NRMSE 값은 6.31%로 실제피해액과 비교했을 때 적절하게 예측하는 것으로 평가되었다.

5. 결론

본 연구에서는 국내 재난피해의 절반 이상을 차지하고 있는 호우피해를 대상으로 다양한 통계적 방법론을 적용하여 적절한 호우피해예측함수를 개발하였다.
통계적 모형으로 선형회귀모형, 일반화선형모형, 주성분 회귀모형, 인공신경망 모형을 사용하였고, 변수 선택방법으로 단계별 변수선택법과 벌점화를 통한 축소추정법을 적용하여 총 11개의 함수식을 개발하였다.
대상지역은 호우피해가 가장 극심한 한강권역을 선택하였고, 종속변수로 매년 국민안전처에서 자연재해 발생시 피해액을 집계하여 제시하는 재해연보의 1994년부터 2015년까지의 호우피해액 자료를 사용하였다. 설명변수로는 총 강우량, 선행강우량, 지속시간별 최대강우량, 지역 면적, 재해기간을 사용하였다.
학습용 데이터(1994∼2011년)를 이용하여 예측함수를 구축하였고, 이를 평가용 데이터(2012∼2015년)에 적용하여 예측력을 평가하여 한강권역의 최적의 호우피해예측함수를 선정하였다. 주요 결과를 요약하면 다음과 같다.
  • (1) 11개 함수의 NRMSE는 10.61∼13.89%로 대부분의 함수가 호우피해를 적절하게 예측하는 것으로 나타났다.

  • (2) 예측력 평가 결과를 살펴보면 일반화선형모형에 벌점화를 통한 축소추정법을 적용한 함수에서 가장 좋은 예측력을 나타냈고, 인공신경망을 이용한 함수에서 가장 낮은 예측력을 나타냈다.

  • (3) 한강 권역에 가장 적합한 함수로 선택한 최종함수는 일반화선형모형에 벌점화를 통한 축소추정법을 적용한 함수였는데, 1994년부터 2015년까지의 전체 데이터를 이용하여 회귀계수를 갱신하면 예측력이 더욱 증가하는 것으로 나타났다.

본 연구에서는 몇 가지 한계점이 있는데 우선, 종속변수로 사용한 재해연보자료의 경우 1994년 이전의 자료는 신뢰도가 낮고, 현재의 재해연보 체계와 상이하기 때문에 1994년 이후 자료만을 사용하여 전체적인 자료의 개수가 다소 부족한 한계점이 있다. 따라서 체계화된 재해통계 자료가 축적된다면 추후 연구에서는 더 나은 결과를 제시할 수 있을 것이다.
또한 설명변수로 수문기상학적 자료, 시군구 면적, 재해기간만을 고려하였는데 이 외에 호우피해를 설명할 수 있는 다른 설명변수들을 고려하지 못한 문제가 있었다. 특히 피해지역에 복구비가 지급되거나 호우피해를 대비하기 위한 예방비가 투입된 지자체의 경우, 본 연구 결과로 제시한 함수식의 예측력이 낮아지는 한계가 있었다. 따라서 복구비나 예방비 등의 정책적인 요소들을 고려한 함수식 개발이 필요할 것으로 판단된다.
본 연구에서는 한강 권역 전체를 하나의 함수식을 통하여 구성하였는데, 시군구별로 지역적 특성이 반영된 함수식을 개발한다면 더욱 정밀하고 예측력 높은 호우피해예측함수를 개발 할 수 있을 것이다.
기존의 국내⋅외 연구사례를 살펴보면 주로 홍수피해를 예측하거나, 1가지의 통계적 방법론만을 적용하여 피해를 예측하는 함수를 개발하였다. 그러나 본 연구에서는 다양한 통계적 모형과 변수선택법을 적용하여 사전에 호우피해를 예측하는 함수를 개발하였다. 특히, 기존의 피해예측함수 개발에 적용하지 못했던 다양한 통계적 방법론들을 적용하여 재해통계기반 호우피해예측함수를 개발하였고, 개발된 함수식은 한강 권역의 피해액을 적절하게 예측하는 것으로 평가되었다. 본 연구에서 제시한 호우피해예측함수를 활용하여 호우피해 발생 전에 지자체별로 피해 범위 및 영향을 예측하고, 예방 및 대비 차원에서 효과적인 재난관리를 실시한다면 국내 호우피해 발생을 크게 줄일 수 있을 것으로 기대된다.

감사의 글

본 연구는 정부(국민안전처)의 재원으로 재난안전기술개발사업단의 지원을 받아 수행된 연구임 [MPSS-자연-2015-79].

References

Chatterjee, S, and Hadi, A.S (2012). Regression Analysis by Example. 5th Edition. Wiley.
crossref
Cho, J.P, Jung, I.W, Kim, C.G, and Kim, T.G (2016) One-month Lead Dam Inflow Forecast Using Climate Indices Based on Tele-connection. Journal of Korea Water Resources Association, Vol. 49, No. No. 5, pp. 361-372. 10.3741/JKWRA.2016.49.5.361.
crossref
Choi, S.H (2010) Natural Disaster Damage Cost Prediction Model based on Neural Network and Genetic Algorithm. Korea Information Science Society Conference, Korea Information Science Society, Vol. 37, No. No. 1C, pp. 380-384.
crossref
Chung, K.J, Chen, H, and Kim, A.S (2005) A New Model for Forecasting Inundation Damage within Watersheds - An Artificial Neural Network Approach. J. Korean Soc. Hazard Mitig, Vol. 5, No. No. 2, pp. 9-16.
crossref
Davis, S.A, and Skaggs, L.L (1992). Catalog of residential depth-damage functions used by the army corps of engineers in flood damage estimation. Army Engineer Institute For Water Resources, Alexandria Va.
crossref
Dorland, C, Tol, R.S, and Palutikof, J.P (1999) Vulnerability of the Netherlands and Northwest Europe to storm damage under climate change. Climatic Change, Vol. 43, No. No. 3, pp. 513-535. 10.1023/A:1005492126814.
crossref
Green, P.J (1984) Iteratively Reweighted Least Squares for Maximum Likelihood Estimation, and Some Robust and Resistant Alternatives. Journal of the Royal Statistical Society. Series B (Methodological), Vol. 46, No. No. 2, pp. 149-192.
crossref
Hoerl, A.E, and Kennard, R.W (1970) Ridge Regression: Biased Estimation for Nonorthogonal Problems. Technometrics, Vol. 12, No. No. 1, pp. 55-67. 10.1080/00401706.1970.10488634.
crossref
Hotelling, H (1933) Analysis of a Complex of Statistical Variables Into Principal Components. Journal of Educational Psychology, Vol. 24, No. No. 6, pp. 417-441. 10.1037/h0071325.
crossref
Hwang, S.W (2014) Assessing the Performance of CMIP5 GCMs for Various Climatic Elements and Indicators over the Southeast US. Journal of Korea Water Resources Association, Vol. 47, No. No. 11, pp. 1039-1050. 10.3741/JKWRA.2014.47.11.1039.
crossref
Jang, O.J, and Kim, Y.O (2009) Flood Risk Estimation Using Regional Regression Analysis. J. Korean Soc. Hazard Mitig, Vol. 9, No. No. 4, pp. 71-80.
crossref
Kim, J.S (2013). Long-Term Runoff Prediction Using Artificial Neural Network in the Bocheong-Cheon Master’s Thesis. Kyunghee University.
crossref
Kim, J, Lee, C.K, Shon, J, Choi, K.J, and Yoon, Y (2012) Comparison of Statistic Methods for Evaluating Crop Model Performance. Korean Journal of Agricultural and Forest Meteorology, Vol. 14, No. No. 4, pp. 269-276. 10.5532/KJAFM.2012.14.4.269.
crossref
Lee, J.S, Eo, G, Choi, C.H, Jung, J.W, and Kim, H.S (2016) Development of Rainfall-Flood Damage Estimation Function using Nonlinear Regression Equation. Journal of the Korean Society of Disaster Information, Vol. 12, No. No. 1, pp. 74-88. 10.15683/kosdi.2016.3.31.74.
crossref
Mendelsohn, R, and Saher, G (2011). The global impact of climate change on extreme events. World Bank, Washington, DC.
crossref
MOLIT (Ministry Of Land, Infrastructure and Transport) (2001). Study on Improvement Plan of Economical Efficiency of Flood Defense Business.
crossref
MPSS (Ministry of Public Safety and Security) (2016). The 2015 Annual Natural Disaster Report.
crossref
Murnane, R.J, and Elsner, J.B (2012) Maximum wind speeds and US hurricane losses. Geophysical Research Letters, Vol. 39, No. No. 16, 10.1029/2012gl052740.
crossref pmid pmc
Nelder, J.A, and Wedderburn, R.W.M (1972) Generalized Linear Models. Journal of the Royal Statistical Society, Series A (General), Vol. 135, No. No. 3, pp. 370-384. 10.2307/2344614.
crossref
Oh, J.W, Park, J.H, and Kim, Y.K (2008) Missing Hydrological Data Estimation using Neural Network and Real Time Data Reconciliation. Journal of Korea Water Resources Association, Vol. 41, No. No. 10, pp. 1059-1065. 10.3741/JKWRA.2008.41.10.1059.
crossref
Tibshirani, R (1996) Regression Shrinkage and Selection Via the Lasso. Journal of the Royal Statistical Society, Series B (Methodological), Vol. 58, No. No. 1, pp. 267-288.
crossref
Toya, H, and Skidmore, M (2007) Economic Development and the Impacts of Natural Disasters. Economics Letters, Vol. 94, No. No. 1, pp. 20-25. 10.1016/j.econlet.2006.06.020.
crossref
World Bank and United Nations (2010) Natural Hazards, Unnatural Disasters: The Economics of Effective Prevention.
crossref
Yeo, K.D (2003). A study on estimation method of expected flood damage considering local characteristics Master’s Thesis. Inha University.
crossref
Zhai, A.R, and Jiang, J.H (2014) Dependence of US Hurricane Economic Loss on Maximum Wind Speed and Storm Size. Environmental Research Letters, Vol. 9, No. No. 6, pp. 1-9. 10.1088/1748-9326/9/6/064019.
crossref
Zou, H, and Hastie, T (2005) Regularization and Variable Selection Via the Elastic Net. Journal of the Royal Statistical Society, Series B (Methodological), Vol. 67, No. No. 2, pp. 301-320. 10.1111/j.1467-9868.2005.00503.x.
crossref


ABOUT
ARTICLE CATEGORY

Browse all articles >

BROWSE ARTICLES
AUTHOR INFORMATION
Editorial Office
1010 New Bldg., The Korea Science Technology Center, 22 Teheran-ro 7-gil(635-4 Yeoksam-dong), Gangnam-gu, Seoul 06130, Korea
Tel: +82-2-567-6311    Fax: +82-2-567-6313    E-mail: master@kosham.or.kr                

Copyright © 2024 by The Korean Society of Hazard Mitigation.

Developed in M2PI

Close layer
prev next