주성분 분석 기반 회귀모형을 활용한 북한 홍수 및 태풍 피해 추정 연구
Flood and Typhoon Damage Estimation in North Korea Using a Principal Component Analysis-Based Regression Model
Article information
Abstract
본 연구에서는 북한 지역의 홍수 및 태풍 피해를 정량적으로 추정하기 위한 통계 모형을 개발하고 예측 성능을 평가하였다. 북한은 재해로 인한 피해가 반복적으로 발생하고 있음에도 불구하고, 체계적인 피해 추정 체계가 부재한 상황이다. 이에 따라 1993년부터 2018년까지의 피해 통계와 27개 기상관측소의 강수량 및 풍속 자료를 활용하여, 북한 전역을 단일 분석 단위로 하는 피해 추정 모형을 구축하였다. 주성분 회귀 모형은 홍수 피해 추정에서 평균 NRMSE 0.1901, R-squared 42%, 태풍 피해 추정에서 평균 NRMSE 0.3077, R-squared 85%로 일반화 선형모형보다 전반적으로 우수한 성능을 보였다. 본 연구는 제한된 자료 환경에서도 재해 피해를 정량적으로 추정할 수 있는 방법론을 제시하였으며, 향후 재난 대응 체계가 미비한 국가들에도 적용 가능한 사례로 확장될 수 있을 것이다.
Trans Abstract
A statistical model was developed in this study for a quantitative estimation of the damage caused by floods and typhoons in North Korea, and its predictive performance was evaluated. Despite North Korea experiencing recurring damages due to natural disasters such as floods and typhoons, a systematic damage estimation framework is lacking. Therefore, a damage estimation model was developed by treating the entire territory of North Korea as a single analysis unit, and using damage statistics from 1993 to 2018 along with data on precipitation and wind speed from 27 meteorological stations. The principal component regression model showed overall superior performance compared to a generalized linear model, achieving (a) an average NRMSE of 0.1901 and R-squared of 42% for flood damage estimation, and (b) an average NRMSE of 0.3077 and R-squared of 85% for typhoon damage estimation. This quantitative methodology proposed for estimating disaster damage in data-scarce environments can serve as a model and be applied to other countries facing similar disasters and lacking systematic damage estimation frameworks.
1. 서 론
전 세계적으로 진행되고 있는 지구온난화로 인하여 기후변화가 급격히 진행되고 있다. 이로 인하여 자연재난의 발생 빈도 및 강도가 점차 증가하고 있으며, 재산피해 및 인명피해의 피해 규모 또한 점점 대형화되고 있다. 이러한 실정은 북한도 예외는 아니다. CRED (Centre for Research on the Epidemiology of Disasters)에서 제공하는 EM-DAT (Emergency Events Database)자료에 따르면 북한에서의 자연재난은 홍수와 태풍으로 인한 피해가 전체 피해 중 약 80% 이상을 차지하고 있으며, 북한은 2018년 발생한 태풍 솔릭으로 인하여 2,669 km2이 침수되었고 2019년 발생한 태풍 링링으로 인하여 1,709 km2가 침수되었다. 또한, EPoA (Emergency plan of Action)에 따르면 태풍 솔릭으로 인하여 76명이 사망하고 75명이 실종되었으며, 3,200 가구가 침수되거나 파손되었다. 이처럼 북한에서는 태풍 및 집중호우로 인하여 주거지, 농경지, 산업시설 침수 및 인명사고가 발생하는 심각한 피해를 입고 있는 상태이다.
많은 연구자들은 대규모 자연재난으로 인한 북한의 피해를 파악하기 위해 다양한 측면에서 연구를 진행하고 있으며, 북한의 자연재난 중 가장 큰 비율을 차지하고 있는 홍수 및 태풍 피해에 대한 물리적인 모형과 같은 정량적인 분석을 통해 홍수 피해를 파악하기 위한 연구가 주를 이루고 있다(Park and Hur, 2009; Kim et al., 2011; Kim et al., 2015). 정량적 분석을 통하여 북한의 홍수량 및 침수면적을 추정한 연구로서는 대표적으로 Park and Lee (2018)는 LAHARZ_pz를 사용하여 황강댐 유출량에 따른 홍수 침수면적을 산정하여 홍수범람도를 작성하였다. Jeung et al. (2019)은 북한의 16개 유역의 기상학적, 지형적 특성을 기반으로 한 지역화 모형인 Monthly Runoff Assessment Tools (M-RAT)를 구축 하였으며, 미래의 기후변화가 북한 유역의 수문순환에 미치는 영향을 예측하였다. 하지만 이러한 물리적인 모델을 통한 홍수피해를 파악한 연구사례들은 주로 국소적인 지역에만 국한되기 때문에 북한 전반적인 피해를 파악하기에는 무리가 있다. 또한 북한의 지역별 자산 가치를 파악하기 어렵기 때문에 피해 금액을 추정하는 것은 불가능하며, 상당한 분석 시간이 소요된다는 단점이 있다.
물리 기반 모형을 대체하여 머신러닝 및 딥러닝 기법을 활용한 재해 피해 예측 연구가 활발히 수행되고 있다(Choi, Kim, Kim, Lee et al., 2018; Jung et al., 2021; Kim et al., 2022). Kim, Lee et al. (2019)은 랜덤 포레스트, 인공신경망 등 다양한 머신러닝 모형을 활용하여 경기도, 서울, 인천 지역을 대상으로 호우 피해 발생 여부를 분류하는 예측 모형을 개발하였다. 총 15만 개의 데이터를 기반으로 구축된 해당 모형에서, 랜덤 포레스트는 평균 F1-Score가 27.7%로 가장 우수한 일반화 성능을 나타냈다. Lee et al. (2023)은 632개의 사례 데이터를 활용하여 경기도 지역의 피해 규모에 따른 호우 피해 예측 AI 모형을 개발하였으며, F1-Score는 0.46으로 기존 연구에 비해 향상된 예측 성능을 보였다고 보고하였다. 이와 같이 풍부한 데이터를 기반으로 할 경우 머신러닝 및 딥러닝 기반 예측 모형은 효과적으로 학습이 가능하지만, 데이터가 제한적인 환경에서는 과적합 문제가 발생할 수 있으며, 학습된 패턴이 일반화되지 않아 새로운 데이터에 대한 예측력이 저하되는 한계가 존재한다. 이러한 한계로 인해, 데이터가 충분하지 않은 상황에서는 다중 회귀모형이나 일반화 선형모형과 같은 전통적인 통계 기반 회귀모형을 활용한 연구가 수행되어 왔다(Lee et al., 2016; Choi, Kim, Lee et al., 2017; Kim et al., 2018; Lee et al., 2019). Choi, Kim, Kim et al. (2017)은 일반화 선형모형, 주성분 회귀모형, 인공신경망 등 다양한 통계 모형을 비교하여 한강 권역 내 총 1,352개의 호우 피해 데이터를 대상으로 피해 예측 함수를 개발하였다. 이 중 일반화 선형모형이 NRMSE (Normalized Root Mean Squared Error) 기준 10.61%로 가장 낮은 오차를 기록하며 가장 우수한 성능을 보였고, 인공신경망은 상대적으로 낮은 예측력을 나타냈다. 또한 Kim, Choi et al. (2019)은 국내 태풍 피해 사례 193건을 기반으로 로지스틱 회귀분석을 통해 피해 금액 규모에 따라 피해 집단을 분류하고, 주성분 회귀분석을 통해 태풍 피해 예측 함수를 구축하였다. 평가 결과, 피해액이 큰 집단의 경우 NRMSE는 12.2%였으며, 피해액이 작은 집단의 경우에는 18.5%로 상대적으로 예측 정확도가 낮게 나타났다.
반면 정량적인 분석의 문제점으로 인해 정성적인 방법으로 재난에 대한 위험을 평가한 연구들도 있다. 정성적인 방법으로는 재해에 대한 취약성 및 위험성을 평가하는 경제협력개발기구(Organization for Economic Co-operation and Development, OECD)에서 개발한 Pressure-State-Response (P-S-R) 방법이 있으며, Intergovernmental Panel on Climate Change (IPCC)의 기후변화 취약성 개념(Exposure, Sensitivity, Adaptive capacity)을 이용한 연구가 국내⋅외에서 많이 활용되고 있다(Jonkman et al., 2008; Lee et al., 2011; Wang et al., 2011). 이러한 취약성 평가 방법을 북한에 적용한 연구사례를 살펴보면, Kwak et al. (2015)은 임진강 유역을 대상으로 홍수에 대한 위험성, 노출성, 취약성 인자들의 특성을 파악하고, 표준화된 지표를 이용하여 홍수 위험도를 평가하였다. Myeong and Hong (2009)은 홍수를 유발할 수 있는 사회, 기상, 토지 이용 등 다양한 요인을 바탕으로 북한의 홍수 위험 취약성지도를 개발하였다. Jeung et al. (2018)은 RCP 기후변화 시나리오를 이용하여 북한에서의 기후변화 변동성 및 이로 인한 재해가 발생하였을 때의 재해 취약성 평가를 실시하였다. 취약성 평가와 같은 정성적인 평가는 현재 상태를 통한 상대적인 위험성은 파악이 가능하지만 재난발생 시 피해규모를 추정하는 것은 불가능하다.
따라서, 본 연구에서는 북한 전역의 피해 규모를 추정하기 위해 통계적인 방법론을 기반으로 홍수 및 태풍피해 추정 모형을 개발하고자 하였다. 통계적인 방법론을 기반으로 자연재해를 예측한 국내⋅외 연구사례를 살펴보면 선형회귀 모형, 신경망 모형, 머신러닝 모형 등의 다양한 모형을 적용하여 홍수로 인한 경제적인 피해를 예측할 수 있는 모형을 제시하였다(Sohn et al., 2005; Wagenaar et al., 2017; Choi, Kim, Kim, Kim et al., 2018; Win et al., 2018; Goel, 2020). 하지만 통계기반 모형 기반의 홍수피해 추정에 대한 연구사례를 살펴본 결과 북한에 대하여 적용한 사례는 전무한 실정이었다. 따라서 본 연구에서는 CRED에서 제공하는 북한 홍수 및 태풍피해 자료와 북한 기상자료를 활용하여 주성분 회귀 모형과 주성분 일반화 선형모형을 적용하였다. 이를 통해 홍수 및 태풍피해 추정 모형을 제안하였으며, 홍수와 태풍에 대한 총 피해금액, 침수면적, 인명피해, 이재민 피해를 추정하였다.
2. 피해산정을 위한 방법론
2.1 주성분 분석
주성분 분석(principal component analysis, PCA)은 다변량 자료의 공분산 행렬 또는 상관관계 행렬을 이용하여 원래 변수들의 선형 결합으로 표현되는 새로운 주성분(principal component)을 찾고 이 중 소수의 주성분으로 변량 전체의 움직임을 설명하고자 하는 차원축소의 방법이다. Pearson에 의해 기하학적 접근방식으로 처음 개발되었고 Hotelling이 현재 사용되고 있는 주성분 분석 이론을 정립한 이후 다양한 분야에서 활용되어 오고 있다(Kim and Rhee, 2016). 독립변수들의 집합X=(X1,X2,Xm)에 대한 공분산행렬을Σ이라고 할 때 Σ의 대각원소는 각 독립변수의 분산(σ12,σ22,σm2)이 된다. 여기서Σ에 스칼라λ을 곱한 단위행렬 I를 빼고 그 행렬식이 0이 되도록 한다. 이때 내림차순된λ1,λ2,λm는 고유 값을 의미한다. 고유벡터는 각 고유 값에 대응되는 해가 곧 e1, e2, em이라 한다. 고유벡터의 집합 E=[e1, e2, em]을이라 할 때 주성분 Y=EX로 이루어진다. 이렇게 도출되는 새로운 m개의 변수를 주성분이라 지칭하며, 주성분들은 각각 독립적이다(Wold et al., 1987). 주성분의 개수 m은 일반적으로 고유값이 1 이상인 주성분을 선택하거나, 누적 설명 분산이 90% 이상이 될 때까지의 주성분을 선택하는 방식으로 결정된다. Fig. 1(a)는 주성분에 따른 누적 설명 분산을 나타내며, 이를 통해 세 번째 주성분까지 포함할 경우 전체 분산의 90% 이상을 설명함을 확인할 수 있다. Fig. 1(b)는 각 주성분의 고유 값을 제시하고 있으며, 세 번째 주성분까지의 고유 값이 모두 1 이상임을 보여준다. 이를 통해, 세 번째 주성분은 두 기준을 모두 만족하므로 최종적으로 선택된다.
2.2 다중회귀 분석
다중회귀분석(Multiple Linear Regression Analysis)은 하나의 종속변수(dependent variable)와 두 개 이상의 독립변수(independent variables) 간의 관계를 분석함으로써, 종속변수의 변동을 보다 정밀하게 설명하고자 할 때 사용되는 통계 기법이다. 이는 단일 독립변수를 활용하는 단순회귀분석에 비해 더 많은 정보를 반영할 수 있기 때문에, 현실 세계의 복잡한 현상을 보다 효과적으로 모델링할 수 있다는 장점을 가진다. 특히 다양한 독립변수들이 종속변수에 미치는 영향을 동시에 고려함으로써, 모형의 설명력을 높이고 예측 정확도를 향상시킬 수 있다(Jung and Kim, 2014). 독립변수의 수가 k개인 경우, 다중회귀모형은 Eq. (1)과 같은 형태의 회귀식으로 표현된다. 이 회귀식은 각 독립변수가 종속변수에 미치는 영향을 계수 형태로 반영하며, 오차항을 통해 예측되지 않은 요인의 영향을 설명한다.
여기서, β0, β1, βi는 모집단의 회귀계수(standardized beta coefficient)이고, εi는 종속변수 Yi를 측정할 때 발생하는 오차이다.
2.3 일반화 선형 회귀 모형
정규이론에 기반한 선형모형은 설명변수 x,...,xp를 사용하여 연속형 반응변수 Y를 설명하기 위한 것으로 표현된다. 그러나 일반화 선형 회귀 모형(generalized linear model, GLM)은 반응변수가 반드시 정규분포를 따를 필요 없이 지수족(exponential family)에 속하는 다양한 분포를 따를 수 있도록 확장된 모형이다. 이 모형은 Nelder and Wedderburn (1972)에 의해 처음 제안되었으며, 지수족 분포와 연결함수(link function)를 도입함으로써 선형모형을 일반화하였다. GLM은 다음의 두 가지 과정을 통해 정규이론 기반의 선형모형을 일반화한다. 첫째, 오차항은 정규분포뿐 아니라 이항분포, 푸아송분포 등 지수족에 포함되는 다양한 분포로 정의될 수 있다. 둘째, 반응변수의 기대값과 설명변수의 선형결합(linear predictor)을 연결함수(link function)를 통해 연결한다. 일반화 선형 회귀모형은 다음 Eq. (2)와 같이 표현된다.
여기서, ui=E(Yi)는 반응변수 Y의 기댓값이며, β0,β1,...,βp는 각 설명변수에 대응하는 회귀계수, ηi는 선형 예측자(linear predictro)를 의미한다.
2.4 K-Fold 교차검증(K-Fold Cross Validation)
K-Fold 교차검증은 전체 데이터 집합을 동일한 크기의 k개의 부분집합으로 임의 분할한 후, 이 중 하나를 검증 데이터로 사용하고, 나머지 k-1개를 훈련 데이터로 사용하는 과정을 k회 반복하는 방법이다. 이 과정을 통해 전체 데이터가 순차적으로 검증 데이터로 활용되므로, 데이터 집합 전체에 대한 보다 신뢰성 있는 성능 평가가 가능하다. 또한, K-Fold 교차검증의 주요 장점은 모든 관측치가 훈련과 검증에 모두 사용되며, 각 관측치는 검증에 단 한번만 포함됨으로써 과적합을 방지할 수 있다는 점이다(Kim, 2013). 특히 데이터의 수가 제한적인 경우, 전체 자료를 효율적으로 활용할 수 있다는 점에서 유용하다. Fig. 2는 K-Fold 교차검증의 개념을 시각적으로 나타낸 것이다. 본 연구에서는 피해 자료의 수가 충분하지 않다는 점을 고려하여, 과적합을 방지하고 모든 자료를 학습과 평가에 효과적으로 활용하기 위해 K-Fold 교차검증을 채택하였다.
2.5 평가 지표
결정계수(R2)는 두 변수 간 선형관계에서 독립변수가 종속변수를 얼마나 설명하는지를 나타내는 지표이며, 1에 가까울수록 모형의 성능이 우수함을 나타낸다. 결정계수는 다음 Eq. (3)과 같이 나타낼 수 있다.
또한, 평균제곱근오차(Root Mean Square Error, RMSE)와 평균제곱근오차를 표준화한 NRMSE를 각각 Eqs. (4), (5)로 표현된다. 여기서 2가지의 평가방법 모두 0에 가까울수록 계산된 값이 참값과 유사하다는 것을 의미한다(Kim et al., 2017).
여기서 yi는 i번째 관측데이터를 의미하며
3. 홍수와 태풍 피해 및 수문기상 자료 수집
3.1 연구 대상지역
북한은 Fig. 3의 적색으로 나타낸 한반도의 북부에 위치하며, 국토 면적은 약 122,762 km2으로 한반도 전체 면적의 약 55%를 차지한다. 북쪽으로는 중국 및 러시아와 남쪽으로는 대한민국과 국경을 접하고 있으며 지리적으로는 동북아시아의 중심에 위치한다(Fig. 3). 북한은 지형적으로 산악이 지배적인 지역으로, 전체 면적의 약 80% 이상이 산지로 구성되어 있다. 주요 산맥으로는 낭림산맥, 마천령산맥, 태백산맥 등이 있으며, 이들 산지는 깊고 좁은 계곡과 복잡한 고도차를 형성하고 있다. 이러한 지형적 특성은 지역 간 접근성을 제한할 뿐만 아니라, 강수가 집중될 경우 급격한 수위 상승으로 인하여 홍수 피해가 크게 발생할 수 있다. 기후적으로 북한은 온대 계절풍 기후에 속하며, 사계절이 뚜렷하고 계절 간 기온과 강수량의 변화가 크다. 연평균 기온은 약 8.6 ℃이며, 남부 지역은 비교적 온난한 반면, 북부 및 고산지대는 한랭한 기후 특성을 보인다. 연 강수량은 평균적으로 약 900~1,300 mm이며, 대부분이 6월에서 9월 사이의 여름철에 집중된다. 이 시기는 장마와 태풍의 영향을 동시에 받는 시기로, 집중호우로 인한 하천 범람 및 침수 피해의 위험성이 높다. 북한은 정보 접근성이 낮고 공식 통계가 제한적으로 제공되기 때문에, 수집된 피해 자료는 공간적 위치 정보의 부재와 일부 항목의 누락 등 여러 한계를 내포하고 있다. 이러한 자료적 제약으로 인해 행정구역 단위의 구체적인 피해금액을 신뢰성 있게 산정하는 데에는 한계가 존재한다. 따라서 본 연구에서는 특정 지역 단위의 피해를 추정하기보다는, 북한 전역에서 발생한 홍수 및 태풍과 관련된 모든 기상관측소 자료를 활용하여, 국가 전체 차원에서 발생 가능한 홍수 및 태풍 피해액을 추정하는 것을 연구의 주요 목표로 설정하였다.
3.2 북한 홍수 및 태풍 피해 자료 수집
북한의 홍수 및 태풍 피해 자료는 CRED를 통해 수집하였다. CRED는 1988년부터 전 세계 재난 정보를 체계적으로 집계한 EM-DAT를 운영하고 있으며, 해당 데이터베이스는 세계보건기구(World Health Organization, WHO)와 벨기에 정부의 초기 지원을 바탕으로 구축되었다. 또한 EM-DAT는 재난 대비를 위한 의사결정 및 취약성 평가 등에 활용을 목적으로 전 세계 22,000건 이상의 대규모 재해 발생 자료가 포함된다. 해당 자료들은 국제연합 기관(Uinited Nations, UN), 비정부 기관, 보험회사, 연구기관 및 언론기관 등의 다양한 출처로부터 수집되고 있다. EM-DAT에서 관리되고 있는 재해 통계 자료는 재해 유형, 재해 발생 날짜, 종료 날짜, 침수 면적, 인명 피해, 이재민 피해, 긴급 구조 지원 여부, 공간적 위치, 총 피해 금액 등의 정보가 포함된다.
따라서 본 연구에서는 CRED에서 구축한 EM-DAT를 활용하여, 북한의 홍수 및 태풍 피해 자료를 1993년부터 2018년까지 수집하였다. 앞에서 언급한 바와 같이 EM-DAT는 전 세계 재난 정보를 체계적으로 집계하고 있으나 북한의 경우 정보 접근성이 낮고 공식 통계가 제한적이기 때문에 해당 자료는 공간적 위치 정보의 부재 및 일부 항목의 누락 등 여러 한계를 포함하고 있다. 이에 따라 본 연구에서는 피해를 지역 단위가 아닌 북한 전체 피해로 간주하였으며, 누락된 자료에 대해서는 다른 피해 지표 간의 상관관계를 활용하여 보정하였다. 전처리가 완료된 피해 자료에서는 총 피해금액(TY), 침수 면적(Y2), 인명 피해(Y3), 이재민 피해(Y4)를 종속 변수로 활용하였다. 특히, 피해 자료는 이벤트마다 변동성이 매우 크기 때문에, 이를 완화하고 모델 학습의 안정성을 높이기 위해 로그 변환을 적용하였다. Fig. 4는 북한의 홍수 및 태풍에 따른 연도별 피해금액과 침수 면적을 나타내며, Fig. 5는 연도별 사망자 수 및 이재민 수의 변화를 보여준다.
3.3 북한 수문기상 자료 수집
북한은 세계기상기구(World Meteorological Organization, WMO)의 기상통신망을 통해 총 27개 지점에서 기온, 습도, 기압, 강수, 구름, 바람 등을 포함한 15개 항목에 대한 관측 자료를 송신하고 있으며, 해당 자료는 한국 기상청을 통해 제공된다. 본 연구에서는 이 가운데 홍수 및 태풍과 관련이 있는 강수 및 풍속 자료를 선별하여, 1993년부터 2018년까지의 관측값을 수집하고 분석에 활용하였다.
강우 자료는 재해 발생 기간 동안의 27개 지점 각각의 총 강우량을 활용하였고, 풍속 자료는 27개 지점각각의 일 평균 풍속 관측값으로부터 최대 순간 풍속을 선정하여 사용하였다. Fig. 6은 27개 지점에 대한 총 연강수량의 평균값을 시각화한 것이며, Fig. 7은 연도별 최대 풍속을 시각화한 것이다. 북한에는 총 27개소의 기상 관측 지점이 존재하므로, 각 지점별 재해 발생 기간 동안의 총 강우량과 최대 순간 풍속을 독립변수로 활용하였다. 추가적으로, 태풍의 경우 통상적으로 최대 중심기압과 중심부의 순간 최대 풍속이 태풍의 강도를 설명하는 핵심 지표로 사용되므로, 해당 기상 변수들도 태풍 피해 추정 모형 개발을 위한 독립변수로 함께 고려하였다.
4. 북한 홍수 및 태풍피해 추정모형 개발
4.1 홍수 및 태풍 피해 추정 모형 구축
본 연구에서 제안하는 북한의 홍수 및 태풍 피해 추정 모형은 Fig. 8과 같이 세 단계로 구성된다. 첫째, 피해 자료와 기상 자료를 수집하고, 결측값 보정 및 변수 정의 등의 전처리를 수행하는 데이터 수집 및 전처리 단계이다. 둘째, 다수의 독립변수 간 상관성 문제를 완화하고 모형의 차원을 축소하기 위한 주성분 분석 단계이다. 셋째, 과적합을 방지하고 모형의 예측 성능을 정량적으로 평가하기 위한 훈련 제어(Training control setting) 및 성능 평가 단계로, 이 단계에서는 교차검증과 매개변수 최적화를 수행하여 최적의 모형을 도출한다.
데이터 수집 및 처리 단계에서는 피해 자료와 기상 관측 자료를 수집하고, 결측값 보정 등의 전처리 과정을 거쳐 종속변수와 독립변수를 정의하였다. 피해 자료는 재해 유형에 따라 홍수 자료와 태풍 자료로 구분하였으며, 각각의 재해 발생 기간의 총 피해액(TY), 침수 면적(Y1), 사망자(Y2), 이재민(Y3)를 종속변수로 설정하였다. 즉, 홍수 및 태풍 피해 추정 모형은 각각 4가지 피해를 종속변수로 하는 4개의 모형을 도출하도록 정의하였다. 홍수 피해 추정 모형의 독립변수는 북한 전역의 27개 기상 관측소에서 수집된 강우량과 풍속 자료를 활용하였다. 태풍 피해 추정 모형의 경우, 동일한 27개 지점의 강우 및 풍속 자료 외에도, 태풍의 최대 중심기압(CP)과 중심부 최대 풍속(CW)을 추가적인 독립변수로 포함하였다. 즉, 홍수 피해 예측 모형의 독립변수는 강우데이터와 풍속 데이터로 27개 관측소에서 각각의 재해 발생 기간의 총 강우량과 최대풍속을 이용하였으며, 태풍 피해 예측 모형의 독립변수는 재해 발생 기간의 강우데이터, 풍속데이터, 태풍의 최대 중심기압, 중심부 최대 풍속이다. 따라서 본 연구에서는 홍수와 태풍 각각에 대해 4개의 종속변수를 활용한 총 8개의 피해 추정 모형을 정의하였으며, 이에 대한 요약은 Table 1에 제시하였다.
4.2 홍수 및 태풍 피해 예측 모형 개발을 위한 주성분 분석 결과
본 연구에서 고려한 독립변수는 북한 내 27개 기상관측 지점에서 수집된 강우량과 풍속 자료로, 총 54개의 변수(각 지점별 2개 변수)가 포함된다. 이와 같이 변수의 수가 많은 경우, 다중공선성문제가 발생할 가능성이 높기 때문에, 본 연구에서는 변수 간 상관성을 줄이고 모형의 안정성을 확보하기 위해 주성분 분석을 수행하였다. 주성분 분석 결과, 전체 변수의 정보를 대표할 수 있는 주성분을 선택하기 위해 누적 설명 분산이 90% 이상이 되는 범위까지의 주성분을 추출하였다. 누적 분산이 90% 이상이라는 것은, 선택된 주성분들이 원래 독립변수 집합의 총 정보량 중 90% 이상을 보존하고 있음을 의미한다. Fig. 9에는 본 연구에서 수행한 주성분 분석 결과를 제시하였다. 그래프 상에서는 고유값이 1 이상인 주성분과 누적 설명 분산이 90% 이상에 해당하는 구간을 붉은 점선으로 시각화하였다. 분석 결과, 주성분이 10개일 때 두 기준을 모두 만족하는 것으로 나타났으며, 이에 따라 본 연구에서는 상위 10개의 주성분을 최종 독립변수로 활용하여 모형 학습을 수행하였다.
4.3 홍수 및 태풍 피해 예측 모형 평가
훈련 제어 단계에서는 과적합을 방지하기 위해 교차검증을 적용하였으며, 효과적인 모형 학습을 위해 매개변수 최적화 과정을 함께 고려하였다. 일반적으로 교차검증을 적용하는 이유는 학습용 데이터와 검증용 데이터가 고정되어 있을 경우 특정 검증용 데이터에 과도하게 적합하는 과적합 문제를 완화하기 위함이다. 그러나 본 연구에서는 이러한 목적 외에도, 데이터의 양이 충분하지 않다는 점을 고려하여 자료의 모든 부분을 최대한 활용하여 모형의 학습과 평가를 수행하기 위해 교차검증을 채택하였다. 전체 자료를 10개의 Fold로 구분하여 10회에 걸쳐 학습 및 평가를 수행하였으며, 각 Fold에 포함되는 자료는 매 반복마다 랜덤하게 선정되도록 설정하였다. 모형의 매개변수 최적화 과정에서는 각 모형별 매개변수의 후보군을 무작위로 생성한 후 최적 조합을 탐색하는 방식으로 진행하였다. 본 연구에서 고려한 모형은 주성분 회귀모형(Linear model with principal component analysis, LM with PCA)과 일반화 선형모형(Generalized linear model with principal component analysis, GLM with PCA)이며, LM with PCA은 별도의 매개변수를 필요로 하지 않는다. 반면, GLM with PCA은 2개의 주요 매개변수를 최적화할 필요가 있어, 본 최적화 과정은 GLM with PCA을 대상으로 수행되었다. 홍수 및 태풍 피해 추정 모형에 대한 GLM with PCA의 매개변수 최적화 결과는 각각 Figs. 10과 11에 제시하였다.
재해 유형별 및 종속변수별로 LM with PCA와 GLM with PCA 모형의 예측 성능을 비교하였다. 학습 과정에서는 자료의 변동성을 완화하기 위해 로그 변환을 적용하였으며, 평가 시에는 원 단위의 해석을 가능하게 하기 위해 역변환을 수행한 후 평가를 진행하였다. 각 모형은 최적의 파라미터 조합을 기반으로 구성되었으며, K-Fold 교차검증을 통해 예측값을 도출한 후 성능을 평가하였다. 평가 지표로는 예측값과 관측값 간의 오차를 정량적으로 평가하기 위해 NRMSE를 활용하였고, 예측값과 관측값 간의 추세 유사성을 평가하기 위해 R-squared를 사용하였다.
Tables 2와 3의 결과에 따르면, 전반적으로 LM with PCA 모형이 GLM with PCA 모형보다 우수한 예측 성능을 보였다. 특히 홍수 피해 추정에서는 LM with PCA의 NRMSE가 낮고 R-squared가 높게 나타나, 보다 안정적이고 설명력 있는 예측이 가능함을 보여준다. 홍수로 인한 총 피해액(TY)에 대한 R-squared 값은 98.45%, NRMSE는 0.1674로, LM with PCA가 실제 피해액과 유사한 경향성을 가지고 있음을 나타내지만 같은 항목에서 GLM with PCA의 R-squared는 18.49%, NRMSE는 0.2017에 불과하여 예측 성능이 크게 떨어진다. 이와 같은 경향은 침수 면적(Y1), 사망자 수(Y2), 이재민 수(Y3)에서도 유사하게 나타나며, 특히 GLM with PCA의 경우 일부 종속변수에서 대해 검증 R-squared 값이 0으로 나타났다. 10-Fold 교차검증을 사용하여 모델 학습과 평가를 반복했으므로, 평가 절차 자체는 신뢰성을 가지고 있다고 볼 수 있다. R-squared 값이 0이라는 것은 모형이 목표 변수의 분산을 전혀 설명하지 못함을 의미한다. 즉, 모형이 입력과 출력간의 비선형적 관계를 학습하지 못하고, 모든 예측 값을 평균값으로만 예측하였기 때문에 R-squared 값이 0으로 평가되는 결과가 나타나는 것으로 판단된다. 태풍 피해 추정에서도 유사한 경향이 나타난다. LM with PCA는 이재민 수(Y3)에 대해 R-squared는 96.77%, NRMSE는 0.0997을 보이며, 우수한 성능을 나타내고 있다. 반면에, GLM with PCA는 Y3에 대해 R-squared는 44.96%, NRMSE는 0.2985을 보이고 있으며, TY, Y1, Y2 항목에서는 R-squared 값이 모두 0에 수렴해 유효한 추정을 수행하지 못하고 있음을 보여준다. 이러한 결과는, GLM 기반 모형은 변수 간의 관계가 복잡하고 비선형적일 때 안정적인 예측 성능을 확보하기 어렵다는 한계를 지닌다는 점을 시사한다. 따라서 본 연구에서는 비교적 안정적인 학습 및 일반화 능력을 확보함으로써 예측 성능 측면에서 우수한 결과를 나타낸 LM with PCA 모형을 홍수 및 태풍을 추정하기 위한 최적의 모형으로 선정하였다.
추가적으로, 본 연구에서 개발한 LM with PCA 모형의 적용성을 평가하기 위하여 모형 개발에 사용되지 않은 피해 데이터를 이용하여 실제 피해 사례에 적용하여 비교 분석하였다. 북한에서는 최근 2020년 8월에 홍수 피해가 발생하였으며 22명의 사망자와 85,000명의 이재민이 발생하였다. 이를 LM with PCA 모형을 이용하여 추정한 결과 예측되는 사망자는 31명이며, 이재민 수는 108,747명으로 유사하게 추정하였음을 확인할 수 있다. 또한, 본 연구에서 제안한 LM with PCA 모형과 선행연구에서 개발된 한강 권역의 피해 예측 모형 성능을 비교한 결과, 홍수 피해 예측에서는 본 연구의 NRMSE가 0.1674, 한강 권역의 모형은 0.1061로 나타나 선행연구의 성능이 다소 우수하였다. 그러나 데이터 수의 차이를 고려하였을 때, 예측 정확도의 차이는 상대적으로 크지 않음을 확인할 수 있다. 반면, 태풍 피해 예측에서는 선행연구의 NRMSE가 0.1220으로, 본 연구 결과에 비해 높은 성능을 보였다. 이러한 점에서 태풍 피해액 예측에는 일정한 한계가 존재하였으나, 본 연구는 피해액뿐 아니라 침수 면적, 사망자 수, 이재민 수에 대한 예측까지 포함하여 다양한 피해 지표를 비교적 높은 정확도로 추정하였다는 점에서 의의가 있다.
5. 결 론
본 연구에서는 북한 지역에서 발생한 홍수 및 태풍 피해에 대한 정량적 추정을 목적으로, 기상 관측 자료와 피해 통계 자료를 활용한 피해 추정 모형을 개발하였다. 북한은 정보 접근성이 제한되고 공식 통계의 정합성이 낮은 특수한 환경으로 인해, 지역별 정밀한 피해 추정이 어렵다는 한계를 지닌다. 이에 따라 본 연구는 북한 전역을 단일 분석 단위로 간주하고, 1993년부터 2018년까지 수집된 피해 자료 및 27개 기상관측소의 기상 요소(강수량 및 풍속)를 기반으로 피해 추정 모형을 구축하였다. 모형 개발 과정에서는 입력 변수 간 다중공선성을 해소하고 예측의 안정성을 확보하기 위해 주성분 분석(PCA)을 수행하였으며, 누적 설명 분산이 90% 이상인 10개의 주성분을 독립변수로 활용하였다. LM with PCA 모형의 홍수 피해 관련 종속변수에 대한 평균 NRMSE는 0.1901, R-squared는 42%로 나타났으며, GLM with PCA 모형은 평균 NRMSE가 0.2129, R-squared는 16%로 평가되어 전반적으로 LM with PCA가 더 우수한 예측 성능을 보였다. 마찬가지로 태풍 피해에 대해서도 LM with PCA의 평균 NRMSE는 0.3077, R-squared는 85%로 나타났으며, GLM with PCA의 평균 NRMSE는 0.3132, R-squared는 11.24%로 확인되어, 이 역시 LM with PCA가 보다 안정적이고 설명력 있는 예측 성능을 제공함을 시사한다. 이러한 평가 결과는 10-Fold 교차검증을 기반으로 도출된 결과로써 모형의 신뢰성을 확보하였으며, 홍수 및 태풍 피해 추정 모두에 있어 LM with PCA 모형이 보다 안정적이고 실질적인 피해 예측이 가능한 것으로 확인되었다. 따라서 본 연구에서는 LM with PCA를 홍수 및 태풍 피해 추정을 위한 최적 모형으로 최종 선정하였다.
본 연구는 북한과 같이 정보가 제한된 환경에서도 재해 피해를 정량적으로 추정할 수 있는 방법론을 제시하였다는 점에서 그 의의가 있다. 제한된 관측 자료를 효과적으로 활용할 수 있는 피해 추정 모형을 개발함으로써, 자료의 제약이 존재하는 지역에서도 실질적인 재해 분석이 가능함을 보여주었다. 향후 북한의 피해 관련 데이터가 추가적으로 확보된다면, 보다 다양한 기상 요소 및 지형 정보를 모형에 반영하고, 기계학습 기반의 비선형 추정 기법을 적용함으로써 피해 추정의 정밀도와 예측 신뢰도를 향상시킬 수 있을 것으로 기대된다. 본 연구의 결과는 자료가 제한적인 북한의 홍수 및 태풍 피해 규모를 실질적으로 추정할 수 있는 기반을 마련한 것으로, 향후 재난 관리의 필요성이 더욱 강조되는 국제적 흐름 속에서, 재난 대응 체계가 미비한 국가들에도 적용 가능한 모형 개발 사례로 확장될 수 있을 것으로 사료된다.
감사의 글
이 논문은 2022년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No. 2022R 1A2C2091773).