J. Korean Soc. Hazard Mitig Search

CLOSE


J. Korean Soc. Hazard Mitig. > Volume 23(6); 2023 > Article
딥러닝을 활용한 온천천 부곡교 지점 DO 인자 예측

Abstract

The use of monitoring in river management is known to be both economical and rational, and the amount of digital information globally is increasing over time. AI research utilizing such data has been widely employed recently in the field of water resources and hydrology, yielding excellent predictive results. In this study, we utilized DO (Dissolved Oxygen) factor and meteorological data collected from the Bugok Bridge site in the Oncheoncheon watershed through an automatic water quality measurement network. We employed the LSTM (Long Short Term Memory) algorithm, a type of deep learning known for its excellent time series learning capabilities, as the learning algorithm. To confirm the potential of the use of big data, we conducted a comparative analysis by performing hourly and daily predictions, and an accuracy analysis by comparing actual and predicted data. For data utilization, missing data from the data collected by the automatic measurement network were linearly interpolated. It was confirmed that the predictive performance for the DO factor was higher using hourly than daily data.

요지

모니터링을 활용한 하천 관리는 경제적이며 합리적으로 알려져 있으며, 전 세계적으로 디지털 정보량은 해가 더해갈수록 늘어나고 있다. 이러한 데이터를 활용하는 AI 연구는 최근 수자원 및 수문분야에서 널리 활용되고 있으며, 우수한 예측 결과를 도출하고 있다. 본 연구는 자동 수질 측정망으로 수집된 온천천 유역의 부곡교 지점의 DO 인자와 기상자료를 활용하여 연구를 진행하였다. 학습 알고리즘으로는 딥러닝의 한 종류인 시계열 학습 능력에 우수한 결과를 보이는 LSTM 알고리즘을 활용하였다. 빅 데이터의 활용 가능성을 확인하기 위해 시간별 및 일별 예측을 수행하여 비교 분석하였으며, 실제 데이터와 예측 데이터를 비교 분석하여 정확도 분석을 실시하였다. 데이터의 활용에는 자동 측정망으로 수집된 자료에서 누락된 데이터는 선형 보간하여 활용하였다. DO 인자 예측 결과로는 일별 데이터의 활용보다 시간별 데이터를 활용한 예측 성능이 높은 것으로 확인되었다.

1. 서 론

전 세계적으로 디지털 정보량은 해가 더해갈수록 폭발적으로 늘어나고 있다. 그 중 수질 모니터링에서 얻어진 수질 데이터는 수자원 관리에서 중요한 역할을 한다. 하천에서 용존 산소와 엽록소는 호수를 모니터링 하는데 사용되는 중요한 수질 변수이며, 호수 환경의 지속 가능한 관리를 위해 이런 변수의 모니터링이 필요하다(Barzegar et al., 2020). 모니터링을 활용한 하천의 관리는 경제적이며 합리적인 수질 관리에 이용되고 있으며, 수질 기준을 정하여 자연적 정화 능력인 하천의 자정작용을 활용하는 것이 중요하다. 환경부에서는 하천 및 호소 등 공공수역에 대해 수질 현황을 파악하고 물환경 정책 수립을 위해 국가 하천을 중심으로 일부 지방 하천을 포함하여 수질측정망을 운영하여 모니터링을 하고 있다(MOE, 2011). 이전에는 새로운 데이터를 저장하는데 많은 비용이 발생하였고 복잡성이 존재하여 데이터의 구축의 어려움을 겪었으나, 지난 10년 동안 많은 기술의 발전으로 인해 실질적인 데이터를 저장하고 생성하는 과정이 용이해졌으며 축적된 데이터의 양도 많아지고 있다. 빅 데이터를 처리하는 기술은 전통적인 접근 방식을 수용하고 전통적으로 달성할 수 없었던 수준의 데이터 처리를 가능하게 하였다. 이를 토대로 수질 분야에서 많은 양의 축적된 데이터를 활용한 연구가 진행되고 있다(Ponce Romero et al., 2017). 실시간으로 정확한 수질 정보를 측정하기 위한 실시간 모니터링 데이터를 활용하여, 각각의 목적과 용도에 맞게 빅데이터 분석하여 유용한 수질 환경 정보를 제공하는 연구가 진행되고 있다(Park et al., 2021).
수질측정망을 통해 습득된 데이터는 미래 수질 예측에 있어 중요한 정보가 된다. 최근에는 이런 데이터를 활용한 기계 학습과 딥러닝을 활용한 수문학 분야에서 연구가 이루어지고 있다. 기계 학습은 컴퓨터가 수행해야 될 훈련 자료를 스스로 학습하여 알고리즘을 만들어 내며, 이러한 알고리즘에는 인공신경망(artificial neural network, ANN), Random Forest (RF), Suppport Vector Regression (SVR) 등 다양한 기법이 있다(Jang et al., 2016; M.J. Kim et al., 2021). 인공신경망을 활용한 수질 항목에 대한 연구가 많이 진행되고 있으며 Ay and Kisi (2012)는 DO농도를 예측하고 추정하기 위해 인공신경망을 적용하기도 하였고, Ahmed (2017)도 인공신경망을 활용하여 DO와 BOD 예측에 적용하기도 하였다. Wen et al. (2013)은 중국 북서부에 Heihe 강의 DO농도를 시뮬레이션 하기 위해 ANN을 적용하였는데, 몇 가지 매개 변수는 민감도 분석 결과에 영향을 끼치는 것으로 확인하였다. Kisi et al. (2020)은 DO농도 추정을 위해 수온, pH 등 데이터의 다양한 입력 시나리오를 적용하여 인공신경망에 적용한 결과, 은닉층의 갯수가 8개에서 최적화한 결과를 얻을 수 있었고 특정 매개변수가 DO농도 예측에 영향을 미치는 것으로 확인하였다. Singh et al. (2009)은 인공신경망을 활용한 10년 동안 월간 측정된 DO, BOD와 다른 매개변수의 활용으로 연구를 진행하여 기존 모델링 보다 효과적인 결과를 확인하였다. Kuo et al. (2007)은 저수지 수질의 주요 성분 농도를 예측하기 위해 인공신경망을 적용한 결과, 기존 통계 모델보다 우수한 성능을 확인하였다. 이와 같이 인공신경망을 활용한 수질 항목 연구는 활발히 진행되고 있다.
딥러닝은 기계 학습과 다른 개념이 아닌 기계 학습의 한 종류로, 딥러닝은 기계 학습에서 자동으로 학습하려는 데이터의 특징을 추출하여 대규모로 중요한 패턴 및 규칙을 학습하고 이를 토대로 의사결정이나 예측하는 알고리즘이다. 여러 분야에서 딥러닝을 활용한 연구가 활발히 진행되고 있으며 수문 분야의 딥러닝 학습을 적용한 사례를 살펴보면 시계열 학습에 강점을 가지고 있는 LSTM 모형을 활용한 다목점댐 유입량 예측 연구 결과 매우 높은 정확도의 예측을 수행한 바 있다(Mok et al., 2020). Park et al. (2018)은 소양강댐과 충주댐 유역을 대상으로 순환신경망(Recurrent Neural Network)모형을 활용한 다목적댐 유입량 예측 모형을 개발하고 모형의 적용성 검토를 수행한 결과, 전반적으로 RNN은 ANN에 비해 은닉층 수가 증가함에 따라 예측성이 향상되는 것을 입증하였다. 또한 Hwang (2021)은 홍수 시 삽교호로의 유입량 예측을 위해 LSTM 모형을 구축하여 수위 예측을 수행하고 예측 정확도를 분석하여 단시간 예측에서 우수한 예측성을 확인하였다. Ha et al. (2016)은 새로운 강우 예측을 위해 딥러닝 기법 중 하나인 DBN (deep belief network)을 활용한 연구를 진행하여 수행 속도나 예측 성능에서 우수한 것으로 확인하였다. Jung et al. (2018)은 LSTM 알고리즘을 활용한 한강 잠수교의 수위 예측을 수행하고 정확도를 분석한 결과, 선행 시간이 가까운 경우 예측의 정확도는 실제 수위에 매우 근접한 예측 결과를 확인하였다.
위의 사례와 같이 인공신경망을 활용한 DO농도 예측에 대한 연구는 다수 있음을 확인할 수 있다. 그러나 인공신경망을 심화시킨 딥러닝 알고리즘(RNN, LSTM)을 활용한 DO 농도 예측 연구는 상대적으로 연구가 부족한 실정이다. 따라서 본 연구에서는 온천천 유역의 지점별 DO인자 예측을 위해 딥러닝의 일종인 LSTM 알고리즘을 활용하여 DO인자 일 자료를 활용한 일 예측과 시간 자료를 활용한 시간 예측을 실시하여, 일 자료와 시간 자료의 비교를 통해 예측 정확도를 분석하고자 하였다. 자동측정망으로 수집된 자료에서 누락된 데이터는 선형보간하여 활용하였으며, Google사에서 개발한 Tensorflow를 활용하여 연구를 수행하였다. DO인자의 시간, 일 예측을 통해 수질 예측의 활용성을 종합적으로 검토하였다.

2. 딥러닝(Deep learning)

2.1 인공신경망(Artificial Neural Network, ANN)

인공신경망은 뇌기능의 특성 몇 가지를 컴퓨터 시뮬레이션으로 표현하는 것으로 뇌에 있는 뉴런 네트워크의 정보처리 기능을 시뮬레이션으로 표현하도록 설계한 수학 모델이다(Hinton, 1992; Jensen, 1994). 인공신경망은 수정 가능한 가중치, 임계값 및 수학적 전달 함수를 통해 입력에 응답하는 상호 연결된 많은 장치를 통해 정보를 처리하는 고도로 병렬된 시스템이다(Wen et al., 2013). ANN의 구조는 Fig. 1과 같이 크게 입력층(Input layer), 은닉층(Hidden layer), 출력층(Output layer)으로 이루어져 있다. ANN의 구조별 역할은 입력층에서는 외부환경에서 신호로 데이터를 가져오는 역할을 하고, 은닉층에서는 입력층에 구성하고 있는 관련 패턴을 가공하여 추출하거나 시스템을 분석을 한다. 마지막 계층인 출력층에서는 최종 네트워크 출력을 생성하여 값을 출력한다(Kisi et al., 2020).
Fig. 1
Structure of Artificial Neural Network (ANN)
kosham-2023-23-6-325gf1.jpg

2.2 순환신경망(Recurrent Neural Network, RNN)

순환신경망 알고리즘은 인공신경망을 심화시킨 딥러닝 알고리즘으로 앞에서 일어난 현상이 미래의 현상에 어떻게 영향을 미치는지 예측하는 시계열 개념이 추가된 모델로 은닉계측에 이전 정보를 기억시킬 수 있는 장점이 있다(Joo and Choi, 2018). RNN은 시계열 데이터를 활용에 최적화된 알고리즘으로 주가, 자연어 처리, 음성인식 등 여러 분야에서 주로 활용되고 있다. Fig. 2는 일반적인 RNN 구조로서 은닉층의 값을 ANN 내부에 메모리에 기억한 후 다음 순서의 입력 데이터로 학습할 때 활용한다. RNN의 기본으로는 Xt 는 입력 값으로 ht 메모리 부분을 거쳐 다음 스텝에 반영되어 계산된 후, 이전 스텝과 현재 스텝의 입력값에 의해 계산된 Ot 를 출력하게 된다(Kim and Oh, 2018).
Fig. 2
Structure of Recurrent Neural Network (RNN) ht, Hidden State; Xt, Input Gate; Ot, Output Gate
kosham-2023-23-6-325gf2.jpg

2. LSTM

RNN은 이전의 정보를 현재의 문제 해결에 활용하여 순차적으로 데이터를 처리하는 구조로 현재의 문제를 해결하는 중요한 정보를 가진 데이터가 오랜 시간 전에 발생하였을 때 오래전 기억이 소실되어 이를 반영하기 장기 의존성 문제가 있다(Lim et al., 2020). 장단기 메모리(Long Short-Term Memory)는 순환신경망의 장기 의존성 문제를 해결하기 위해 Hochreiter and Schmidhuber (1997)의 의해 제기된 특수 형태의 모형이다. LSTM에서는 Fig. 3과 같은 구조를 나타내는데 특정 시점의 상태(ht)를 업데이트하기 위해 셀(cell, Ct)이라는 개념을 도입하였다. 셀 내부의 상태량인 셀 스테이트를 입력(input gate, it), 망각(forget gate, ft), 출력(output gate, ot) 게이트를 이용하여 총 4단계의 계산과정을 통하여 가중치 소실 문제가 발생하지 않도록 조절한다. 첫 번째 단계에서는 특정 정보의 제거 여부를 확인하는 망각게이트 식을 정의한 것으로 다음 Eq. (1)과 같다(Olah, 2015).
Fig. 3
Structure of Long-short Term Memory (LSTM). Ct, Cell State; ft, Forget Gate; ht, Hidden State; it, Input Gate; ot, Output Gate
kosham-2023-23-6-325gf3.jpg
(1)
ft=σ(Wf[ht1,xt]+bf)
여기서 Wf 는 망각게이트 가중치, bf 는 망각게이트 편향값, σ 는 Sigmoid 활성화 함수이다. 두 번째 단계에서는 입력게이트(it)를 통하여 새로운 정보의 저장 유무를 결정하는 단계로 셀(cell, Ct)과의 곱함으로써 이전 상태의 값을 사용할지 말지 결정하는 단계로 다음 식과 같이 결정한다.
(2)
it=σ(Wi[ht1,xt]+bi)
(3)
C¯t=tanh(Wc[ht1,xt]+bc)
여기서Wi, Wc 는 각 입력게이트 가중치, bi, bic 각 입력게이트 편향값이며, 세번째 단계에서는 입력게이트와 출력게이트의 값을 이용하여 Cell State Update는 Eq. (3)과 같이 업데이트 한다.
(4)
Ct=ftCt1+itC¯t
마지막으로 출력(output gate, ot)게이트는 Eq. (5), 특정 시점의 상태(ht)는 Eq. (6)과 같이 쓸 수 있다.
(5)
ot=σ(W0[ht1,xt]+b0)
(6)
ht=ottanh(Ct)

3. 대상유역 선정 및 자료 구축

3.1 대상유역

본 연구의 대상 지점은 Fig. 4와 같이 부산광역시 동경 129° 02′40″, 북위 35° 09′20″~35° 17′30″ 사이에 위치한 온천천 유역으로 수영강의 제1지류이다. 온천천 유역은 부산광역시 금정구 남산동 청룡교를 기점으로 부산광역시 동래구 안락동 수영강 합류점으로 합류되며 유역면적은 55.97 km2으로 수영강 전체 유역면적의 약 27.7%를 점하고 있다(J.M. Kim et al., 2021). 온천천 유역은 실시간 자동측정망을 설치하여 하천 수질 자료 pH, BOD (Biochmical Oxygen Demand), COD (Chemical Oxygen Demand), TOC (Total Organic Carbon), SS (Suspended Solids), DO (Dissolved oxygen), T-P (Total Phosphorus)등을 부산광역시 보건환경정보 공개시스템(https://www.busan.go.kr/ihe/index)을 통하여 자료를 제공하고 있다. 본 연구는 부산광역시 금정구 부곡동 79 (35°14′32″, 129°05′23″) 부곡교 측정소의 DO농도 자료를 수집하여 활용하였다.
Fig. 4
Study area of Basin Oncheoncheon (Busan, Korea)
kosham-2023-23-6-325gf4.jpg

3.2 데이터 구축

본 연구는 온천천 유역 부곡교 지점의 2014년 1월 16일~2018년 12월 31일까지의 시간단위 DO농도값 데이터를 받아 연구를 진행하였으며, 기상자료(기온, 상대습도, 풍속, 강수량)는 국가수자원관리종합정보시스템으로부터 2014년 1월 16일~2018년 12월 31일까지의 시간단위 자료를 수집하여 활용하였다. 각 지점 DO농도값 데이터 중 교정, 보수 중, 비사용, 장비전원단절 등으로 인해 누락데이터가 부곡교 지점 1,732개의 데이터가 누락되어 있었다. 연구에 앞서 2014년 1월 16일~2018년 12월 31일의 DO 농도값 데이터, 기상자료를 전수조사 후 이상치 값 제거를 실시하였으며, 누락된 데이터는 다음의 전처리 과정을 통해 데이터를 활용하였다. 시간단위 예측을 위한 데이터 구성에 있어 2014년 1월 16일~2018년 12월 31일까지의 전 기간 실제 데이터를 수집하여 누락데이터는 선형보간하였다. 일 단위 예측을 위한 데이터 구성은 이상치값 제거를 완료한 시간단위 데이터와 24시간 중 13시간 이상 관측된 데이터를 활용하여 일 단위 데이터로 변환하였다. 변환된 일 데이터를 시간단위 데이터와 동일하게 선형보간하여 연구에 활용하였다.

3.3 LSTM 알고리즘 모의 구성

본 연구에서는 순환신경망인 LSTM알고리즘을 활용하여 온천천 유역의 부곡교 지점 DO인자 예측을 수행하고 일 자료와 시간 자료의 비교를 통해 예측 정확도를 분석하고자 하였다.
LSTM 알고리즘 구성을 위한 실험 환경은 tensorflow를 활용하여 구축하였다. 알고리즘 구성에 있어 손실함수로는 평균제곱오차를 사용하였으며, 최적화 함수로는 Adam Optimizer, 활성화 함수로는 tanh를 사용하였다. LSTM알고리즘 구성에 있어 실험 조건은 Sequence length는 3, 5, 7, Iteration은 3000, 5000, 10000으로 조건을 변화하며 학습을 수행하였다. 고정 조건으로는 Hidden layer은 10, learning rate는 0.01로 연구를 수행하였으며, 최적화 함수로 최적화 알고리즘 중 가장 발전된 기법인 Adam Optimizer를 활용하였다. 손실함수로는 Root Mean Squared Error 함수를 활용하였다. 모의 결과 분석을 위해 Fig. 5와 같이 2014년~2017년 12월 31일까지의 데이터는 학습 데이터로 활용하였고 2018년 1월 1일~2018년 12월 31일까지는 검증 및 예측 정확도를 비교 분석하였다. 예측 정확도정량화를 위해 R2 평가 지수를 활용하여 비교⋅분석 하였다.
Fig. 5
Time Series Data Sets for DO Concentration Data
kosham-2023-23-6-325gf5.jpg
(7)
R2=1(tipi)2(tit¯i)2
여기서 ti 는 실제 데이터값, pi 는 예측값, t¯i는 실제 데이터 평균값을 의미한다.

4. 연구자료 분석 및 결과 비교

LSTM 알고리즘을 활용한 본 연구는 DO농도 예측의 차이와 시간 또는 일 데이터별 차이 Sequence length 및 Iteration의 변화에 대한 조건을 변경하면서 예측을 실시하였다. 동일 조건 별 비교를 위해 분석 결과는 총 4가지 조건 별 분석을 실시하였다. 첫 번째로는 DO인자의 시간 예측 분석을 위해 시간 조건만 변경하면서 결과 분석을 실시하였으며, 두번째로는 일 예측 분석을 위해 일 조건만 변경하면서 결과 분석을 실시하였다. 세 번째로는 시간 예측과 일 예측의 비교 분석을 위해 동일 시간별 일자로 맞춰서 분석을 실시하였으며, 네번째로는 Sequence length 및 Iteration의 변화에 따른 비교분석을 실시하였다.

4.1 부곡교 지점 시간 예측 분석

시간 예측 분석에 앞서 동일 조건의 변화를 확인하기 위해 Sequence length와 Iteration의 값이 동일 할 때 예측값을 비교하였다. Fig. 6은 Sequence length 5, Iteration 3000일 때의 1시간 예측 결과로, 예측의 경향은 관측값에 잘 따라가는 현상을 보였으며, 예측값과 실측값의 선형성을 띄우며 예측의 성능은 우수한 것으로 확인하였다. 1시간 예측결과로는 부곡교 지점 R2 0.9985으로 우수한 예측 성능을 보였다. 1시간~72시간 DO농도 시간 예측 R2 는 부곡교 지점 0.9985~ 0.5899로 1시간 예측에서는 많은 차이를 보이지 않았으나 지점별 예측의 시간이 길어질수록 R2 의 차이를 보였다(Fig. 7). R2 의 최대값과 최소값의 차이는 많은 차이를 보이지 않았으며, 24시간 예측까지는 R2 가 0.75 이상을 높은값을 보이다가 48시간 예측부터 급격하게 낮아지는 현상을 볼 수 있었다.
Fig. 6
Prediction of DO Concentration Graph (hour)
kosham-2023-23-6-325gf6.jpg
Fig. 7
DO Concentration Prediction Result for Bugok (1, 2, 6, 12, 24, 48, 72 hour)
kosham-2023-23-6-325gf7.jpg

4.2 부곡교 지점 일 예측 분석

일 예측 분석에 앞서 시간 예측 분석과 동일하게 지점별 동일 조건의 변화를 확인하기 위해 Sequence length와 Iteration의 값이 동일 할 때 예측을 비교하였다. Fig. 8은 Sequence length 5, Iteration 3000일 때의 부곡교 지점 1일 예측 결과로, 예측의 경향은 관측값에 잘 따라가는 현상을 보였으나, Peak point에 대한 예측은 다소 떨어지는 현상을 보였다.
Fig. 8
Prediction of DO Concentration Graph (day)
kosham-2023-23-6-325gf8.jpg
또한 예측값과 실측값의 선형성이 보였다. 1일 예측결과로는 R2 0.8390의 예측 성능을 보였으며, 1일~15일 DO농도 일 예측 R2 는 0.8390~0.4872로 예측의 시간이 길어질수록 R2 가 낮아지는 현상을 보였다(Fig. 9). R2 의 최대값과 최소값의 차이는 7일 예측에서 많은 차이를 보였다. 1일 예측에서는 R2 가 0.75 이상 높은값을 보였으나, 2일 예측에서부터 예측력이 낮아지는 현상을 볼 수 있었다.
Fig. 9
DO Concentration Prediction Result for Bugok (1, 2, 3, 5, 7, 15 day)
kosham-2023-23-6-325gf9.jpg

4.3 시간, 일 예측 비교 분석

1일 예측에 필요한 데이터 개수는 일 단위로 예측하는 데이터 개수는 1,188개, 시간단위로 예측하는 데이터 개수는 34,704개이다. 시간, 일 예측 비교 분석은 학습에 활용되는 데이터 개수의 차이가 있다. 데이터 개수 활용에 대한 비교 분석을 위해 비교 분석을 위해 온천천 상류지역에 위치한 부곡교 지점의 시간, 일 단위 DO농도값을 예측한 결과를 비교한 내용은 Table 1과 같다. 1일 예측 분석에 있어 R2 가 가장 높은 값은 시간 자료로 예측한 결과 R2 0.8185, 일 자료로 예측은 결과 R2 0.8390으로 일 자료로 예측한 결과가 더 높은 결과를 보였다. R2 가 가장 낮은 값은 시간 자료로 예측한 결과 R2 0.7793, 일 자료로 예측은 결과 R2 0.7306으로 시간 자료로 예측한 결과가 더 높은 결과를 보였다.
Table 1
Model Performance Results of the DO (Prediction Hour Data VS Day Data)
Sequence length Iterations R square
24 hour 1 day 48 hour 2 day 72 hour 3 day
3 3000 0.8185 0.7876 0.6568 0.6193 0.5993 0.5765
5000 0.8179 0.7906 0.6487 0.6012 0.5941 0.5673
10000 0.8119 0.7644 0.6452 0.5918 0.5905 0.5431
5 3000 0.7793 0.8390 0.6361 0.5900 0.5970 0.5908
5000 0.7974 0.8357 0.6426 0.5593 0.5926 0.5858
10000 0.8000 0.8117 0.6375 0.5459 0.5956 0.5719
7 3000 0.7936 0.7726 0.6243 0.5824 0.5936 0.6068
5000 0.8150 0.7730 0.6242 0.5670 0.5899 0.5788
10000 0.8146 0.7306 0.6359 0.5533 0.5918 0.5461
2일 예측한 결과는 시간 데이터로 예측한 결과 R2 가 가장 높았으며, 3일 예측한 결과는 일 데이터로 예측은 결과 R2 가 가장 높았다. 1일~3일 예측 분석에 있어 가장 높은 R2 를 보인 것은 일 데이터를 활용한 예측 결과였다. 그러나 시간데이터와 많은 차이를 보이지 않았으며 오히려 시간 데이터를 활용한 예측 결과가 1일~3일 예측 모두 가장 높은 R2 와 가장 낮은 R2 의 차이가 적은 것으로 분석하였다.

4.4 시간, 일 예측의 Sequence length, Iteration의 변화에 따른 비교 분석

Sequence length와 Iteration 수의 변화에 따른 부곡교 지점의 결과를 비교 분석 하였다(Fig. 10). Sequence length의 변화에 따른 결과로는 일 단위, 시간단위 DO농도 예측에 있어 Sequence length에 따른 결과의 차이는 크지 않았으며, Iteration 수의 변화에 따른 결과의 차이는 Sequence length의 비교보다 결과의 차이보다 조금 크게 있었다. 종합적으로 Sequence length와 Iteration 수를 분석한 결과 DO농도 예측에 있어 Sequence length에 따른 결과의 차이는 거의 없었으며, Iteration 수에 의한 결과값은 차이가 큰 것을 확인할 수 있었다.
Fig. 10
DO Concentration Prediction Result for Bugok Compare to Sequence Length and Iteration
kosham-2023-23-6-325gf10.jpg

5. 결 론

본 연구에서는 딥러닝 학습의 일종인 LSTM 알고리즘을 활용하여 시간단위, 일 단위 DO농도를 예측하였다. LSTM 알고리즘의 학습을 위해 2014년 1월 16일~2018년 12월 31일 기간의 기상(평균풍속, 평균온도, 상대습도, 강우량) 데이터 자료를 활용하였으며, 교정, 보수 중, 비사용, 장비전원단절 등으로 누락데이터가 있는 DO농도 자료를 일 단위 데이터로 선형보간하여 학습자료로 구축하였다. 예측의 정확도 판단을 위해 DO농도 데이터가 포함된 Training 데이터셋과 DO농도 데이터가 포함되지 않은 Test 데이터셋으로 구분하여 연구를 진행하였으며, 예측 정확도정량화를 위해 R2 평가 지수를 활용하여 비교⋅분석 하였다. DO농도의 시간, 일 단위 예측에 대한 비교 분석과 지점별 분석을 위해 알고리즘에 적용하였고 다음과 같은 결론을 도출하였다.
  • 1) LSTM 알고리즘을 활용한 부곡교 지점의 예측 시간별 DO농도를 예측한 결과 1시간, 2시간 예측에서는 지점별 예측의 차이를 보이지 않았다. 6시간, 12시간 이후 R2 0.9 이하로 낮아지는 것으로 확인할 수 있었다. 24시간 예측까지 많은 차이를 보이지는 않았으나, 48시간 예측과 72시간 예측에서는 R2 0.2 이상 많은 차이를 보이는 것으로 확인할 수 있었다. 예측의 시간이 길어질수록 예측 정확도의 차이는 벌어지는 것으로 확인할 수 있었다.

  • 2) 부곡교 지점의 경우 3일 예측에서부터 R2 0.6 이하로 떨어지면서 예측의 성능이 떨어지는 것으로 확인할 수 있었다. Sequence length, Iteration수의 변화에 따른 LSTM 기법에 미치는 영향을 파악한 결과 Iteration 수의 변화에 따른 결과 차이가 Sequence length의 변화에 따른 차이보다 조금 더 큰 것으로 확인할 수 있었다.

본 연구는 LSTM 알고리즘을 활용하여 기상 인자와, DO농도 시간 자료, 일 자료를 활용하여 시간 예측과 일 예측을 비교 분석과 지점별 비교 분석을 수행하고자 하였다. 일 데이터 보다 시간 데이터의 양이 많은 만큼 일 자료를 활용한 예측보다 시간 자료를 활용한 예측이 높은 정확도를 보이는 것으로 확인하였다. 향후 1, 2일이 아닌 3일 이상의 예측 정확도를 높이기 위해서 추가적인 데이터 확보를 통해 지점별 분석을 실시할 예정이다. 또한 지점별로 데이터를 분류하지 않고 상류 데이터를 포함한 하류 예측, 중류 데이터를 포함한 하류 예측 등 데이터를 활용하여 예측 정확도 검증을 수행할 예정이다.

감사의 글

본 연구는 농림축산식품부의 재원으로 농림식품기술기획평가원의 농업기반및재해대응기술개발사업(321070-4)과 환경부의 재원으로 한국환경산업기술원의 가뭄대응 물관리 혁신 기술개발사업의 지원을 받아 연구되었습니다(2022003610002).

References

1. Ahmed, A.A.M (2017) Prediction of dissolved oxygen in Surma River by biochemical oxygen demand and chemical oxygen demand using the artificial neural network (ANNs). J King Saud Univ –Eng Sci, Vol. 29, No. 2, pp. 151-158.

2. Ay, M, and Kisi, O (2012) Modeling of dissolved oxygen concentration using different neural network technoques in Foundation Creek, EI Paso County, Colorado. J Environ Eng, Vol. 138, No. 6, pp. 654-662.
crossref
3. Barzegar, R, Aalami, M.T, and Adamowski, J (2020) Short-term water quality variable prediction using a hybrid CNN-LSTM deep learning model, Spring.

4. Ha, J.H, Lee, Y.H, and Kim, Y.H (2016) Forecasting the prediction of the next day using deep learning. Journal of Korean Institute of Intelligent System, Vol. 26, No. 2, pp. 93-98.

5. Hinton, G.E (1992) How neural networks learn from experience. Scientific American, Vol. 267, pp. 144-151.
crossref pmid
6. Hochreiter, S, and Schmidhuber, J (1997) Long short-term memory. Neural Computation, Vol. 9, pp. 1735-1780.
crossref pmid
7. Hwang, B.G (2021) Evaluation of LSTM model for inflow prediction of lake sapgye. Journal of the Korea Academia-Industrial cooperation Society, Vol. 22, No. 4, pp. 287-294.

8. Jang, E.N, Im, J.H, Ha, S.H, Lee, S.G, and Park, Y.G (2016) Estimation of water quality index for coastal areas in Korea using GOCI satellite data based on machine learning approaches. Korean Journal of Remote Sensing, Vol. 32, No. 3, pp. 221-234.
crossref
9. Jensen, B.A (1994). Expert systems—neural networks, instrument engineers'handbook. 3rd ed. p 48-54. Radnor: Chilton.

10. Joo, T.I, and Choi, S.H (2018) Stock prediction model based on bidirectional LSTM recurrent neural network. The Journal of Korea Institute of Information, Electronics, and Communication Technology, Vol. 11, No. 2, pp. 204-208.

11. Jung, S.H, Cho, H.S, Kim, J.Y, and Lee, G.H (2018) Prediction of water level in a tidal river using a deep-learning based LSTM model. Journal of Korea Water Resources Association, Vol. 51, No. 12, pp. 1207-1216.

12. Kim, J.M, Baek, J.S, and Shin, H.S (2021) A study on improvement of hydrologic cycle by selection of LID technology application area:In onchen stream basin. Korea Academy Industrial Cooperation Society, Vol. 22, No. 4, pp. 545-553.

13. Kim, M.J, Byeon, S.J, Kim, K.M, and Ahn, J.H (2021) Selection of input factors and comparison of machine learning models for prediction of dissolved oxygen in gyeongan stream. Journal of Korean Society of Environmental Engineers, Vol. 43, No. 3, pp. 206-217.
crossref
14. Kim, S.K, and Oh, T.I (2018) Real time PM10 concentration prediction LSTM model based on IoT streaming sensor data. Journal of the Korea Academia-Industrial cooperation Society, Vol. 19, No. 11, pp. 310-318.

15. Kisi, O, Alizamir, M, and Gorgij, A.D (2020) Dissolved oxygen prediction using a new ensemble method. Environ. Sci. Pollut. Res, Vol. 27, pp. 9589-9603.
crossref pdf
16. Kuo, J.T, Hsieh, M.H, Lung, W.S, and She, N (2007) Using artificial neural network for reservoir eutrophication prediction. Ecol. Model, Vol. 200, No. 1-2, pp. 171-177.
crossref
17. Lim, H.S, An, H.U, Choi, E.H, and Kim, Y.S (2020) Prediction of the DO concentration using the machine learning algorithm:Case study in Oncheoncheon, Republic of Korea. Korean Journal Of Agricultural Science, Vol. 47, No. 4, pp. 1029-1037.

18. Ministry of Environment (MOE) (2011). Operation plan of water quality measurement network. Notification of the Ministry of Environment, No. 2011-14 [Korean Literature].

19. Mok, J.Y, Choi, J.H, and Moon, Y.I (2020) Prediction of multipurpose dam inflow using deep learning. Journal of Korea Water Resources Association, Vol. 53, No. 2, pp. 97-105.

20. Olah, C (2015). Understanding LSTM networks (August 27, 2015). GITHUB blog. Retrieved from http://colah.github.io/posts/2015-08-Understanding-LSTMs.

21. Park, M.K, Yoon, Y.S, Lee, H.H, and Kim, J.H (2018) Application of recurrent neural network for inflow prediction into multi-purpose dam basin. Journal of Korea Water Resources Association, Vol. 51, No. 12, pp. 1217-1227.

22. Park, S.H, Seo, Y.C, Kim, Y.H, and Pang, S.P (2021) Big data-based monitoring system design for water quality analysis that affects human life quality. Journal of the Korea Entertainment Industry Association, Vol. 15, No. 3, pp. 289-295.
crossref
23. Ponce Romero, J.M, Hallett, S.H, and Jude, S (2017) Leveraging big data tools and technologies:Addressing the challenges of the water quality sector. Sustainablility, Vol. 9, No. 12, pp. 2160.
crossref
24. Singh, K.P, Basant, A, Malik, A, and Jain, G (2009) Artificial neural network modeling of the river water quality:A case study. Ecol. Model, Vol. 220, No. 6, pp. 888-895.
crossref
25. Wen, X, Fang, J, Diao, M, and Zhang, C (2013) Artificial neural network modeling of dissolved oxygen in the Heihe River, Northwestern China. Environ. Monit. Assess, Vol. 185, pp. 4361-4371.
crossref pmid pdf


ABOUT
ARTICLE CATEGORY

Browse all articles >

BROWSE ARTICLES
AUTHOR INFORMATION
Editorial Office
1010 New Bldg., The Korea Science Technology Center, 22 Teheran-ro 7-gil(635-4 Yeoksam-dong), Gangnam-gu, Seoul 06130, Korea
Tel: +82-2-567-6311    Fax: +82-2-567-6313    E-mail: master@kosham.or.kr                

Copyright © 2024 by The Korean Society of Hazard Mitigation.

Developed in M2PI

Close layer
prev next