J. Korean Soc. Hazard Mitig Search

CLOSE


J. Korean Soc. Hazard Mitig. > Volume 20(1); 2020 > Article
딥러닝 기반의 합성곱 신경망을 이용한 화염 및 연기 감지 알고리즘에 관한 연구

Abstract

Recently, cases of large-scale fires, such as those at Jecheon Sports Center in 2017 and Miryang Sejong Hospital in 2018, have been increasing. We require more advanced techniques than the existing approaches to better detect fires and avoid these situations. In this study, a procedure for the detection of fire in a region of interest in an image is presented using image pre-processing and the application of a convolutional neural network based on deep-learning. Data training based on the haze dataset is included in the process so that the generation of indoor haze smoke, which is difficult to recognize using conventional methods, is also detected along with flames and smoke. The results indicated that fires in images can be identified with an accuracy of 92.3% and a precision of 93.5%.

요지

2017년 제천 스포츠센터 화재와 2018년 밀양 세종병원 화재 등 최근 들어 대형화재의 발생이 증가하고 있는 추세이다. 따라서 기존의 화재감지 기법보다 진보된 새로운 화재감지 기법의 필요성이 절실하다. 이에 본 연구에서는 영상전처리를 통해 영상 내에서 관심영역을 검출하고 해당 관심영역에 대해 화재 여부를 딥러닝 기반의 합성곱 신경망을 통해 추론하게 된다. 이때 데이터셋은 화염, 연기 뿐만 아니라 기존방법으로는 영상 내에서 객체검출의 어려움이 있는 연무형태의 실내 연기 형성 여부 또한 검출할 수 있도록 연무데이터셋을 추가하여 학습을 진행하였고, 평가결과 평균 92.3%의 정확도와 93.5%의 정밀도로 화재를 검출할 수 있었다.

1. 서 론

최근 들어 대형화재의 발생 빈도가 꾸준히 증가하며, 화재와 안전에 대한 국민적 관심이 높아지고 있다. 지난 사례로는 2017년 12월 제천 스포츠센터 화재로 29명이 사망하고 40명이 부상당하였으며, 2018년 1월 경남 밀양 세종병원 화재로 150여 명이 사상하는 등 인명피해가 다수 발생하였다. 특히 화재발생 시 골든타임을 지키는 것은 매우 중요한 요소로 적용되지만 최근 인명피해가 발생한 화재 사례에서는 스프링클러가 작동하지 않거나 초기 신고 및 대응이 늦어져 대형화재로 이어졌다는 공통점이 있다. 또한 여름철 열감지기의 오작동 및 화재수신반에 대한 관리자의 의식 부족으로 인하여 화재수신기를 꺼놓는 사례가 빈번히 발생하고 있다. Fig. 1의 경우 소방청에서 공개한 2013년부터 2016년까지 화재 출동 건수와 오인출동 건수를 보여주고 있는데 매해 그 발생 건수가 증가하고 있는 추세이며, 특히 화재 출동 건수에 비해 오인출동 건수의 증가 폭이 더 큰 것으로 나타났다. 또한 전체 출동 건수 중에 60% 정도가 오인출동으로 정작 소방력을 필요로 하는 현장에 출동하지 못하는 경우가 발생할 수 있다. 따라서 감지기의 오작동을 줄이고 화재시 화재감지기의 기능을 정상적으로 발휘할 수 있도록 유지관리와 점검이 정확하게 이루어져야 하지만, 실제 화재발생시 연기감지기의 작동지연 및 부작동 등 신뢰성 저하로 인하여 인명 및 재산 피해가 줄어들지 않고 있다.
본 연구에서는 이러한 기존 감시시스템이 갖고 있는 신뢰성 및 속응성 문제를 해결하고자 영상 전처리 및 합성곱 신경망 모델을 이용한 화재감지 접근방법을 구상하였다. 이때 화재 이미지를 화염, 연기, 연무 세 가지로 나누어서 학습을 진행한다. 그리고 이렇게 학습된 모델에 대해 테스트 영상으로부터 영상 전처리과정을 거쳐 영상 내에서 움직임이 발생한 영역을 관심영역으로 사용하여 화재 여부에 대해 추론하게 된다. 이를 통해 화재 시 화염이나 연기를 감지하게 되고, 연무가 형성된 실내 이미지를 학습한 모델은 실내 전체 영역에 대해 연무 형성 여부를 감지할 수 있도록 함으로써 화염이나 연기의 움직임과 달리 객체를 감지하기 어려운 연무 형태의 화재가 발생하여도 화재를 감지할 수 있도록 하였다.

2. 기존 화재감지기 및 컴퓨터 비전분야에서의 관련 연구동향

현재 일반적으로 사용하는 화재감지기는 크게 3가지로 열감지기와 연기감지기 그리고 불꽃감지기가 있다. 열감지기의 경우 대표적으로 차동식스포트형감지기가 사용되고 있으며, 급격한 온도 상승 시 작동하는 것으로 일국소에서의 열효과에 의해 작동되는 감지기이다. 차동식은 완만한 온도 상승 시 작동하지 않기 때문에 비화재보 방지 기능이 있지만 훈소화재에 적응성이 없다는 단점이 있다.
연기감지기의 경우 대표적으로 광전식연기감지기가 사용되고 있으며, 빛을 발하는 송광부와 이를 수신하는 수광부로 구성되어있다. 빛의 감쇄 원리를 이용하여 넓은 공간이나 긴 공간에 사용하기 적합하고, 일시적인 연기 등에 동작하지 않아 비화재보 방지 효과가 있지만 특수장소에 설치되어 유지관리에 어려움이 있으며, 발광부 및 수광부의 오염 시 비화재보의 문제가 발생할 수 있다.
불꽃감지기는 Fig. 2와 같이 자외선(ultra violet, UV)과 적외선(infra red, IR) 감지방식으로 나누어지며 자외선불꽃 감지기의 경우 0.09~0.38 ㎛의 방사에너지를 검출하는 감지기로 물체에 빛이 조사될 때 여기전자(excitation electron)를 진공 중으로 방출시키는 광전자 방사 원리를 이용한다. 하지만 자외선방식의 불꽃감지기는 파장이 짧은 자외선을 감지하기 때문에 연기나 공기 중 부유물에 의해서도 자외선이 흡수되므로 감도에 대한 신뢰성이 떨어지는 문제점이 있다. 또한 아크, 스파크 등 단파장에 비화재보가 발생할 수 있고, 연기 농도가 높을수록 동작에 어려움이 있다.
적외선불꽃감지기의 경우는 0.78~5 ㎛의 복사에너지를 감지하여 동작하는 방식으로 감지센서로 초전체를 많이 사용한다. 광학 필터를 사용하는 경우 연소생성물의 이산화탄소에서 발생하는 4.4 ㎛ 부근의 이산화탄소 공명방사를 이용한다. 따라서 긴 파장대를 이용하는 특성으로 인하여 공기 중 부유물에 대해 거의 영향을 받지 않는 장점이 있다. 하지만 반대로 이산화탄소가 발생하지 않는 화재 시에는 비 적응성을 갖고 있다. 이외에도 오보를 줄이기위한 UV/IR 혼합형 불꽃감지기가 존재하지만 자외선 방식의 단점인 오염으로부터 약하다는 문제가 개선되어야 한다. 따라서 최근에는 3가지 파장을 감지하는 센서를 장착한 IR3센서를 사용하고 있고, 좀 더 신뢰성 개선을 위해 IR4, IR5 등과 같은 형태로도 제작이 가능하지만 비용의 문제가 있다(Baek, 2014).
이러한 기존의 화재감지 시스템의 한계를 보완하고자 컴퓨터 비전분야에서의 화재감지에 관한 기존연구로는 Wang et al. (2016)이 연구 발표한 광학 흐름(optical flow)과 이미지의 질감 특성에 기초한 화재연기 감지 알고리즘을 제안하였다. 영상에 대해 가우시안 혼합 모델링(Gaussian mixture model)과 배경차분을 통해 유동하는 물체를 검출후보로 추출하게 되고, 이러한 연기 특성추출을 통해 연산부하를 크게 감소시킬 수 있게 되었다. 또한 검출된 후보영역에 대해 Local binary pattern (LBP) 및 Local binary pattern variance (LBPV) 기법을 통해 해당 영역의 질감 특성을 추출하고, 이미지 피라미드에 기초한 광학 흐름기법을 통해 움직임 특성을 추출하게 된다. 이렇게 추출된 두 가지 특성을 최종적으로 Support vector machine (SVM)을 통해 연기인지 판단하게 된다.
또 다른 연구로 Kong et al. (2016)이 발표한 영상 내에서 색상의 성분비율과 움직임 특성을 적용해 화재를 검출하는 연구를 하였다. 영상 이미지의 YCbCr 색공간의 색상 성분비율을 로지스틱 회귀분석을 통해 화재일 확률을 분석하고 설정된 임계값을 넘게 될 경우 화재로 분류하는 방법을 사용하였다. 이 모델은 화재발생 후 평균 탐지시간이 1.81초 정도로 빠르고 기존에 연구된 컴퓨터 비전분야에서의 화재감지 모델들보다 감지속도대비 오작동비율이 상당히 줄어들었다.

3. 이론적 배경

3.1 기계학습 알고리즘

퍼셉트론은 동물의 뉴런을 본떠 만든 이론으로 다수의 신호를 입력받아 일정 임계값에 의한 하나의 출력신호를 내보낸다. Fig. 3을 통해 퍼셉트론의 동작을 설명하면 먼저 입력값(x1, x2, x3, ..., xn)과 가중값(w1, w2;, w3, ..., wn)을 요소별로 곱한 값들의 합인 h를 아래의 Eq. (1)과 같이 계산한다.
(1)
h=i=1nwixi
다음으로 활성화함수(activation function)를 이용하여 출력값을 구하게 되고, Eq. (2)를 이용하여 h를 임계값(θ)과 비교하여 임계값을 넘을 경우 출력값이 활성화되게 된다.
(2)
output=g(h)={1ifh>θ0ifhθ
이러한 퍼셉트론의 동작 원리는 먼저 초기 가중값을 0 또는 임의의 작은 숫자로 초기화하여 시작한다. 이를 통해 출력되는 모델의 가설 값과 실제 정답 사이의 손실을 계산하여 최종적으로 오차에 따른 손실이 작아지는 방향으로 수렴(convergence)하거나 최대 반복 수에 도달할 때까지 가중값을 업데이트하는 과정을 반복한다.
기계학습은 기존의 명시적 프로그래밍(limitations of explicit programming)으로 예측하기 힘든 한계를 극복할 수 있었으며, 기계 스스로 많은 데이터로부터 패턴 분석을 통해 분류나 회귀, 군집 학습을 하게 되었다(Tang, 2015; Lim, 2017).

3.2 딥러닝

딥러닝은 컴퓨터가 스스로 반복 학습을 통해 데이터를 정의하는 인공신경망(artificial neural network, ANN) 기반의 기계학습 분야 중 하나이다. 신경망 계층이 다층구조로 이루어져 심층신경망(deep neural network, DNN)이라고도 하며, 입력층(input layer)과 출력층(output layer) 사이에는 한 개 이상의 은닉층(hidden layer)을 포함한다. 일반적인 심층신경망의 예시는 Fig. 4와 같다.
과거의 딥러닝은 과적합(overfitting)문제나 학습 연산에 필요한 많은 시간 등으로 인해 인공신경망의 층을 깊게 쌓기에는 비용적 제약이 커 활용도가 높지 않았으나, 현재는 하드웨어의 성능대비 가격하락과 그래픽처리장치의 병렬처리 기법의 개발을 통해 심층신경망형태의 깊은 학습을 실행하기에 용이해졌다.
특히 본 논문에서와 같이 컴퓨터 비전분야에서의 적용을 위해 영상 및 이미지로부터 전처리 분석 및 학습을 위해서는 고성능의 하드웨어가 필수적으로 요구되었으나, 현재는 개인용 컴퓨터 수준의 사양으로도 충분히 구동이 가능해졌다(Kim, 2016; Jung et al., 2018).

3.3 합성곱 신경망

합성곱 신경망은 딥러닝 분야에서 이미지인식뿐만 아니라 음성인식 등 다양한 곳에서 사용되고 있다. 합성곱 신경망은 이미지로부터 추상화된 특징을 추출하는 최적의 방법으로 2012년에 ILSVRC (imagenet large scale visual recognition challenge)를 통해 기존 인공지능 모델들의 성능을 압도적으로 뛰어넘으며 그 성능을 검증하였다. 기존에 사용된 신경망은 인접하는 계층의 모든 뉴런이 결합된 Affine 계층이라는 이름으로 구현된 완전연결(fully connected) 형태이었다. Affine 계층구조는 1차원 데이터만을 입력받기 때문에 3차원 데이터를 1차원으로 변환하여 입력해야 한다. 이때 3차원 데이터의 공간적 특징정보가 소실되는 문제가 발생하게 되고, 합성곱 신경망은 인접한 픽셀 간의 특징을 유지하며 3차원 정보를 그대로 처리하기 때문에 픽셀의 공간적 특징을 유지할 수 있게 된다. 합성곱 연산은 이미지 내의 모든 픽셀에 대해 반복을 통해 처리하게 되며 합성곱 필터의 개수가 많아질수록 다양한 특징을 추출할 수 있다. 합성곱 계층은 Fig. 5와 같이 입력된 이미지로부터 합성곱을 수행하여 계층의 특징을 추출한다. 합성곱 연산을 통해 추출된 특징은 다시 특징맵(feature map) 위에 올려지게 된다.
그리고 풀링 계층을 통해 특징맵의 크기를 줄이는 다운 샘플링(down sampling)과정을 거치게 된다. 2차원 이미지(H × W)에 대해서 FH × FW 크기의 필터를 모든 위치에서 합성곱연산이 될 수 있도록 이동시키고, 스트라이드(S)와 패딩(P)을 적용하여 출력되는 특징맵의 크기(OH × OW)는 Eq. (3)과 같이 주어진다.
(3)
(OH,OW)=(H+2P-FHS+1,W+2P-FWS+1)

3.4 Faster R-CNN

딥러닝기법을 기반으로 하는 이미지 인식 모델로는 구글(google)의 Inception V3나 Mobilenet과 같은 합성곱 신경망 기반의 이미지 분류 모델들도 뛰어난 정확도를 보이고 있지만, 최근에는 더 나아가 이미지 내에서 여러 개의 객체가 존재하는 위치영역 정보와 객체들의 종류를 다중으로 추론하는 Region-convolutional neural network (R-CNN)이나 Single shot multibox detector (SSD)와 같은 객체검출(object detection) 알고리즘들이 연구되고 있다. 대표적으로 기존의 R-CNN을 보완한 Faster R-CNN은 객체가 존재할 것으로 판단되는 관심영역을 제안하는 region proposal 과정으로 인한 연산 지연을 개선하고자 Region proposal network(RPN)이라 불리는 망(network)을 추가하여 그 결과를 RoI 풀링계층으로 전달하도록 한다. 또한 이미지 내에서 객체를 탐색하는 과정은 Fig. 6과 같이 ×픽셀 크기에 그림 중간과 같이 9가지 비율의 앵커 박스(anchor boxes)를 이미지 평면상에서 이동하며 객체가 있을 가능성이 있는 특징을 탐색해 나가게 되고, reg layer와 cls layer를 통해 각각 4가지 좌표 값과 유효한 객체일 확률을 측정하게 된다.
이러한 딥러닝 기반의 객체검출기법은 이미지 내에서 객체의 위치뿐만 아니라 겹쳐져있는 객체에 대한 추론도 가능한 장점이 있어, 컴퓨터 비전 분야에서 한계로 여겨졌던 고속 객체검출 문제를 크게 개선 시킨 연구결과로 볼 수 있다(Ren et al., 2015; Kim et al., 2018).

3.5 드롭아웃

심층신경망을 통해 이미지 데이터들을 학습할 때, 데이터셋을 소량으로 사용하는 경우 학습하고자 하는 객체에 대한 인공지능모델의 이해도와 정확도가 떨어지는 과적합 문제가 발생할 수 있다.
이를 해결하기 위해 드롭아웃(dropout)기법을 사용하였는데, 드롭아웃은 미세조정(fine-tuning) 단계에서 적용되는 기법으로 Fig. 7과 같이 학습이 진행될 때 전체 노드 중 50~80% 정도에 이르는 노드의 가중값을 0으로 만들어 탈락시킨 후 학습하게 된다. 이렇게 학습을 진행하면 정규화(regularization) 효과를 가져 정확도가 향상되게 된다(Srivastava et al., 2014).

4. 인공지능을 이용한 화재감지 연구

Fig. 8은 본 연구에서 사용된 인공지능 모델의 학습 및 추론에 대한 전체 흐름도이다. 그림 상단 부분은 이미지 데이터의 학습 과정으로, 사용된 데이터셋의 종류는 Fig. 9와 같이 좌측부터 화염(flame), 연기(smoke) 그리고 연무(haze) 데이터셋으로 나누어서 분류하였다.
연구 초기에는 화재를 감지하기 위해 불꽃과 연기에 대한 데이터셋을 수집하여 학습을 진행하였다. 그러나 실제 화재영상 초기에 불꽃이나 연기의 유동도 보이지만 실내공간 안에 안개 즉, 연무의 형태로 연기가 옅게 퍼지며 화재가 진행되는 것을 확인할 수 있었다.
따라서 이러한 다양한 성상으로부터 화재를 감지하고자 Fig. 9의 좌측과 같이 화재에서 일반적으로 보이는 화염데이터셋과 연기가 확산되는 형태가 보이는 연기데이터셋 그리고 실내전체에 천천히 연기가 퍼진 연무 형태의 데이터셋 3가지로 구분해 수집하였다. 그리고 사용된 데이터셋의 수는 Table 1에 나타낸다.
각각의 데이터셋은 순수한 학습에 필요한 학습셋(train set)과 학습도중 모델의 정확도를 평가하기 위한 검증셋(validation set)으로 10대2 비율로 나누어 학습을 진행하였다.
완료된 학습모델에 대해 실제 추론 수행은 Fig. 8의 하단과 같다. 화염이나 연기는 영상 내에 유동적인 움직임이 존재하므로 영상 전처리기법을 통하여 움직임이 발생한 영역에 대해서만 관심영역으로 추출하여 학습된 합성곱 신경망 모델을 이용해 화염이나 연기에 해당되는지 추론을 하도록 하였다.
하지만 연무 형태의 데이터셋을 학습한 모델은 관심영역이 아닌 영상 전체영역에 대해 연무 형성 여부를 추론하는 방식으로, 두 가지 검출방법의 차이를 두고 진행하였다.

4.1 영상차분을 통한 후보영역 검출

입력 영상으로부터 화재를 검출하고자 할 때 영상 내에는 찾고자 하는 화재에 해당되는 객체 이외의 여러 사물들이 존재할 수 있으므로 전경영상과 배경영상의 분리가 필요하다. 따라서 본 연구에서는 입력 영상으로부터 일정 시간차를 두고 두 프레임을 영상차분(image difference)하여 영상 내에서 움직임이 발생한 부분을 관심영역으로 사용하였다. Eq. (4)는 일정간격 프레임에 대해 차분을 통해 관심영역을 구하는 식이다.
(4)
RoI(x,y)={1,|(F1(x,y)-F2(x,y))|T0,otherwise
F1은 처음 저장된 영상 프레임이고 F2는 일정 시간 뒤의 영상 프레임으로 두 개의 차분을 통해 임계값(threshhold) T보다 큰 경우 움직임이 발생한 영역으로 판단하여 관심영역으로 사용되게 된다. 영상차분을 수행하기 전 각 프레임은 카메라의 센서나 디지털 처리 과정 중 발생하는 노이즈들로 인해 발생한 미세한 변화도 움직임으로 간주할 수 있으므로 이를 가우시안 혼합 모델링(Gaussian mixture model)을 통해 해결하였다.
Fig. 10의 좌측은 영상 전처리기법을 통해 움직임이 발생한 영역으로 검출후보로 추출하고자 하는 원본영상의 한 장면이고, 이를 일정시간 간격을 두고 차분을 한 데이터를 가우시안 필터링을 수행한 결과가 우측에 해당한다. 영상 내에서 변화가 클수록 밝게 나타나고, 작을수록 어둡게 나타난다. 여기서 영상 내에서 노이즈일 수 있는 작은 변화들은 설정된 임계값에 의해 무시된다.
가우시안 필터를 이용한 혼합 모델링 방법은 영상의 강도 변화를 정확하게 나타낼 수 있는데, K개의 가우시안분포로 모델링 되는 경우 휘도값 Xt의 확률은 Eq. (5)와 같다.
(5)
P(Xt)=j=1Kwjtη(Xt,μjt,σjt)
여기서, wjtμjt은 시간 t일 때 j번째 가우시안 분포의 가중치를 나타내며, σjt은 확률밀도함수를 정의하는 파라미터이다. η(Xt, μjt, σjt)는 가우시안 확률 분포함수를 나타내고, Eq. (6)과 같이 표현한다.
(6)
η(Xt,μjt,σjt)=12πσjte-12(σjt)2(Xt-μjt)2
K개의 가우시안 혼합을 배열하였을 때 wjt/σjt의 크기에 따라 Eq. (7)을 만족하면 배경 모델로 사용된다.
(7)
B=argminb(j=1bwj>T)
이때 임계값 T는 배경 모델의 최소 비율에 해당된다 (Zivkovic, 2004; An and Kang, 2010; Hu and He, 2016).
관심영역은 Fig. 11과 같이 임계값 이하에서 필터링된 픽셀들이 확대되고 인접한 픽셀들이 합성되어 만들어진다. 그림 우측에 보이는 것이 최종적으로 움직임이 발생한 관심영역을 검출후보로 빨간색 바운딩 박스(bounding box)로 처리하여 나타내었다.

4.2 연구에서 사용된 합성곱 신경망 모델

본 연구에서 합성곱 신경망 모델을 구현하기 위해 인터프리터 방식의 프로그래밍 언어인 파이썬(python)을 사용하였고, 오픈소스 라이브러리인 케라스(keras)를 통해 신경망을 구성하였다. 과거 케라스는 텐서플로우(tensorflow)와 함께 연구자들이 가장 많이 쓰는 인공신경망 알고리즘 라이브러리였으나 현재 케라스는 텐서플로우와 통합되어 사실상 텐서플로우를 기반으로 라이브러리가 작동된다. 케라스와 텐서플로우 이외에 테아노(theano), 토치(torch) 등이 있으나, 합성곱 신경망을 구현하기에 가장 직관적인 모델인 케라스를 이용하였다.
합성곱 신경망 계층은 Table 2와 같이 구성하였으며, 입력 이미지의 크기는 150 × 150 (pixel)크기에 3가지 RGB컬러로 구성된 일반적인 포맷의 이미지 파일을 데이터셋으로 사용하였다. 본 연구에서는 총 13개의 합성곱 계층을 사용하였고 계층 사이에는 다운 샘플링이 목적인 풀링 계층이 존재하도록 설계하였다. 또한 학습 중 발생할 수 있는 과적합 문제를 줄이고자 합성곱-풀링계층 마지막 단에는 50%의 노드 가중값 탈락률을 갖는 드롭아웃을 추가하였고, 최종계층의 활성화함수는 시그모이드를 사용하여 찾고자하는 객체인지 아닌지 두 가지로 분류하도록 설계 하였다.

4.3 합성곱 신경망 모델의 학습 및 검출결과

Fig. 12는 화염데이터셋에 대한 합성곱 신경망 모델의 학습결과 정확도와 손실을 보여주는 그래프이다. 파란색 곡선은 학습 데이터셋을 학습하고 다시 학습 데이터셋으로부터 분류에 대한 정확도와 정답에 대한 신경망 모델의 오류 지표인 손실을 그래프로 나타낸 것이다. 일반적으로 정확도가 증가할수록 손실은 반비례하여 줄어들게 된다. 주황색 곡선은 학습에 영향을 주지 않는 검증 데이터셋을 통해 정확도와 손실을 평가한 것이다. 이때 학습 데이터셋의 정확도는 높은데 검증 데이터셋의 정확도가 낮게 나타나 차이가 큰 경우 과적합이 나타난 것으로 볼 수 있으며, 학습과 검증 데이터셋의 정확도가 유사하게 나타날 때는 과적합 없이 학습이 잘 진행되는 것으로 볼 수 있다. 또한 정확도와 손실의 수치가 일정 수준에 머무르고 수렴하는 학습 횟수에서 학습을 종료하도록 하였다. Figs. 1314는 각각 연기와 연무데이터셋을 학습한 결과를 보여주는 그래프로 연기보다 연무데이터셋에 대한 학습 정확도가 빠르게 도달하여 화염이나 연기데이터셋 보다 조기에 학습을 종료하였다.
Fig. 15는 학습한 합성곱 신경망 모델의 평가를 위해 영상으로부터 움직이는 영역을 관심영역으로 추출하여 해당 영역의 화염 여부를 추론한 결과를 나타낸다. 추출된 영역은 합성곱 신경망을 통해 학습된 모델에 입력되어 추론을 하게 된다. 이때 화염으로 판단되면 빨간색 바운딩 박스로 나타내게 하고 화염이 아닐 경우 파란색 바운딩 박스로 나타나게 하였다. Fig. 16은 영상 내에서 연기를 검출한 것으로 화염의 추론과 마찬가지로 추출된 관심영역이 연기일 경우 빨간색 바운딩 박스로 나타내고 움직인 물체가 사람이나 다른 객체일 경우에는 파란색 바운딩 박스로 나타낸다.
Figs. 1718은 실내 전체 영역에 대해 연무의 형성 여부를 추론한 결과로써, 영상으로부터 별도의 관심영역 추출을 하지 않고 입력 이미지가 연무가 형성된 실내인지 판단한 결과를 보여주고 있다. Fig. 17은 연무가 형성된 실내 이미지의 추론 결과 중 일부이며 합성곱 신경망 모델로부터 연무가 형성된 추론 결과를 나타낸다. Fig. 18은 연무가 형성되지 않은 실내 이미지가 주어졌을 때 연무가 형성되지 않음을 추론한 결과를 보여주고 있다.

4.4 검출결과에 대한 정확도 평가

합성곱 신경망 모델을 통한 화염 및 연기 그리고 연무 검출결과의 객관적인 평가를 위해 Eq. (8)의 정확도, Eq. (9)의 정밀도 그리고 Eq. (10)을 통해 검출율을 구하였다.
(8)
Accuracy=TP+TNTP+FN+FP+TN
(9)
Precision=TPTP+FP
(10)
Recall=TPTP+FN
True positive (TP)는 영상 관심영역 내에서 화재가 존재하는 경우에 대해 인공지능 모델이 해당 객체로 올바르게 판단한 횟수에 해당되고, False negative (FN)은 화재가 존재하지만 인공지능 모델이 화재가 아닌 것으로 잘못 판단한 경우에 해당된다. False positive (FP)는 화재와 관련이 없는 영상에서 인공지능 모델이 화재로 잘못 판단한 경우, True negative (TN)는 화재가 아닌 것으로 올바르게 판단한 경우이다.
Table 3은 화재영상으로부터 움직임을 검출하여 화염으로 합성곱 신경망 모델이 올바르게 판단한 횟수와 비화재영상으로부터 화염으로 검출한 횟수를 기록한 것이다. 영상 하나당 모델이 추론한 장면들 중 50장씩 임의로 선별하여 올바르게 추론하였는지 확인하였다.
마찬가지로 연기가 발생되는 화재영상과 비화재영상에 대해서도 50장씩 선별하여 올바르게 추론하였는지 Table 4에 기록하였다. Table 5는 연무 이미지와 연무가 아닌 이미지에 대한 추론 결과를 기록하였다. 이를 통해 Eqs. (8 - 10)을 이용하여 평가지표들을 구하게 되면 영상에서의 화염감지는 정확도 92%, 정밀도 93% 그리고 검출율은 90.8%를 기록하였고, 연기이미지의 감지 정확도는 87.8%, 정밀도는 91.3% 그리고 검출율은 83.6%를 보여주었다. 그리고 연무감지의 경우는 정확도 97%, 정밀도 96.1% 그리고 검출율은 98%로 나타났다. 화염 및 연기이미지의 경우 이미지 전체의 특징을 이해해야 하는 연무이미지보다 상대적으로 낮은 정확도와 정밀도를 보였다. 이는 Wang et al. (2016)이 제안한 연기검출 방법에서 평가용 영상으로부터 평균 86.6%, Kong et al. (2016)은 96%에 이르는 연기 검출율을 나타내고 있지만, 본 연구에서는 연기뿐만 아니라 화염과 연무 형태의 화재도 검출이 가능하므로 다양한 화재 성상으로부터 화재감지가 가능하다는 장점이 있다.

5. 결 론

최근 합성곱 신경망 기반의 이미지 분류모델뿐만 아니라 이미지 내에 객체에 대한 위치영역 정보까지 예측하는 객체검출 모델들 또한 꾸준히 개발되고 있다. 하지만 본 연구에서는 영상차분을 통하여 움직이는 객체를 관심영역으로 추출하여 이를 합성곱 신경망으로 화재 여부를 추론하도록 하였다. 따라서 기존 객체검출기법들이 픽셀 전체에 대해 객체가 있을 것으로 추정되는 위치영역을 검색하면서 발생되는 하드웨어의 연산 소모를 줄일 수 있도록 하였다.
이러한 영상 전처리를 통해 관심영역에 대한 화염 및 연기 검출을 하였으며, 추가로 실제 화재발생 시 카메라 영상에서 화염이나 연기의 움직임을 포착하지 못할 수 있으므로 이를 보완하고자 전체 영역에 대해 연무 형태의 연기 형성 여부 또한 검출 할 수 있도록 하였다. 연기검출의 경우 화염과 달리 빛을 투과하여 반투명적인 특성이 있으므로 감지의 어려움이 있고, 이로 인하여 화염의 검출보다는 다소 정확도가 떨어지는 결과를 볼 수 있었다. 연구 초기에는 화염, 연기, 연무 세 가지 유형 중 영상의 전체 영역에 대한 특징을 이해해야 하는 연무감지가 가장 정확도가 낮고 학습에 어려움이 있을 것으로 예상하였으나, 학습 과정에서도 가장 빠르게 낮은 손실과 높은 정확도에 수렴하였고, 실제 검출결과에서도 높은 정확도와 정밀도를 보였다.
이를 통해 딥러닝 기반의 합성곱 신경망 모델이 단순히 사물의 형태를 학습하는 것만이 아닌 이미지의 상황이나 분위기를 학습하는 것에도 유용함을 보여주었다. 향후 추가적인 연구를 통해 데이터셋의 보강, 모델의 추론 결과에 대한 확률의 임계값 설정 조정이나 추가적인 조건을 부여한다면 높은 정확도와 정밀도가 예상된다. 또한 딥러닝 기반의 화재감지기술을 드론과 같은 무인비행체를 통해 활용한다면 넓은 범위의 영역에 대해 효과적으로 감시할 수 있어 화재로부터 재산과 인명을 지키는데 큰 도움이 될 것으로 기대된다.

Fig. 1
Fire Dispatch and Misconception Dispatch Statistics for 2013–2016
kosham-20-1-223f1.jpg
Fig. 2
Structure of Flame Detector
kosham-20-1-223f2.jpg
Fig. 3
Structure of Perceptron
kosham-20-1-223f3.jpg
Fig. 4
Example of Deep Learning Structure Including Hidden Layer
kosham-20-1-223f4.jpg
Fig. 5
Feature Map Generation Through Composite Product Layer Operations
kosham-20-1-223f5.jpg
Fig. 6
RPN Layer of Faster R-CNN
kosham-20-1-223f6.jpg
Fig. 7
Structure of Dropout
kosham-20-1-223f7.jpg
Fig. 8
Proposed Fire Detection Procedure
kosham-20-1-223f8.jpg
Fig. 9
Type of Dataset Used for Fire Detection
kosham-20-1-223f9.jpg
Fig. 10
Gaussian Mixture Modeling Results
kosham-20-1-223f10.jpg
Fig. 11
Determination of Region of Interest
kosham-20-1-223f11.jpg
Fig. 12
Graph of Learning Accuracy and Loss of Flame Dataset
kosham-20-1-223f12.jpg
Fig. 13
Graph of Learning Accuracy and Loss of Smoke Dataset
kosham-20-1-223f13.jpg
Fig. 14
Graph of Learning Accuracy and Loss of Haze Dataset
kosham-20-1-223f14.jpg
Fig. 15
Motion Detection Process and Flame Detection Result in Video
kosham-20-1-223f15.jpg
Fig. 16
Motion Detection Process and Smoke Detection Result in Video
kosham-20-1-223f16.jpg
Fig. 17
Predict Results for Indoor Images with Haze
kosham-20-1-223f17.jpg
Fig. 18
Predict Results for Indoor Images Without Haze
kosham-20-1-223f18.jpg
Table 1
Number of Datasets Used for Fire Detection
Dataset Train set Validation set
Flame 10,102 2,000
Smoke 10,048 2,000
Haze 10,000 2,000
Table 2
Composition of Convolutional Neural Network Used for Learning
Layer Size Kernel size Activation
Input Image 150 × 150 × 3 - -
2 × Convolutional 150 × 150 × 64 3 × 3 ReLU
MaxPooling 75 × 75 × 64 2 × 2 -
2 × Convolutional 75 × 75 × 128 3 × 3 ReLU
MaxPooling 37 × 37 × 128 2 × 2 -
3 × Convolutional 37 × 37 × 256 3 × 3 ReLU
MaxPooling 18 × 18 × 256 2 × 2 -
3 × Convolutional 18 × 18 × 512 3 × 3 ReLU
MaxPooling 9 × 9 × 512 2 × 2 -
3 × Convolutional 9 × 9 × 512 3 × 3 ReLU
MaxPooling 4 × 4 × 512 2 × 2 -
Dropout 50% - -
FullyConnected 1 × 256 - Sigmoid
Table 3
Predict Evaluation for Flame and Non-flame Videos
Model Flame video Predict (TP) Non-flame video Predict (FP)
Flame dataset Video 1 42/50 Video 1 2/50
Video 2 48/50 Video 2 3/50
Video 3 48/50 Video 3 2/50
Video 4 43/50 Video 4 6/50
Video 5 46/50 Video 5 4/50
Table 4
Predict Evaluation for Smoke and Non-smoke Videos
Model Smoke video Predict (TP) Non-smoke video Predict (FP)
Smoke dataset Video 1 44/50 Video 1 5/50
Video 2 40/50 Video 2 6/50
Video 3 42/50 Video 3 4/50
Video 4 38/50 Video 4 2/50
Video 5 45/50 Video 5 3/50
Table 5
Predict Evaluation for Haze and Non-haze Images
Model Haze image (TP) Non-Haze image (FP)
Haze dataset 49/50 2/50

References

An, MS, and Kang, DS (2010) A method of detecting moving region using adaptive image difference. Journal of Korean Institute of Information Technology, Vol. 8, No. 1, pp. 65-70.
crossref
Baek, DH (2014) A study on the improvement for sensitivity test of flame detectors. Fire Science and Engineering, Vol. 28, No. 6, pp. 58-61.
crossref pdf
Hu, X, and He, C (2016) Moving object detection algorithm based on Gaussian mixture model and HSV space. British Journal of Applied Science & Technology, Vol. 14, No. 6, 10.9734/BJAST/2016/24249.
crossref pdf
Jung, SH, Lee, DE, and Lee, KS (2018) Prediction of river water level using deep-learning open library. J Korean Soc Hazard Mitig, Vol. 18, No. 1, pp. 1-11.
crossref
Kim, DH (2016) Acquiring real time traffic information using deep learning neural networks. Asia-pacific Journal of Multimedia Services Convergent with Art Humanities, and Sociology, Vol. 6, No. 5, pp. 435-444.
crossref
Kim, JJ, Ryu, JK, Kwak, DK, and Byun, SJ (2018) A study on flame detection using faster R-CNN and image augmentation techniques. Journal of Institute of Korean Electrical and Electronics Engineers, Vol. 22, No. 4, pp. 1079-1087.
crossref
Kong, SG, Jin, D, Li, S, and Kim, H (2016) Fast fire flame detection in surveillance video using logistic regression and temporal smoothing. Fire Safety Journal, Vol. 79, pp. 37-43.
crossref
Lim, TW (2017). A study on deep learning based malware detection using executable file visualization and word2Vec. Master’s thesis. Sungkyunkwan University.
crossref
Ren, S, He, K, Girshick, R, and Sun, J (2015) Faster R-CNN: Towards real-time object detection with region proposal networks. Computer Vision and Pattern Recognition, pp. 1-13 arxiv:1506.01497v3.
crossref
Srivastava, N, Hinton, G, Krizhevsky, A, Sutskever, I, and Salakhutdinov, R (2014) Dropout: A simple way to prevent neural networks from overfitting. Journal of Machine Learing Research, Vol. 15, pp. 1929-1958.
crossref
Tang, Y (2015). Deep learning using linear support vector machines. International Conference on Machine Learning 2013: Challenges in Representation Learning Workshop. pp. 1-6 arXiv:1306.0239v4.
crossref
Wang, Y, Wu, A, Zhang, J, Zhao, M, Li, W, and Dong, N (2016). Fire smoke detection based on texture features and optical flow vector of contour. 2016 12th World Congress on Intelligent Control and Automation (WCICA). pp. 2879-2883.
crossref
Zivkovic, Z (2004) Improved adaptive Gaussian mixture model for background subtraction. Proceedings of the 17th International Conference on Pattern Recognition, Vol. 2, pp. 28-31.
crossref


ABOUT
ARTICLE CATEGORY

Browse all articles >

BROWSE ARTICLES
AUTHOR INFORMATION
Editorial Office
1010 New Bldg., The Korea Science Technology Center, 22 Teheran-ro 7-gil(635-4 Yeoksam-dong), Gangnam-gu, Seoul 06130, Korea
Tel: +82-2-567-6311    Fax: +82-2-567-6313    E-mail: master@kosham.or.kr                

Copyright © 2024 by The Korean Society of Hazard Mitigation.

Developed in M2PI

Close layer
prev next