3.1 데이터 평가 모델 구축
먼저 양질의 화재영향인자를 선정하기 위해 평가 기준을 제시하였다. 즉, 문헌 자료 및 소방청 화재통계 데이터를 통해 보편적이고 객관적으로 적용될 수 있다고 판단된 평가 항목을 모아 재구성하여 평가기준을 작성하였으며, 평가 기준의 검증을 위해 다수의 화재영향인자를 적용하였다. 그 결과, 현실적으로 의미가 없거나 평가하기 어려운 항목은 수정하거나 삭제 및 개선하여 최종 평가 기준을 수립하였다.
최종 선정된 평가 기준을 사용하여
Lee (2014)에서 언급되어진 바와 같이 데이터 평가 모델을 구축하였다.
Fig. 3과 같이 평가 모델의 적용과정을 단계별로 정리하면 아래와 같다.
(1) 소방청 및 국가화재정보시스템을 통해 화재 발생요인을 분석하여 화재와 연관성이 있는 화재영향인자를 선정한다.
(2) 국가공공데이터포털 및 국가통계포털 등 여러 공공데이터포털을 이용하여 화재영향인자를 제공하는 데이터베이스를 구축한다.
(3) 데이터 평가 기준을 통해 선정된 화재영향인자에 대한 평가를 진행한다. 평가의 범주는 연관성, 호환성, 지속성, 생산성으로 구분하여 평가하며, 평가 기준에 따라 객관적 데이터 품질 검사를 진행한다.
(4) 데이터 평가에 의해 최종 선정된 양질의 화재영향인자를 데이터 전처리 과정을 거쳐 화재예측플랫폼에 적용한다.
3.2 데이터 평가 기준 선정
화재영향인자 데이터를 선정하기 위해 총 4가지의 기준을 확립하였고, 4가지 선정기준은 데이터의 연관성, 지속성, 호환성, 생산성으로 구성되어 있다.
첫 번째로 데이터의 연관성의 경우, 화재와 화재영향인자의 연관성을 분석하는 단계로서 화재통계 데이터의 화재원인 분석을 통해 판단하였다.
데이터의 지속성은 데이터가 Open API를 통해 지속적인 자동 업데이트가 가능한 것을 기준으로 판단하였다. 여기서 Open API란 직접 응용 프로그램과 서비스를 개발할 수 있도록 정부나 유관기관에서 공개된 Application Programming Interface (API)를 말한다.
다음으로 데이터의 호환성은 소방청에서 제공하고 있는 화재통계 데이터의 범주는 기본적으로 읍/면/동 단위까지의 데이터로 기준으로 데이터의 호환성을 분석하였다.
마지막으로 데이터의 생산성은 소방청에서 제공하고 있는 화재통계 데이터는 2008년부터 2017년까지 총 10년치 데이터로서 Artificial Intelligence (AI) 반복학습을 위해서는 최소 5년 이상의 데이터가 필요하다.
이러한 선정기준을 통하여 데이터 평가가 이루어지며 평가결과는 우수/양호/보통/미흡 총 4단계로 나누어지며 각각 3/2/1/0점으로 평가된다. 평가된 점수의 합이 9점 이상일 시에는 이를 화재영향인자로 선정하고, 점수 미달 시 인자에서 제외하였다. 여기서 평가 점수 결과의 9점 이상만을 인자로 사용한 이유는 질이 낮은 데이터가 화재예측플랫폼에 포함된다면 질이 높은 데이터로만 구축된 플랫폼에 비해 예측 결과의 신뢰성과 정확성을 떨어뜨릴 수 있기 때문이다.
3.3 화재영향인자 데이터베이스 구축
앞서 진행된 소방청 화재통계 데이터의 패턴을 분석한 결과, 부주의, 전기적 요인의 화재가 전체 화재 건수 중 70%를 차지하는 것과
Min et al. (2018)에서 언급된 초기 화재영향인자 분석을 통해 화재 영향 인자를 선정하였다. 부주의, 전기적 요인의 화재와 연관이 있는 데이터베이스를 구축하기 위해 각종 공공데이터포털을 분석하였으며, 전기 사용량, 가스 사용량, E-지방지표, 건축물 노후도, 노령화 인구, 행정구역별 토지이용률, 가구 및 소득분포, 전국 금연구역 현황의 총 8가지의 데이터베이스를 구축하였다. 특히, 부주의 화재는 인간의 심리적⋅환경적 원인에 따라 발생하는 화재로 이에 대한 통계는 따로 존재하지 않아 E-지방지표, 노령화 인구, 가구 및 소득분포, 전국 금연구역 현황 통계를 포함하였다.
각각의 데이터베이스는 여러 가지의 데이터 요소로 구성되어 있으며, 다양한 공공데이터 포털에서 제공하고 있다. 각 데이터베이스마다 세부적인 데이터 구성과 출처는 다음과 같다.
(1) 전기 사용량은 대지위치와 사용량으로 구성되어 있으며, 건축 데이터 민간 개방시스템에서 제공하고 읍/면/동의 범주로 이루어져 있다.
(2) 가스 사용량은 대지위치와 사용량으로 구성되어 있으며, 건축 데이터 민간 개방시스템에서 제공하고 읍/면/동의 범주로 이루어져 있다.
(3) E-지방지표는 전입인구, 전출인구, 흡연율, 음주율, 스트레스 인지율, EQ-5D 지표, 인구 십만명당 자살율로 구성되어 있으며, 국가통계포털에서 제공하고 시/군/구의 범주로 이루어져 있다.
(4) 건축물 노후도는 건물명, 건축물 구조, 주요용도명, 건물높이, 지상층수, 지하층수, 건물 연령으로 구성되어 있으며, 국가공간정보포털에서 제공하고 읍/면/동의 범주로 이루어져 있다.
(5) 노령화 인구는 60세부터 100세 이상까지를 5세 단위로 구분하고 총 노령인구로 구성되어 있으며, 국가통계포털에서 제공하고 읍/면/동의 범주로 이루어져 있다.
(6) 행정구역별 토지이용률은 전, 답, 과수원, 목장용지, 임야, 광천지, 염전, 대, 공장용지, 학교용지, 주차장, 주유소 용지, 창고용지, 도로, 철도 용지, 제방, 하천, 구거, 유지, 양어장, 수도용지, 공원, 체육 용지, 유원지, 종교용지, 사적지, 묘지, 잡종지로 구성되어 있으며, 국가통계포털에서 제공하고 시/군/구의 범주로 이루어져 있다.
(7) 가구 및 소득분포는 가구분포, 가구원 수, 가구주 연령, 경상소득, 자산, 부채, 순자산액으로 구성되어 있으며, 국가통계포털에서 제공하고 시/도의 범주로 이루어져 있다.
(8) 전국 금연구역 현황은 소재지 지번주소, 금연구역 구분, 제공기관명으로 구성되어 있으며, 공공데이터 포털에서 제공하고 읍/면/동의 범주로 이루어져 있다.