J. Korean Soc. Hazard Mitig Search

CLOSE


J. Korean Soc. Hazard Mitig. > Volume 23(4); 2023 > Article
텍스트마이닝을 활용한 유해화학물질 관련 민원의 주요 토픽 분석

Abstract

Various accident prevention studies and related policies have been developed to ensure public safety when handling and transporting harmful chemical substances. However, these policies primarily focus on improving government-level laws and policies, often overlooking the immediate needs of consumers. Therefore, this study proposed the extraction of meaningful topics and keywords from questions and answers pertaining to the safe handling of harmful chemicals using civil petitions data related to these substances, as posted on the Anti-corruption and Civil Rights Commission platform. The idea is to prioritize these topics in policy formulation. In addition, topic modeling techniques, namely Latent Semantic Analysis and Latent Dirichlet Allocation algorithms, were employed, and the results and implications of each algorithm were compared and analyzed. The main topics identified through the Latent Dirichlet Allocation algorithm were “piping and valve management and inspection,” “manufacturing and storage facility safety,” “outdoor impact assessment,” “damage reduction and accident prevention facility,” and “education and related law.” The results derived from this study are expected to contribute to the development of accident prevention measures by directly addressing the requirements of consumers when it comes to harmful chemical substances.

요지

유해화학물질의 취급 및 운송 과정에서 발생되는 사고로부터 국민의 안전을 보호하기 위하여 다양한 사고예방 연구 및 관련 정책이 수립되고 있다. 하지만, 이러한 사고예방 정책들은 수요자의 직접적인 니즈를 고려하기 보다는 정부차원에서 제시되는 법⋅제도 개선에 주요 초점을 맞추고 있다. 이에 본 연구에서는 국민신문고 상에 게시된 유해화학물질 관련 민원데이터를 활용하여 텍스트마이닝 기법을 수행하였고, 유해화학물질을 안전하게 취급하기 위한 질문 및 답변에서 유의미한 토픽 및 키워드를 추출하여 정책에 우선적으로 반영하고자 하였다. 또한 토픽모델링 기법인 잠재의미분석과 잠재디리클레할당 알고리즘을 적용하였으며 각 알고리즘의 결과 및 시사점을 비교⋅분석하고자 하였다. 잠재디리클레할당 알고리즘을 통해 도출된 주요 토픽은 ‘배관 및 밸브 관리 및 검사’, ‘보관⋅설비 감지’, ‘장외영향평가’, ‘피해저감 및 사고예방시설’, ‘교육 및 관련 법’이었으며, 잠재의미분석 알고리즘으로부터 도출된 결과보다 각 토픽에 속한 단어들 간의 연관성이 더 높게 나타나 토픽을 보다 명확하게 분류가능한 것으로 나타났다. 본 연구로부터 도출된 결과는 향후 유해화학물질 수요자의 요구사항을 정책 및 현장에 직접적으로 반영함으로써 사고예방대책을 수립하는데 기여할 것으로 기대한다.

1. 서 론

1.1 연구의 배경 및 목적

최근 화학산업 및 첨단기술이 발전함에 따라 화학물질의 종류 및 유통량은 꾸준히 증가하고 있다. 화학물질은 다양한 산업에 이용되어 우리의 일상생활 전반에 걸쳐 편리한 생활환경을 조성하는 반면 지속적인 노출로 인해 인체에 악영향을 주기도 한다. 특히, 유해화학물질은 인간에게 위해성 또는 유해성의 우려가 있는 화학물질로 사고발생 시 막대한 인명 및 재산피해를 야기시킨다. 이에 국내에서는 탱크로리, 트레일러, ISO 탱크 등 대량의 유해화학물질을 운송하는 시설에 대하여 정기 점검 소홀, 과속, 도심 우회, 위반단속 부재 등의 위험성에 대해 운전자들에게 경각심을 일깨워줄 수 있는 효과적인 방안을 모색하고 있다. 그러나 이러한 유해화학물질의 사고예방을 위한 정책 및 법령 강화 등의 노력들은 유해화학물질을 취급⋅수송하는 수요자의 실질적인 요구사항을 반영하기보다는 관리자 측면에 초점을 맞춘 방안일 수 있다. 따라서, 유해화학물질에 대한 보다 효율적인 사고예방을 위해서는 먼저 민원인들의 주요 관심사 및 쟁점사항이 무엇인지 분석하는 것이 필요하다.
따라서, 본 논문에서는 국민신문고에 업로드된 2014년 2월부터 2022년 5월까지의 유해화학물질 관련 민원데이터을 통해 잠재의미분석(Latent Semantic Analysis, LSA)과 잠재디리클레할당(Latent Dirichlet Allocation, LDA)의 토픽 모델링 기법을 적용하여 민원의 텍스트에서 잠재되어있는 수요자 중심의 유해화학물질 관련 이슈와 동향을 각 방법론을 통해 도출된 토픽과 키워드를 통하여 분석하고자 하는데 주요 목적이 있다.

1.2 기존문헌 고찰

기존 유해화학물질과 관련된 연구들을 고찰해 보면 사고요인분석, 사고예방 및 대응관리, 모니터링 시스템, 법규 및 제도 등 안전 측면에서의 연구가 주로 수행되어 온 것을 알 수 있다.
Jeon and Kim (2018)은 2014년부터 2017년까지의 유해화학물질 사고 통계자료를 기반으로 운송차량 사고 현황 및 특성을 분석하였다. 70% 사고원인이 관리소홀, 운전미숙이며 사고형태는 누출사고인 것으로 나타났다. 운송사고는 적재된 유해화학물질로 인한 피해때문에 사망자 발생률이 35% 정도로 높은 반면, 부상자 발생률은 5%로 보다 낮은 수치를 보이는 특징이 있다. Jeong and Lee (2020)는 2014년부터 2019년까지 유해화학물질 운송차량사고의 특징을 조사하였다. 이들은 사고의 주요 원인이 차량관리소홀이며 차량유형별로는 탱크로리, 화물트럭, 트레일러 순으로 발생빈도가 높다는 것을 주장하였다. You and Jeong (2014)은 2008년부터 2014년까지 유해화학물질 사고사례를 기반으로 문제점 및 대처방안에 대하여 조사하였다. 유해화학물질 유출사고는 작업장 내에서 발생하는 경우가 가장 높았으며 폭발에 따른 유출사고는 연도별 불규칙적으로 발생한다는 것을 제시하였다. 이에 유관기관의 공조체계 및 통합적인 시스템 구축이 필요할 것으로 판단하였다. Kang et al. (2006)은 미량유기물질 중 오염물질에 대해 섬유⋅화학산업과 전기⋅전자 및 금속조립 산업폐수 각각의 그룹을 대상으로 수질모니터링을 수행하였다. 그 결과, 전기⋅전자 및 금속⋅조립 산업폐수 그룹은 모든 항목이 불검출로, 섬유⋅화학산업 그룹에서는 Hexachlorobutadience, PAH, DI (2-ethylhexyl) phthalate, Naphthalence, Octylphenol 5개 항목만이 1회 또는 2회 검출되었다. Kim and Kang (2006)은 미량유해화학물질이 낙동강 수계에 미치는 유해성을 검토하였다. 분석 결과, 7개 업체로부터 유입수 및 방류수에서 검출되는 VOCs (volatile organic compounds) 중에서는 클로로포름(chloroform)이 가장 높은 빈도로 검출되었으나, EU지정우선물질에 대해서는 검출현황에 대한 일정한 경향을 찾을 수 없는 것으로 나타났다. Yoon et al. (2018)은 항만에서 BTX 물질 중 벤젠과 틀루엔의 누출사고에 대해 피해영향범위 및 개인적 위험도를 분석하였다. 그 결과, 부산 컨테이너 터미널에서 1시간 동안 20톤의 벤젠과 틀루엔 누출 및 노출되었을 경우 모든 사람이 보호조치 불능 또는 회복 불가능한 높은 농도에 노출되었다. Shin and Park (2016)은 유해화학물질의 대량 유출 위험을 사전에 방지하기 위해 공용 주입구 장치 기반의 첨단 시스템을 고안하였다. Lee, Lee et al. (2017)은 유해화학물질의 사고 사례연구를 통한 사고원인 및 문제점을 분석하고 개선방안을 모색하였다. 유해화학물질 사고는 주로 정비⋅보수 작업 시 사상자 발생위험이 크다는 것을 시사하였다. 이에 대비하여 사업장 관리 강화, 안전문화 정착, 처벌 수준 강화 등 다양한 개선책을 주장하였다. Lee, Kim et al. (2017)은 유해화학물질 운반차량 사고발생 예방책을 제시하였다. 운반계획 시스템의 개선사항으로는 모바일앱을 이용한 운반계획 시스템 접속, 이동로 등록 및 수정 등을 제안하였으며 통합 운반차량 관리에 대한 개선방안으로 실시간 추적, 관리 기능 등의 방안을 주장하였다. Seol et al. (2015)은 기존의 위험성 평가 기법과 가이드라인 작성방법에 대한 사전조사를 기반으로 유해화학물질 수송용 탱크 차량을 위한 가이드라인을 제시하였다. 이는 향후 사고의 피해를 최소화하는데 기여될 수 있을 것으로 예상하였다. Jian et al. (2020)은 2013년부터 2018년간 중국의 유해화학물질 운송사고의 특징을 도출하고자 하였다. 그 결과, 사고의 주요 요인은 누출사고이며 특히, 유독물질(고체 및 액체), 폭발물(액체 및 기체)는 긴급 구조 시간에 대해 가장 큰 영향요인인 것으로 나타났다. Wang et al. (2018)은 화학물질안전의 향후 발전에 대한 문제점 및 과제에 대해 분석하였다. 유해화학물질로 인한 안전문제를 개선하기 위해서는 위험도 조사 및 통제, 교육, 경제, 문화, 과학 기술 연구 등을 고려한 포괄적 접근 방식이 필요하다고 주장하였다. Zhang and Zheng (2012)은 중국의 유해화학물질 사고 데이터를 활용하여 방책시설 사고와 운송사고의 특징을 파악하였다. 분석결과, 방책시설 사고는 폭발(48.4%), 누출(41.5%), 화재(10.1%) 사고의 원인 순으로 나타난 반면 운송사고는 누출(79.6%), 폭발(15.1%), 화재(5.3%) 순으로 도출하였다. Zheng et al. (2021)은 유해화학물질 관련 문서에 대한 명명된 개체를 추출하고 유해화학물질 관리 지식 그래프를 구축하고자 하였다. 유해화학물질 관리 온톨로지 아키텍쳐를 설계함으로써 기존 데이터의 저장 방법과 비교하여 지식 그래프는 화학산업 관련 데이터와의 연계를 통해 보다 유용한 지식 서비스를 제공한다는 것을 밝혔다. Winder et al. (2005)은 GHS 도입이 통합된 화학물질 분류 프로세스를 제공함으로써 화학 제품 식별, 평가 및 제거, 제어를 통해 기존 문제에 대해 안전한 건강 및 환경을 조성하는데 반드시 필요한 시스템이다는 것을 주장하였다. Zhu et al. (2021)은 ICFinder의 유비쿼터스 접근법을 통해 중국의 불법 화학시설을 탐지하고자 하였다. 그 결과, 3개월만에 20개의 불법 화학시설을 발견하였으며 이는 지역 전문가들에 의해 검증되었다. Tan et al. (2014)은 sensor network 방법론을 기반으로 유해화학물질 추적 및 위치 파악을 위한 실시간 모니터링 시스템을 개발하였다. 이는 미세한 모니터링 능력과 기술 요구사항을 충족시킴으로써 향후 유해화학물질에 대한 컨테이너 및 운반 차량 분야에서 널리 적용될 수 있다는 것을 증명하였다. Liu et al. (2022)은 LED (Load Edtr Ajectory Detectlon) 프레임워크를 통해 적재된 궤적 감지 결과를 보완함으로써 보다 정확하고 효율적인 감지 시스템을 구축하고자 하였다. 분석결과, LED 감지 정확도는 83%를 초과하여 기존보다 약 42% 이상 우수한 결과를 보였다. Duan et al. (2011)은 중국 유해화학물질로 인한 다양한 사고에 대해 분석하였다. 남동 해안 지역의 사고율은 북서 지역보다 높았으며 유해화학물질 사고는 80%가 중소기업에서 발생하였다는 것을 밝혔다. 일부 사고는 환경오염 사고를 유발하여 인명 및 재산피해를 야기시킨다는 것을 보였다.
기존문헌 고찰 결과, 기존 연구들은 거시적 측면에서 사고분석, 사고예방 두 항목으로 나누어 수행되고 있다는 것을 알 수 있었다. 대부분의 유해화학물질 사고분석 관련 연구는 사고데이터를 기반으로 기초통계분석을 통한 연구가 주로 수행되어 왔으며, 사고예방 관련 연구에서는 사고대응메뉴얼 개발, 차량 추적 및 경로 알고리즘 개발 등 수송안전과 대응방안에 초점을 둔 연구가 진행되어왔다. 이와같이 유해화학물질 사고예방을 위한 연구는 많은 연구자들에 의해 꾸준히 수행되어 왔으나, 사고대책마련 전 유해화학물질 수요자들의 요구사항을 직접적으로 파악하는 연구는 전무하다는 것을 알 수 있었다.
따라서, 본 연구에서는 수요자의 직접적인 토픽 및 정책우선순위를 도출하기 위하여 유해화학물질 수송, 취급 등에 대한 수요자의 질문과 해당 질문에 대한 답변이 텍스트 형태로 작성되어있는 국민신문고의 유해화학물질 관련 민원데이터를 통해 분석을 수행하고자 하였다. 텍스트마이닝 모형 중 잠재의미분석(Latent Semantic Analysis, LSA)과 잠재디리클레할당(Latent Dirichlet Allocation, LDA)의 토픽모델링 방법론을 적용하여 수요자의 질문 및 답변으로부터 잠재되어있는 유해화학물질 관련 토픽과 주요 키워드들을 도출하고자 하였다.

2. 방법론

2.1 LSA

토픽 모델링은 가장 대표적인 텍스트 마이닝 기법 중 하나로 여러 문서의 집합에 잠재되어있는 ‘토픽’을 추출하기 위한 통계적 분석 기법이다. 통상적으로 모델링은 주로 분석된 결과를 기반으로 사후의 발생될 사건을 예측하는데 활용되나, 토픽 모델링은 방대한 텍스트 자료를 대상으로 분석 자체에 주안점을 두고 있다. 문서 내에 특정 단어의 빈도만으로 비정형 데이터의 숨겨진 니즈를 파악하는 것은 한글이라는 언어상의 한계가 있다. 따라서 특정 단어들과 함께 사용되는 단어의 집합을 고려하여 ‘토픽’을 도출하는 것이 필요하다.
기본적인 토픽모델링에는 잠재의미분석(Latent Semantic Analysis, LSA)과 잠재디리클레할당(Latent Dirichlet Allocation, LDA)이 있다. 과거에는 잠재 의미 분석이 주로 사용되어 왔으나 최근에는 잠재 의미 분석의 단점을 보완하여 개발된 알고리즘인 잠재디리클레할당 방법론이 활용되고 있다. 각 알고리즘에 대한 설명은 다음과 같다.
LSA는 단어의 의미를 고려하지 못하고 문서 내에 단어의 등장 횟수만으로 특징을 도출하는 문서행렬(document-term matrix, DTM)과 단어빈도-문서빈도(term frequency-inverse document frequency, TF-IDF)의 단점을 보완하여 DTM의 잠재된 의미를 발견하기 위하여 개발되었다. LSA는 특이값 분해(singular value decomposition, SVD)를 통해 구현되며 식은 Eq. (1)과 같다.
(1)
X=UVT
X 값에 해당하는 문서와 단어로 구성된 m×n행렬은U, Σ, V세 개의 행렬의 곱으로 분해된다. 여기서, 각 행렬에 대해 단어행렬 U와 문서행렬 V는 각각 m×m, n×n의 직교행렬을 가지며 Σm×n의 대각행렬의 조건을 가진다. 특히, Σ는 문서와 단어의 정보량을 결정해주는 역할로서 Σ행렬이 분해된 각 행렬의 크기를 결정한다. LSA분석에서는 차원축소를 통해 필요한 정보만을 추출하며 이러한 과정은 절단된 SVD (truncated SVD)를 통해 이루어지며 Eq. (2)와 같이 나타낼 수 있다.
(2)
Xk=UkkVkT
Σ대각행렬의 특이값에서 상위 K개를 선정하고 이에 따라 Um×k행렬, Vn×k행렬로 변형된다. 이를 통해Xk의 잠재된 요소가 포함된 새로운 문서단어행렬이 생성된다.

2.2 LDA

잠재 디리클레 할당(LDA)은 해당 단어가 토픽 내에 존재할 확률과 해당 토픽이 문서 내에 존재할 확률의 결합분포를 기반으로 중요한 토픽을 추출하는 확률적 토픽모델기법이다. LDA는 문서-토픽, 토픽-단어에 대해 디리클레 분포를 사용하여 과적합 현상을 방지하고 성능이 높은 결과를 제공한다. LDA는 두 단계를 통해 문서 내에서의 단어를 추출하고 접속사 및 기타 관련 없는 단어를 제거한다. 첫 번째 단계에서는 디리클레 분포가 문서의 토픽을 임의로 선택하고, 두 번째 단계에서는 토픽의 분포로부터 토픽을 무작위로 선택한 후, 단어의 분포로부터 단어를 무작위로 선택한다. LDA 분석과정은 종속성을 가지고 결합확률분포와의 상관관계를 가지며 Eq. (3)과 같이 나타낼 수 있다.
(3)
P(β1:K,θ1:D,Z1:D,W1:Dα,η)    =i=1KP(βiη)d=1DP(θdα)    =(n=1NP(Zd,nθd)P(Wd,nβ1:K,k=Zd,n))
여기서, w(d)는 각 문서 dN개 단어의 벡터이며 파라미터 K는 토픽의 개수를 나타낸다. 통상적으로 LDA는 매개변수 k = 1, … K에 대한 분포βk~Dirichlet(η)를 따르는 토픽 Bk를 도출하고η은 이전 단어의 분포를 나타낸다, θddth문서에서 토픽의 비율이며 θk,d는 분포θd~Dirichlet(α), 문서 d에서 kth토픽의 비율을 의미한다. 매개변수 α는 문서의 분포를 나타낸다. 문서 d안에 nth단어에 대한 토픽할당 zd,nθd(zd,n Μltinomial(θd))인 토픽확률에 대한 유일한 종속성(sole dependence)으로 도출된다. 관찰 가능한 단어형태의 변수들은 분포 Wd,n Μltinomial(βzd,n)를 따르는 말뭉치로부터 도출된다. 식과 분포를 기반으로 토픽할당은 각 문서의 토픽비율에 영향을 받으며, 문서의 단어는 문서 내의 전체토픽과 토픽할당에 의해 결정된다.
토픽 구조의 조건부 분포를 결정하기 위해서 LDA에 대한 확률은 토픽모델에서 관찰된 단어의 한계비율에 대한 전체 임의의 변수의 결합분포의 비율을 통해 계산된다. 이는 Eq. (4)를 통해 나타낼 수 있다.
(4)
P(β1:K,θ1:D,Z1:DW1:D)=P(β1:K,θ1:D,Z1:D,W1:D)P(W1:D)

3. 분석결과

3.1 단어 빈도수

총 10,994건의 유해화학물질 민원 데이터로부터 관련 질문 및 응답 텍스트 중 불용어와 형태소를 제외하고 명사 및 동사만으로 추출된 총 품사의 개수는 406,155개이며, 이 중 중첩된 단어를 제외한 총 단어의 개수는 3,457개인 것으로 나타났다. Table 1은 단어의 빈도수가 가장 높은 순으로 단어와 해당 단어의 빈도수를 나타내며 ‘설비’, ‘민원’, ‘환경부’, ‘법’ 등의 순으로 단어의 빈도가 높은 것을 확인할 수 있다. 2018년에 개정된 제21조 제2항 유해화학물질 취급시설 설치 및 관리 기준 법령에서 제조⋅사용, 실내 저장⋅보관 등 다양한 시설 및 설비기준에 대한 질문자의 이해부족으로 이와 관련하여 접수된 민원들이 많은 것으로 추정된다. 그 이외에도 ‘화학물질안전원’, ‘사고’, ‘업무’ 등의 단어들이 다수 언급되었다. Fig. 1은 표 Table 1의 결과를 시각적으로 보여주며 각 단어의 빈도수가 많을수록 폰트의 크기가 크게 나타난다.
Table 1
Top 30 of Words and Frequency
Rank Word Frequency Rank Word Frequency
1 Facility 14,603 16 Pipe 5,484
2 Complaint 11,781 17 Attached form 5,478
3 Ministry of environment 11,333 18 e-people 4,747
4 Law 11,202 19 Regulation 4,595
5 NICS 8,235 20 Submit 4,429
6 Crash 6,934 21 Rule 3,988
7 Work 6,797 22 Effect 3,714
8 Storage 6,346 23 Evaluation 3,710
9 Inspection 6,056 24 Off-site 3,209
10 Notice 5,947 25 Risk 2,835
11 Prevention 5,817 26 Emission 2,830
12 Safety 5,669 27 Application 2,753
13 Education 5,582 28 Valve 2,448
14 Manufacture 5,563 29 Wearing 2,404
15 Discharge 5,484 30 Gas 2,389
Fig. 1
Word-cloud of Frequency
kosham-2023-23-4-53gf1.jpg
본 연구에서는 각 문서로부터 단어로 재분류된 유해화학물질 관련 질문 및 답변내용을 LSA와 LDA 알고리즘을 적용하여 토픽과 키워드를 추출하였다. 이를 통해 토픽을 각각 5개로 지정하였으며 LSA의 경우에는 각 토픽에 대해 상위 12개의 키워드, LDA는 상위 30개의 키워드가 추출되었다.

3.2 잠재의미분석(LSA) 분석결과

LSA를 통해 최종적으로 도출된 토픽과 키워드들은 Table 2와 같으며 각 토픽에 대한 키워드들은 상위 기여도 순으로 나열되었다. 기여도는 해당 토픽과 연관되어있는 정도를 나타낸 것으로 ‘화학물질’ 단어는 topic1과 0.358, topic3과 0.233, ‘담당자’ 단어는 topic5와 0.063만큼 연관이 있다고 해석할 수 있다. 키워드의 형태는 해당 키워드가 타 토픽의 키워드와 중첩되어 도출된 경우와 그렇지 않은 경우 두 가지로 분류할 수 있다.
Table 2
Result of Latent Semantic Analysis
Top Topic1 Topic2 Topic3 Topic4 Topic5
Keyword Wieght Keyword Wieght Keyword Wieght Keyword Wieght Keyword Wieght
1 Ministry of environment 0.373 Treatment 0.599 Education 0.505 Discharge 0.471 Discharge 0.556
2 Chemical substance 0.358 Submit 0.564 Effect 0.247 Facility 0.353 Education 0.516
3 Complaint 0.346 Complaint 0.359 Off-site 0.244 Treatment 0.205 Treatment 0.201
4 Harzadous 0.295 Effect 0.09372 Evaluation 0.241 Submit 0.161 Employment 0.156
5 Facility 0.251 Off-site 0.089 Chemical substance 0.233 Storage 0.158 Safety education 0.125
6 Working 0.247 Evaluation 0.086 Harzadous 0.218 Inspection 0.136 Administrator 0.096
7 NICS 0.194 Application 0.082 Safety education 0.143 Sensor 0.114 Pump 0.083
8 Discharge 0.166 Communication 0.051 Employment 0.142 Pump 0.111 Complaint 0.073
9 Crash 0.164 Prevention 0.023 Inspection 0.134 Emission 0.105 Manager 0.063
10 Prevention 0.162 e-people 0.012 Storage 0.125 Pipe 0.099 Facility 0.056
11 e-people 0.151 Direction 0.011 Administrator 0.109 Evaluation 0.098 Accessory 0.047
12 Notice 0.15 Opinion 0.009 Wearing 0.102 Effect 0.097 Covid19 0.045
중첩되어 도출된 단어는 ‘화학물질’, ‘민원’, ‘유해’, ‘설비’, ‘방류’, ‘예방’, ‘국민신문고’, ‘처리’, ‘제출’, ‘영향’, ‘장외’, ‘평가’, ‘교육’, ‘안전교육’, ‘종사’, ‘검사’, ‘보관’, ‘관리자’, ‘펌프’인 것으로 나타났다. 그 이외에 타 토픽의 키워드들과 중첩되지 않으며 각 토픽에 유의미한 것으로 도출된 키워드들은 topic1에서 ‘업무’, ‘화학물질안전원’, ‘사고’, ‘고시’, topic2에서는 ‘신청’, ‘연락’, ‘총괄’, ‘의견’, topic3에서 ‘착용’, topic4에서 ‘감지기’, ‘배출’, ‘배관’, topic5에서는 ‘담당자’, ‘부속’, ‘코로나’인 것으로 확인되었다.
토픽에 대한 각 키워드들은 잠재된 의미를 지니는 단어들이나 이들 간의 공통된 요소가 거의 없으므로 키워드들의 조합을 통해 하나의 토픽을 선정하기에는 어려움이 있는 것으로 판단된다.
Fig. 2는 유해화학물질 관련 데이터를 질문유형별로 ‘기획운영’, ‘사고예방’, ‘교육훈련’, ‘사고대응’ 대항목으로 분류하여 각 질문유형별 영역에 따른 x, y축에 2차원 주성분 분포의 값을 시각화한 것이다. 이 그림에서의 색은 질문유형, 점은 질문유형에 따른 각각의 문서를 의미한다. ‘사고예방’에 대한 유해화학물질 관련 질문 및 답변내용이 가장 많은 것을 확인할 수 있으며 ‘사고대응’과 ‘교육훈련’ 영역과 겹치는 부분이 다소 많다는 것을 알 수 있다. 이는 질문유형 간 유사한 토픽을 공유하고 있다는 것을 의미한다. 특히, ‘기획운영’의 경우에는 샘플수도 부족하며 다른 질문유형과의 구별된 주제를 다루는 것을 확인할 수 있다.
Fig. 2
Visualization of the LSA Result
kosham-2023-23-4-53gf2.jpg

3.3 잠재디리클레할당(LDA) 분석결과

LDA를 통해 최종적으로 도출된 토픽과 키워드는 Fig. 3에 도식화되었다. 여기서, 원은 토픽을 의미하며 원의 크기는 높은 빈도수를 가진 키워드들이 해당 토픽에 포함되어 있을수록 커진다. 토픽(원)간의 거리는 토픽의 타당성과 유사성를 의미한다. 각 토픽에 포함된 키워드들의 빈도는 오른쪽 막대그래프를 통해 확인할 수 있다. 막대그래프에 포기된 λ는 0부터 1까지의 값의 범위로 되어 있으며 단어의 등장 횟수를 제한시킬 수 있는 척도로서의 역할을 한다. 토픽분석에서 단어의 등장횟수가 미미하거나 과도할 경우 단어빈도의 가치는 무의함으로 λ를 0.5로 설정하여 분석을 수행하였다. 분석 결과, 토픽1이 다른 토픽 대비 빈도수가 높은 단어들로 구성되어 있음을 알 수 있다. 또한, 각 토픽의 키워드는 일부 교집합 되어진 부분이 없으므로 토픽들 간의 관계는 서로 독립적으로 구별되어 있다는 것을 알 수 있다.
Fig. 3
Topics and Significant Keyword through LDA
kosham-2023-23-4-53gf3.jpg
Table 3은 LDA 토픽모델링을 통해 유의미하게 나타난 토픽과 상위 기여도의 비중에 따른 주요 키워드들의 결과를 나타낸 것으로 이에 대한 설명은 다음과 같다.
Table 3
Result of Latent Dirichlet Allocation Analysis
Top Topic1 Topic2 Topic3 Topic4 Topic5
Keyword Wieght Keyword Wieght Keyword Wieght Keyword Wieght Keyword Wieght
1 Facility 0.128 Education 0.133 Submit 0.081 Pipe 0.126 Storage 0.142
2 Working 0.108 Wearing 0.061 Evaluation 0.063 Valve 0.056 Facility 0.076
3 Crash 0.072 Regulation 0.034 Inspection 0.063 Pressure 0.042 Perception 0.067
4 Discharge 0.071 Safety education 0.031 Off-site effect 0.049 Safety 0.041 Gas 0.042
5 Prevention 0.067 Administrator 0.03 Manufacture 0.035 Test 0.037 Sensor 0.035
6 e-people 0.061 Employment 0.029 Safety 0.034 Inspection 0.035 Bowl 0.027
7 Attached form 0.055 Safety 0.027 Risk 0.033 Pump 0.032 Detector 0.027
첫째, 토픽1의 주요 키워드들은 ‘설비’, ‘방류’, ‘예방’ 등이며 도출된 단어들 중 ‘설비’, ‘업무’, ‘사고’ 키워드들이 12.8%, 10.8%, 7.2%로 가장 많이 분포하는 것으로 확인되었다. 이러한 결과를 기반으로 해당 토픽은 ‘피해저감 및 사고예방시설’과 연관된 주제일 것으로 추정된다. 해당 토픽에 대한 주요 민원으로는 환기설비 설치 및 기준, 배출설비 설치에 대한 검사, 배출설비 설치방식(국소박이, 전역), 실내외저장시설 방류벽 설치, 제조사용시설 방류턱 설치 등 사고피해 최소화를 위한 시설물 설치 관련 질문들이 많았다.
둘째, 토픽2와 연관성이 높은 키워드들은 ‘관리자’, ‘안전교육’, ‘종사’ 등이며 추출된 단어들 중 ‘교육’, ‘착용’, ‘규정 키워드들이 13.3%, 6.1%, 3.4%로 토픽2에서 가장 많이 출현하는 것으로 나타났다. 따라서, 토픽2는 ‘교육 및 관련 법’과 관련된 주제일 것으로 추정된다. 해당 주제에 대한 주요 민원으로는 안전교육과 법정의무교육에 대한 이수기한 및 의무, 교육방식, 이수증 인정 여부 등의 질문사항들이 많았다.
셋째, 토픽3과 관련성이 높은 주요 키워드들은 ‘장외영향’, ‘안전’, ‘위험’ 등이며 도출된 단어들 중 토픽3에서 등장 횟수가 높은 키워드들은 8.1% 6.3%, 6.3% 확률로 ‘제출’, ‘평가’, ‘검사’ 단어들인 것으로 나타났다. 이를 기반으로 키워드의 조합을 통해 구축된 토픽은 ‘장외영향평가’와 관련된 주제일 것으로 추측된다. 장외영향평가와 관련된 민원내용으로는 주로 사외배관이송시설, 오폐수처리시설, 실험실 등의 설비에 대한 장외영향평가서 제출, 재제출, 작성방법, 작성자 교육 등의 질문사항이 많았다.
넷째, 토픽4와 연관성이 높은 주요 키워드들은 ‘안전’, ‘검사’, ‘펌프’ 등이며 이들 중 ‘배관’, ‘밸브’, ‘압력’ 단어들이 12.6%, 5.6%, 4.2%로 토픽4에서 가장 많이 등장하는 것으로 확인되었다. 따라서, 키워드들을 통해 해당 토픽은 ‘배관 및 밸브 관리⋅검사’와 관련된 것으로 추정된다. 이와 관련된 민원내용으로는 배관설치에 따른 장외영향평가서 재제출, 배관이송시설, 장외영향평가서 작성 및 설치검사, 밸브를 조작하는 작업자에 대한 개인보호장구 착용 의무 등에 대한 질문이 많았다.
다섯째, 토픽5와 연관성이 높은 주요 키워드들은 ‘보관’, ‘가스’, ‘용기’ 등이며 이들 중 ‘보관’, ‘설비’, ‘감지’ 등의 키워드들이 14.2%, 7.6%, 6.7%로 토픽5에서 가장 많이 출현하는 것으로 나타났다. 이러한 결과를 통해 구성된 해당 토픽은 ‘보관 설비 감지’와 연관이 있는 주제일 것으로 판단된다. 관련된 민원으로는 주로 화학물질안전원에서 고시한 유해화학물질 제조⋅사용시설, 차량 운반 시설 설치 및 관리 법령 관련 내용으로 감지경보시설 설치 수량 및 위치에 관한 기준, 누출검지장치 설치 및 기준, 비상용 보호구, 방독면 정화통 등의 물품보관기한, 특정 유해화학물질 보관 여부 등의 질문빈도가 높았다.
Table 4는 질문유형별 각각의 민원에 대한 토픽의 분포를 나타낸 결과로 각 문서가 어떠한 주제과 키워드들 간의 연관성이 높은지 추론할 수 있으며 이를 기반으로 수요자의 질문동향과 니즈에 대한 파악이 가능하다. 제시된 수치는 해당 질문유형에 대한 특정 토픽의 비율을 나타낸 것으로 다음과 같이 해석할 수 있다.
Table 4
Topic Distributions for the Departments
Topic Type of question
Education and Training Planing and Operation Accident Response Accident Prevention
Topic1 0.00% 0.00% 0.71% 37.73%
Topic2 89.59% 50.00% 86.60% 2.75%
Topic3 9.15% 50.00% 10.15% 26.17%
Topic4 0.95% 0.00% 1.27% 16.42%
Topic5 0.32% 0.00% 1.27% 16.93%
질문 유형들 중 교육훈련, 기획운영, 사고대응에 대한 문서는 각각 85.59%, 50.0%, 86.60% 확률로 토픽2로 추정된 ‘교육 및 관련 법’와 관련된 민원으로 나타났으나, 토픽1인 ‘피해저감 및 사고예방시설’과 관련된 내용은 0%, 0%, 0.71%로 거의 없는 것으로 확인되었다. 특히, 사고예방의 문서에서는 토픽1인 ‘피해저감 및 사고예방시설’, 토픽4인 배관 및 밸브 관리⋅검사’와 토픽5인 ‘보관 설비 감지’ 내용이 타 토픽들에 비해 각각 37.73%, 16.42%, 16.93% 확률로 가장 많이 분포된 반면, 토픽2인 ‘교육 및 관련 법’과 연관된 내용은 2.75%로 미미하였다.
이러한 결과를 통해 수요자의 니즈는 대부분 교육과 관련 법에 대한 것임을 알 수 있으며 향후에 이와 같은 민원들이 반복되어 접수되지 않도록 교육관련 질문빈도가 높은 민원에 대해 질문자들이 이해하기 쉽도록 구체적인 답변안을 마련하거나 사전홍보 및 교육자료의 게시 등이 필요하다.

4. 결 론

본 연구에서는 유해화학물질 관련사고 발생과 사고예방 등을 중심으로 수행되어왔던 기존 연구들에서 다루지 않은 비정형데이터를 활용하여 수요자들의 주요 관심사와 요구사항을 분석하고자 하였다. 텍스트마이닝 기법 중 대표적인 토픽모델링 기법인 LSA와 LDA 방법론을 적용하였으며 이를 통해 수요자의 질문 및 답변내용으로부터 주요 토픽들과 키워드를 추출하였다. 본 연구의 분석결과를 통해 도출한 시사점은 다음과 같다.
첫째, LDA 방법론을 적용하여 도출된 토픽은 각 토픽에 대한 키워드들의 조합을 통해 하나의 주제를 할당하기에 어려움이 없었으나, LSA를 통해 도출된 결과는 연관된 키워드들을 통해 각 토픽의 주제를 선정하기에는 어려움이 있다는 것을 알 수 있었다. 이는 차원축소를 기반으로 유의미한 정보를 도출해낸 LSA 방법론의 결과보다 LDA 알고리즘을 적용하여 확률분포를 기반으로 도출한 토픽과 키워드의 결과가 본 데이터에 활용하기에 보다 적합하다는 것을 시사한다.
둘째, LDA를 통해 최종적으로 도출된 각 토픽인 ‘피해저감 및 사고예방시설’, ‘교육 및 관련 법’, ‘장외영향평가’, ‘배관 및 밸브 관리⋅검사’, ‘보관 설비 감지’에 포함된 키워드들은 해당 토픽과 연관성이 높은 것으로 나타났다.
셋째, 민원데이터 중 질문빈도가 높은 내용은 ‘밸브 조작자에 대한 개인보호장구 착용 의무’, ‘장외영향평가서 제출 및 작성방법’, ‘환기설비’, ‘방류벽’, ‘방류턱 등 시설물 설치’, ‘안전 및 법정의무교육’ 등으로 도출되었다. 따라서, 수요자들이 해당 질문내용에 대한 답변에 쉽게 이해할 수 있도록 다양한 가이드라인을 마련하고 홍보하는 것이 필요할 것으로 판단된다.
넷째, 질문유형들 중 교육훈련, 기획운영, 사고대응, 사고예방에 대한 내용은 대부분 ‘교육 및 관련 법’의 토픽과 관련된 민원인 것으로 나타났다. 따라서, 해당 토픽과 관련된 질문들에 대한 정보제공이 체계적이고 효율적으로 마련될 필요가 있다.
마지막으로 본 연구에서 시도된 방법론과 분석결과는 즉각적으로 적용가능하므로 향후 수요자의 요구사항을 실시간 모니터링하고 이에 대한 보다 효과적인 유해화학물질 사고예방대책을 수립하는데 기여될 것으로 기대한다.

감사의 글

본 연구는 과학기술정보통신부의 재원으로 한국연구재단의 지원을 받아 수행된 연구입니다(No. 2021R1A2C1095641).

References

1. Duan, W, Chen, G, Ye, Q, and Chen, Q (2011) The situation of hazardous chemical accidents in China between 2000 and 2006. Journal of Hazardous Materials, Vol. 823, pp. 1489-1494.
crossref
2. Jeon, B.H, and Kim, H.S (2018) Improvement on accident statistic analysis and response of hazardous chemical transport vehicle. Journal of the Korean Society of Disaster Information, Vol. 14, No. 1, pp. 59-64.
crossref
3. Jeong, J.U, and Lee, S.J (2020) Analysis on the characteristics of hazardous, chemical transport vehicle accidents in Korea. Journal of the Korean Society of Disaster Information, Vol. 16, No. 2, pp. 310-317.
crossref
4. Jian, C.A.O, Shiliang, S.H.I, Yi, L.U, Yong, L.I.U, Yang, W.A.N.G, and Junhao, P.E.N.G (2020) Analysis on tank transportation accidents of hazardous chemicals from 2013 to 2018. China Safety Science Journal, Vol. 30, No. 2, pp. 119-126.
crossref
5. Kang, M.A, Jo, S.H, Jeong, G.C, Lee, S.H, and Kim, S.I (2006) Preparatory monitoring of trace chemicals load into Nakdong River. The Journal of Engineering Geology, Vol. 16, No. 4, pp. 351-357.
crossref
6. Kim, M.I, and Kang, M.A (2006) Monitoring of micro noxious chemicals caused by fiber and chemistry industrial wastewater on the Nakdong River Water system. The Journal of Engineering Geology, Vol. 16, No. 2, pp. 145-152.
crossref
7. Lee, D.J, Kim, S.M, Yun, J.H, Shin, G.I, and Yoo, B.T (2017) A study on the improvement plan of transportation plan for safety management of hazardous chemical vehicles. Journal of the Korean Society of Hazard Mitigation, Vol. 17, No. 6, pp. 151-157.
crossref
8. Lee, D.J, Lee, T.H, and Shin, C.H (2017) Study of the improvement of hazardous chemical management for chemical accident prevention. Fire Science and Engineering, Vol. 31, No. 1, pp. 74-80.
crossref
9. Liu, S, Xu, Z, Ren, H, He, T, Han, B, Bao, J, et al (2022) Detecting loaded trajectories for hazardous chemicals transportation. 2022 IEEE 38th International Conference on Data Engineering, Vol. 14, No. 5, pp. 3294-3306.
crossref
10. Seol, J.W, Yong, J.W, Chae, C.K, Tae, C.H, and Ko, J.W (2015) A Study on accident response guidelines for hazardous materials (HAZMAT) transport vehicle. Journal of the Korean Institute of Gas, Vol. 19, No. 5, pp. 87-97.
crossref
11. Shin, C.H, and Park, J.H (2016) Improvement on spill risk of a hazardous chemical transporting vehicle. Crisisonomy, Vol. 12, No. 8, pp. 33-45.
crossref
12. Tan, Q, Zhang, Y, Zhang, X, Pei, X, Xiong, J, Xue, C, et al (2014) A hazardous chemical-oriented monitoring and tracking system based on sensor network. International Journal of Distributed Sensor Networks, Vol. 10, No. 5, pp. 410-476.
crossref pdf
13. Wang, B, Wu, C, Reniers, G, Huang, L, Kang, L, and Zhang, L (2018) The future of hazardous chemical safety in China:Opportunities, problems, challenges and tasks. Science of the Total Environment, Vol. 643, pp. 1-11.
crossref pmid
14. Winder, C, Azzi, R, and Wagner, D (2005) The development of the globally harmonized system (GHS) of classification and labelling of hazardous chemicals. Journal of Hazardous Materials, Vol. 125, pp. 29-44.
crossref pmid
15. Yoon, S, Yun, J, Han, J, and Jung, S (2018) Risk analysis of transporting hazardous substances in harbor using modeling program. Journal of Ocean Engineering and Technology, Vol. 32, No. 4, pp. 272-278.
crossref pdf
16. You, J.S, and Jeong, Y.J (2014) Case analysis of the harmful chemical substances'spill. Fire Science and Engineering, Vol. 28, No. 6, pp. 90-98.
crossref
17. Zhang, H.D, and Zheng, X.P (2012) Characteristics of hazardous chemical accidents in China:A statistical investigation. Journal of Loss Prevention in the Process Industries, Vol. 25, No. 4, pp. 686-693.
crossref
18. Zheng, X, Wang, B, Zhao, Y, Mao, S, and Tang, Y (2021) A knowledge graph method for hazardous chemical management:Ontology design and entity identification. Neurocomputing, Vol. 430, pp. 104-111.
crossref
19. Zhu, Z, Ren, H, Ruan, S, Han, B, Bao, J, Li, R, et al (2021) Icfinder:A ubiquitous approach to detecting illegal hazardous chemical facilities with truck trajectories. Proceedings of the 29th International Conference on Advances in Geographic Information Systems, pp. 37-40.
crossref
TOOLS
Share :
Facebook Twitter Linked In Google+ Line it
METRICS Graph View
  • 0 Crossref
  •    
  • 764 View
  • 31 Download


ABOUT
ARTICLE CATEGORY

Browse all articles >

BROWSE ARTICLES
AUTHOR INFORMATION
Editorial Office
1010 New Bldg., The Korea Science Technology Center, 22 Teheran-ro 7-gil(635-4 Yeoksam-dong), Gangnam-gu, Seoul 06130, Korea
Tel: +82-2-567-6311    Fax: +82-2-567-6313    E-mail: master@kosham.or.kr                

Copyright © 2024 by The Korean Society of Hazard Mitigation.

Developed in M2PI

Close layer
prev next