기계학습을 활용한 점토 특성에 따른 압축지수 예측 모델 비교

Comparison of Performance of Machine Learning Models for Predicting Compression Index Based on Clay Properties

Article information

J. Korean Soc. Hazard Mitig. 2022;22(4):127-134
Publication date (electronic) : 2022 August 26
doi : https://doi.org/10.9798/KOSHAM.2022.22.4.127
* 정회원, 한국건설기술연구원 지반연구본부 박사후연구원(E-mail: leesy@kict.re.kr)
* Member, Postdoctoral Researcher, Department of Geotechnical Engineering Research, Korea Institute of Civil Engineering and Building Technology
** 정회원, 한국건설기술연구원 지반연구본부 수석연구원
** Member, Senior Researcher, Department of Geotechnical Engineering Research, Korea Institute of Civil Engineering and Building Technology
*** 한국건설기술연구원 지반연구본부 수석연구원
*** Senior Researcher, Department of Geotechnical Engineering Research, Korea Institute of Civil Engineering and Building Technology
**** 정회원, 전남대학교 지역⋅바이오시스템공학과 교수
**** Member, Professor, Department of Rural and Biosystems Engineering, Chonnam National University
***** 전남대학교 지역⋅바이오시스템공학과 석사과정
***** Graduate of Master’s Course, Department of Rural and Biosystems Engineering, Chonnam National University
** 교신저자, 정회원, 한국건설기술연구원 지반연구본부 수석연구원(Tel: +82-31-910-0550, Fax: +82-31-995-0946, E-mail: goldcamp@kict.re.kr)
** Corresponding Author, Member, Senior Researcher, Department of Geotechnical Engineering Research, Korea Institute of Civil Engineering and Building Technology
Received 2022 June 22; Revised 2022 June 23; Accepted 2022 July 05.

Abstract

해안가의 연약지반을 중심으로 대형 구조물 시공이 증가하면서 지반침하에 의한 구조물의 손상 방지에 주의를 기울여야 한다. 과거부터 지반침하에 관한 연구가 꾸준히 수행되고 있으며, 침하량은 점토의 압축지수를 통해 산정할 수 있으므로 압축지수를 정확히 산정하여 지반의 침하량을 예측하는 것은 매우 중요한 일이다. 따라서 본 연구에서는 부산, 광양, 목포지역을 대상으로 점토의 자연함수비, 액성한계, 소성지수, 초기간극비, 압축지수의 데이터를 수집하여 데이터셋을 구축하였다. 구축된 데이터셋을 통해 인자들 사이의 상관분석을 실시하였으며, 기계학습 알고리즘인 랜덤포레스트, 다중선형회귀, Ridge, Lasso, SVM, XGBoost, LightGBM, DNN에 적용하여 압축지수 예측 모델을 제시하였다. 또한, 각 모델의 결과를 RMSE와 R2 평가지표로 선정하여 비교하였다. 그 결과, 자연함수비, 액성한계, 소성지수, 초기간극비와 압축지수는 높은 상관성을 나타냈으며, 기계학습 모델을 비교한 결과 LightGBM 모델이 가장 우수한 성능을 나타냈다.

Trans Abstract

As the construction of large structures increases primarily on the soft ground along coasts, prevention of damage to the structures due to subsidence should be prioritized. Ground subsidence has been investigated actively. Because the amount of settlement can be calculated based on the compression index of clay, the latter must be calculated accurately. In this study, data pertaining to the natural water content, liquid limit, plasticity index, initial void ratio, and compression index of clay are acquired from Busan, Gwangyang, and Mokpo to construct a dataset for predicting the compression index. Correlation analysis between factors is performed using the dataset, and compression index prediction models are developed using machine learning algorithms, random forest, multiple linear regression, ridge, Lasso, SVM, XGBoost, LightGBM, and DNN. Subsequently, the results of each model are compared in terms of the RMSE and R2. The results show that the natural water content, liquid limit, plasticity index, initial void ratio, and compression index are correlated significantly. Among the machine learning models, LightGBM demonstrates the best performance.

1. 서 론

연약지반이 다수 분포되어 있는 해안가를 중심으로 대규모 구조물의 축조가 증가하면서, 지반 침하에 의한 상부 구조물의 손상 등에 세심한 주의가 요구된다. 따라서 다양한 연직배수재를 이용한 연약지반 개량공법의 연구 및 현장 적용이 활발히 진행되고 있으며(Kang et al., 2014), 침하량을 예측하기 위해 Barron (1948), Mikasa (1963), Gibson et al. (1967)에 의한 다양한 압밀 침하이론이 발표되었다. 특히, 현장에서 지반의 침하량을 산정하기 위해서는 압축지수(Cc), 초기 간극비(e0), 성토고 등의 지반정수를 이용하는 Terzaghi 1차 압밀 이론을 주로 활용하므로, 정확한 압축지수의 도출하는 것은 매우 중요할 것이다.

이에 따라 압축지수의 예측을 목적으로 다양한 연구가 국⋅내외로 수행되고 있다. Yoon and Kim (2003)은 자연함수비, 초기 간극비, 비중, 액성한계, 소성지수, 압축지수 값을 통계분석을 통해 다중회귀분석을 실시하여, 압축지수에 대한 회귀식을 도출하였고, Bae and Kim (2009)은 광양항을 대상지역으로 Box-Cox 변수 변환을 수행하여 함수비, 액성한계, 초기 간극비에 대한 압축지수와의 회귀식을 도출하였다.

또한, Kim et al. (2001)은 경북지역을 중심으로 인공신경망을 활용하여 물리적 특성 값에 대한 압축지수 예측 모델을 제안하였으며, Yeo (2015)는 상관분석을 통하여 부산지역의 압축지수, 압축비, 비배수 전단강도를 예측하는 회귀식을 발표하였다. Kim and Lee (2015)는 초연약 점토지반의 압축지수 추청을 위해 원지반과 준설매립점토 사이의 압축지수에 대한 관계식을 수학적으로 증명하였으며, 이를 실제 현장에서의 계측결과와 비교해 검증하였다.

국외에서도 압축지수를 예측하기 위한 연구가 활발히 진행되고 있는 추세이며, Farzin and Afshin (2012)Danial et al. (2019)은 각각 인공 신경망(ANN)과 유전 알고리즘을 활용하여 이란의 Marzandaran 지방의 물리적 특성 값을 통해 압축지수를 예측하는 상관관계를 제안하였다. 또한, Talas and Kaya (2018)은 기계학습 알고리즘을 활용하여 터키 일부 지역의 압축지수 예측 모델 제안하였다. 이와 같이, 지역에 따른 지반 특성에 편차가 존재하므로 국외에서는 지역에 따른 압축지수의 예측을 위해 다양한 AI기법들이 활용되고 있으나, 국내의 경우 AI기법을 통한 압축지수 예측 모델에 관한 연구가 미진한 상태이다. 따라서 본 연구에서는 남해안 지역인 부산, 광양, 목포지역의 물리적 특성 값에 따른 압축지수 예측을 위한 기계학습 모델의 성능을 최적화하고 비교하기 위하여 대상지역의 지반정수 데이터를 수집하고 상관분석을 실시하였으며, 기계학습 모델인 Random Forest (RF), Linear Regression (LR) Ridge, Lasso, Deep Neural Network (DNN), SVM, XGBoost, LightGBM에 Hyper Parameter를 최적화하여 적용하고 그 결과를 비교하여 최적의 예측 모델을 선정하고자 하였다.

2. 기계학습 알고리즘

2.1 랜덤포레스트(RandomForest, RF)

RF 알고리즘은 회귀 및 분류 문제를 다수의 Tree로 구성되어 있으며, 이를 활용하여 최적의 결과를 도출하는 알고리즘으로 배깅(Bagging) 기법의 대표적인 모델이다(Breiman, 2001).

문제 해결을 위해 Fig. 1과 같이 Yes or False의 결정을 일반화하여 선택해 나가기 때문에 영향인자 사이의 상관성이 높지 않아도 높은 정확도의 결과를 도출하는 장점을 갖고 있는 모델이다.

Fig. 1

Conceptual Diagram of RF

2.2 Linear Regression (LR)

Linear Regression은 다중선형회귀를 의미하며, 종속 변수와 다수의 독립변수와의 관계를 설명하는 기법이다(Oh, 2020). 각각의 독립변수에 대해 기울기(가중치)와 절편을 산정하기 때문에, 유의성 및 설명력이 우수한 모델을 구축할 때 주로 활용되고, 산정된 가중치를 이용하여 변수 사이의 유의성이 높은 변수를 선택하기 유용한 특징을 갖고 있다.

2.3 Ridge와 Lasso

Ridge와 Lasso는 기존 회귀분석에서 제약조건을 주어 중요도가 낮은 독립변수의 회귀 값을 축소하여 과적합을 방지하는 기법이다. Ridge는 변수가 다수일 경우 오차를 최소화하여 간단한 모델을 구축할 수 있으며, Lasso는 유의미한 독립변수만 선정하여 모델을 구축하는 특징을 갖고 있다(Jeon, 2019).

2.4 SVM (Support Vector Machine)

SVM은 회귀(SVR)와 분류(SVC) 문제 해결에 적합한 알고리즘으로 과적합에 대해 상대적으로 자유롭다는 장점을 갖고 있으나, 학습 속도가 매우 느리며 도출된 결과의 해석이 어렵다는 단점도 존재한다. SVM은 Fig. 2와 같이 다양한 커넬(Kernel)의 Hyperplane을 활용하여 데이터의 특징을 구분하고 있으며, Hyperplane의 배치와 데이터 사이 거리의 기준점(Margin)을 적절하게 설정하는 것이 매우 중요하다(Lee, 2022).

Fig. 2

Conceptual Diagram of Hyper Plane

2.5 부스팅(Boosting)

부스팅은 Tree 모델 등과 같은 단일 모델을 순차적으로 활용하여 가중치를 도출하고 모든 모델의 가중치가 결과 산출에 개입하는 기법이다. 모델을 순차적으로 학습하여 이전 모델의 오류를 보완함으로 모델의 전체적인 정확도는 높은 편이나, 데이터 이상치에 취약한 단점을 갖고 있다(Lee, 2022). 부스팅에는 Tree 모델을 기반으로 하는 XGBoost와 LightGBM 등과 같은 모델이 있으며, XGBoost는 모델의 속도가 뛰어나고 성능이 뛰어나 빅데이터의 적용이 용이하고(Ha, 2017), LightGBM은 모델의 오차가 적게 나타나지만 과적합의 위험이 크다는 특징을 갖고 있다(Lee, 2022).

2.6 회귀모델의 평가

본 연구에서는 기계학습 회귀 모델의 평가를 위해 일반적으로 사용되는 지표인 RMSE (Root Mean Squared Error)와 R2을 사용하였다. RMSE는 실제값에서 예측값을 뺀 값의 제곱의 평균을 의미하는 MSE에 루트를 적용한 지표로, 오차의 왜곡과 같은 MSE의 단점을 보완하며, 평균적인 오차의 값을 설명해준다. R2은 모델의 성능을 확인할 수 있는 지표로 0~1 사이의 값을 가지며, 1에 가까워질수록 모델의 성능이 뛰어나다.

(1)RMSE=1Ni=1N(yiy)2

3. 예측모델 데이터의 구성

3.1 연구 대상지역

본 연구는 남해안(부산, 목포, 광양)지역 점토를 채취하여 직접 현장시험(함수비, 액⋅소성한계, 압밀시험)을 실시한 결과 및 국토지반정보 포털시스템에서 획득한 지반정보 데이터를 활용하여 데이터셋을 구축하였다.

부산지역은 부산 전역에서 총 4,427개의 시추 데이터를 확보하였으며, 확보한 데이터 중 분석에 활용 가능한 데이터 562개를 추출하였다. 광양지역은 광양항을 중심으로 다수의 공구에서 총 3,401개의 시추데이터를 확보하였으며, 이 중 활용한 데이터는 609개의 데이터이다. 목포지역은 목포 신항 및 고속도로, 택지개발 사업에서 실시한 지반조사를 중심으로 총 2,201개의 데이터 중 활용가능 데이터는 339개이다. 따라서 데이터셋 구축에 사용된 데이터는 총 1,510개이다.

3.2 대상지역의 데이터 특성

3.2.1 통계적 특성

점토의 물리적 특성 값을 활용한 압축지수 예측모델의 개발을 위해 압축지수(Cc)에 영향을 미치는 특성으로는 선행연구를 참고하여 자연함수비(Wc), 액성한계(LL), 소성지수(PI), 초기 간극비(e0)를 선정하였으며(Farzin and Afshin, 2012), 토성은 고소성 무기질 점토(CH), 저소성 무기질 점토(CL)를 대상으로 하였으며, 채취 심도는 0.4~55.4 m이다.

Table 1은 대상지역의 지반 특성 값에 대한 범위를 나타낸 표이며, 광양지역의 함수비와 액성한계 및 소성지수, 초기간극비가 높게 나타나, 압축지수도 높은 경향을 나타낸 것으로 판단된다. 또한, Table 2는 종합적인 데이터의 평균 및, 표준 오차, 중앙값, 표준 편차 등을 나타낸 기술통계 표이다.

Range of Data by Region

Descriptive Statistics of Data

3.2.2 상관분석

영향인자와 압축지수 사이의 상관도 확인을 통해 영향인자의 유의미성에 대한 검토가 필요하다. 따라서 각 인자와 압축지수와의 상관분석을 통해 상관계수를 확인하고 Table 3에 나타냈으며, 인자에 따른 회귀식과 결정계수를 확인하고자 하였다. Table 3를 살펴보면 상관계수는 초기간극비가 0.751로 가장 높게 나타났고 소성지수가 0.628로 가장 작은 값을 나타냈으나, 가장 낮은 상관계수가 나타난 소성지수도 0.628로 압축지수에 영향을 미치는 것으로 판단되며, 유의확률은 모두 0.000으로 신뢰할 수 있는 것으로 나타났다.

Result of Correlation Analysis

본 연구에서 선정된 영향인자와 압축지수와의 관계식을 제시한 실시한 연구는 과거부터 꾸준히 수행되고 있다. 하지만, 지반공학 특성 상 지역에 따른 관계식이 상이하기 때문에 대표적인 관계식으로 모든 지역의 지반 정수를 추측하긴 어려운 실정이다. 따라서 본 연구 대상지역의 영향인자와 압축지수 사이의 1차원 관계식과 결정계수와 인근 지역을 대상으로 연구를 수행된 기존 제안식을 비교하여 Table 4에 나타냈으며 압축지수와 영향인자 사이의 결정계수를 Fig. 3에 그래프로 나타내었다. 기존 제안식과 비교하면 본 연구에서 제시된 제안식의 결정계수가 상대적으로 낮은 것으로 나타난다. 이는 본 연구에서 선정한 대상지역의 범위가 광범위하여 나타난 현상으로 판단된다. 따라서 기계학습 알고리즘을 활용하여 압축지수 예측 모델을 개발하고자 한다.

Comparison of Regression Equations between This Study and Previous Studies

Fig. 3

Correlation between Cc and Factors

4. 기계학습 알고리즘 적용 및 결과

4.1 기계학습 알고리즘 적용

본 연구에서는 Python과 Scikit-learn 라이브러리를 활용하여 RF, LR Ridge, Lasso, DNN, SVM, XGBoost, LightGBM 알고리즘에 데이터셋을 적용하여 성능이 우수한 압축지수 예측 모델을 선정하고자 하였다. 모델 평가에 사용된 지표는 RMSE와 R2이며, 과적합을 방지하기 위해 기계학습 모델에 5-Fold Cross Validation 알고리즘을 적용하였고 학습-검증 데이터 비율을 80:20으로 분할한 뒤 결과를 도출하였다.

기계학습 모델의 과적합을 방지하고 성능을 개선하기 위해서는 모델에 적절한 HyperParameter를 설정해야한다. 이러한 과정을 ‘튜닝(Tuning)’이라고 하며, 본 연구에서는 모델의 주요 HyperParameter를 시행착오법을 통하여 최적의 성능을 발휘하는 HyperParameter를 설정하였다. Table 5는 각 모델의 주요 HyperParameter와 설정된 변수 값을 나타낸 표이다.

Summary of Hyper Parameters in the Model

DNN의 구조를 간략하게 설명하면 다음과 같다. 먼저, 3개의 Hidden Layer에 12개의 node와 activation은 ‘Relu’를 적용하였으며, Output Layer의 activation은 ‘linear’로 설정하였다. 또한, 최적화 기법은 ‘Adam’을 적용하여 결과를 도출하였다.

RF모델의 주요 Hyper parameter는 Tree의 수를 의미하는 estimators (10~500)와 Tree의 깊이를 의미하는 max depth (1~6)로 설정하였으며, XGBoost와 LightGBM도 estimators (10~500)와 max depth (1~6), 모델의 학습률을 의미하는 learning rate (0.001~0.1)을 주요 매개변수로 선정하여 시행착오법을 통해 최적의 결과를 도출하는 Hyper parameter로 Tuning하였다.

4.2 기계학습 적용 결과

최적의 Hyperparameter로 설정된 모델에 데이터셋을 적용하여 RMSE와 R2의 결과를 Table 6에 나타냈다. 부산지역의 경우 RMSE는 LR모델이 0.141로 가장 낮게 나타났으며 R2은 0.587로 나타났다. 광양지역의 경우 부산지역과 마찬가지로 LR모델이 가장 적절한 것으로 나타났으며, 타 지역과 비교하여 RMSE가 높은 경향이 나타났다. 이는 광범위한 지역에서 취득한 데이터가 다수 존재하여 나타난 결과로 판단된다. 목포지역의 경우 LightGBM 모델이 RMSE는 0.137, R2은 0.536으로 가장 우수한 성능을 나타냈으며, 타 지역과 비교하였을 때 RMSE가 낮게 나타났으나 R2의 값은 다소 감소한 것으로 나타났다. 이는 목포지역의 데이터 수가 상대적으로 적어 나타난 결과로 판단된다. 종합적인 전체지역에 대해 분석을 실시한 결과, LightGBM이 가장 적절한 모델로 판단되었으며, RMSE는 0.157, R2은 0609가 도출되었다. 또한, 전반적인 모델의 결과를 확인한 결과 단순한 구조의 DNN의 경우 예측 성능이 다소 낮은 것으로 나타났다.

The Performances Obtained with Models

각각의 지역에 따른 모델 평가지표의 결과 비교를 통해 선정된 적절 모델은 Busan-LR (B-LR), Gwangyang-LR (G-LR), Mokpo-LightGBM (M-LGBM), Total-LightGBM (T-LGBM)로 선정되었으며, Fig. 4는 각 모델의 예측결과를 나타낸 그래프이다. Figs. 4(a), (c)는 실제 값과 예측 값 사이의 분산이 크게 나타났으며, Figs. 4(b), (d)는 상대적으로 예측이 잘 이루어진 것으로 나타났다. 또한, T-LGBM 모델을 통해 압축지수 예측에 활용된 영향인자의 중요도를 Fig. 5에 나타냈다. 중요도 도출 결과 e0, PI, LL, Wc의 순으로 중요도가 나타났으며, 초기간극비의 중요도가 가장 높게 도출된 결과는 상관분석의 결과와 동일하다.

Fig. 4

Models between the Predicted and Actual Values for the Compression Index

Fig. 5

Feature Importance of T-LGBM

종합적인 데이터에 대한 적절 모델(T-LGBM)의 상관계수와 상관분석 결과를 비교하였을 때, 단일 인자로 압축지수를 예측한 결과(R2 : 0.39~0.56)보다 종합적인 인자를 모두 활용하여 기계학습을 실시한 결과의 결정계수(R2 : 0.61)가 높게 나타났으며, 이를 통해 상대적으로 간단한 물성실험을 통해 도출된 결과 값을 이용하여 개략적인 압축지수를 예측할 수 있을 것으로 판단된다. 또한, 압축지수를 구하기 위한 압밀시험 시 해당 결과 값의 신뢰성에 대한 참고자료로 활용할 수 있을 것으로 기대된다. 추후 모델의 신뢰도를 향상시키기 위해서는 지역을 보다 세분화하여 양질의 데이터를 다수 확보한 뒤 모델에 학습하는 방법을 고려해야 한다.

5. 결 론

본 연구는 부산, 광양, 목포지역을 대상으로 현장 조사 및 실내 실험을 통해 취득한 Wn, LL, PI, e0, Cc 값을 활용하여 Cc를 예측하기 위한 데이터셋을 구축하고 기계학습 모델에 적용하여 그 결과를 비교하고 가장 우수한 모델을 선정하고자 하였다. 본 연구 결과를 요약하면 다음과 같다.

(1) 광양지역과 부산 및 목포지역의 지반정수를 비교한 결과, 광양지역의 자연함수비가 상대적으로 높은 경향을 나타냈으며, 이에 따라 압축지수가 타 지역에 비해 높게 나타났다.

(2) 압축지수와 지반정수 영향인자의 상관분석을 실시한 결과, 초기간극비(0.751), 자연함수비(0.740), 액성한계(0.642), 소성지수(0.628)의 순으로 높은 상관도가 나타났다.

(3) 기계학습 알고리즘에 데이터셋을 적용하여 우수한 모델을 선정한 결과, 부산지역과 광양지역은 Linear Regression, 목포지역과 종합한 지역은 LightGBM의 모델이 상대적으로 가장 낮은 RMSE (0.137~0.172)와 높은 상관계수(0.54~0.63)를 나타냈다.

(4) 단일 인자에 대한 상관분석 결과(R2 : 0.39~0.56)기계학습 모델의 결정계수(0.609)를 비교한 결과, 기계학습 예측 모델을 통해 압축지수를 예측한 결과가 우수한 것으로 나타났다.

본 연구에서 제안된 기계학습 기법을 활용한 압축지수 예측모델을 통해 상대적으로 단순한 지반정수 값으로 개략적인 압축지수를 예측할 수 있을 것으로 기대된다. 또한, 양질의 데이터를 다수 확보하고 역학적 특성 값 등을 추가하여 데이터셋을 구축한 뒤, 추가적인 학습을 수행하면, 보다 우수한 예측력과 높은 신뢰성을 발휘하는 모델이 개발 될 것으로 기대된다.

감사의 글

본 연구는 (22주요-대1-임무) 지하공간 정보 정확도 개선 및 매설관 안전관리 기술개발(3/3) 지원으로 수행되었으며, 이에 깊은 감사를 드립니다.

References

1. Bae W S, Kim J. W. 2009;Correlations between the physical properties and compression index of kwangyang clay. Journal of the Korean Geo-Environmental Society 10(7):7–14. (In Korean).
2. Barron R A. 1948;Consolidation of fine-grained soils by drain wells. Transactions, ASCE 113(2346):718–754.
3. Breiman L. 2001;Random forests. Machine Learning, Kluwer Academic Publishers 45:5–32.
4. Danial M. S, Kazemi S. F, Amir M, Ehsan N, Joseph H. M. T. 2019;Prediction of compression index of fine-grained soils using a gene expression programming model. Infrastructures 2019;4(2):26.
5. Farzin K, Afshin K. 2012;Prediction of compression index using artificial neural network. Scientific Research and Essays 7(31):2835–2848.
6. Gibson R. E, England G. L, Hussey M. J. L. 1967;The theory of one-dimensional consolidation of saturated clays. Geotechnique 17(3):261–273.
7. Ha J. E. 2017;Comparison of the performance in automatic classification about civil complaints'category and department in charge between RandomForest and XGBoos. Master's thesis, Yonsei University (In Korean)
8. Jeon J. S. 2019;Forecasting models for number of persons for meals in large food service place. Ph. D. dissertation, Kyung Hee University :107–124. (In Korean).
9. Kang G. C, Kim T. H, Jeong C. G. 2014;Residual settlement behavior in soft ground improved by pbd during operating facilities. Journal of the Korean Geo-Environmental Society 15(8):13–21. (In Korean).
10. Kim B. K, Lee S. 2015;A case-study of compression index prediction on very soft clay. Journal of the Korean Geotechnical Society 31(4):13–18. (In Korean).
11. Kim B. T, Kim Y. S, Bae S. K. 2001;Proposition empirical equations and application of artificial neural network to the estimation of compression index. Journal of the Korean Geotechnical Society 17(6):25–36. (In Korean).
12. Lee S. Y. 2022;Evaluation of the machine learning technique for ranking influential factors and optimizing the risk analysis of ground subsidence of the sewer pipes. Ph. D. dissertation, Chonnam National University (In Korean)
13. Mikasa M. 1963;The consolidation of soft clay a new consolidation theory and its application. Kajima Institution Publishing Co., Ltd., Tokyo, Japan :126–140.
14. Oh Y. H. 2020;High-school baseball pitcher's ERA (Earned Run Average) prediction using multi-variable linear regression analysis method. Journal of Knowledge Information Technology and Systems 14(4):497–506. (In Korean).
15. Talas F. K, Kaya Y. 2018;The comparison of the performance of ELM, BRNN, and SVM methods for the prediction of compression index of clays. Arab J Geosci 11:770. doi:10.1007/s12517-018-4143-9.
16. Yeo S. M. 2015;Development of correlations for estimation of compression index, compression ratio, and undrained shear strength of soft clays in busan area. Master's thesis, Hanyang University (In Korean)
17. Yoon G. L, Kim B. T. 2003;Formula of compression index prediction for marine clay in Korea. Journal of civil and Environmental Engineering Research 23(3C):169–176. (In Korean).

Article information Continued

Fig. 1

Conceptual Diagram of RF

Fig. 2

Conceptual Diagram of Hyper Plane

Table 1

Range of Data by Region

Busan GwangYang Mokpo
Wc (%) 20.60~85.10 23.50~156.80 31.20~87.30
LL (%) 1.64~67.20 30.00~100.60 28.10~85.40
PI 28.1~76.70 11.70~90.40 9.00~61.60
e0 0.61~2.37 0.61~4.28 0.84~2.37
Cc 0.04~1.60 0.13~1.99 0.13~1.32

Table 2

Descriptive Statistics of Data

Category Average Sth. Error Median Std. deviation
Wc (%) 59.88 0.37 58.35 14.24
LL (%) 61.32 0.37 60.70 14.50
PI 35.73 0.30 35.30 11.60
e0 1.65 0.01 1.61 0.39
Cc 0.69 0.01 0.66 0.25

Table 3

Result of Correlation Analysis

Category Correlation Coefficient P-Value
Wc (%) 0.740 0.000
LL (%) 0.642 0.000
PI 0.628 0.000
e0 0.751 0.000

Table 4

Comparison of Regression Equations between This Study and Previous Studies

Category Equation R2
Cc-Wc Cc = 0.0146 (Wc-16.7) (Kim et al., 2001) 0.93
Cc = 0.013 (Wc-6.94) (This Paper) 0.55
Cc-LL Cc = 0.0134 (LL-9.65) (Kim et al., 2001) 0.89
Cc = 0.0112 (LL-0.018) (This Paper) 0.41
Cc-PI Cc = 0.018 + 0.092 PI (Kim et al., 2001) 0.89
Cc = 0.0136 (PI + 14.79) (This Paper) 0.39
Cc-e0 Cc = 0.587 (e0-0.586) (Kim et al., 2001) 0.94
Cc = 0.4832 (e0-0.225) (This Paper) 0.56

Fig. 3

Correlation between Cc and Factors

Table 5

Summary of Hyper Parameters in the Model

Model Hyper parameter
RF estimators (300), max depth (2)
LR fit intercept (True)
Ridge alpha (0.01)
Lasso alpha (0.001)
SVM C (30), epsilon (0.1)
XGBoost estimators (500), max depth (6), learning rate (0.01)
LightGBM estimators (500), max depth (3), learning rate (0.01)

Table 6

The Performances Obtained with Models

Model RMSE R2
Busan RF 0.151 0.530
LR 0.141 0.597
Ridge 0.141 0.597
Lasso 0.141 0.587
SVM 0.147 0.556
XGBoost 0.164 0.443
LightGBM 0.144 0.573
DNN 0.171 0.454
Gwangyang RF 0.185 0.576
LR 0.172 0.633
Ridge 0.172 0.633
Lasso 0.172 0.633
SVM 0.177 0.610
XGBoost 0.193 0.534
LightGBM 0.177 0.609
DNN 0.189 0.596
Mokpo RF 0.147 0.469
LR 0.140 0.520
Ridge 0.140 0.520
Lasso 0.141 0.510
SVM 0.140 0.530
XGBoost 0.160 0.372
LightGBM 0.137 0.536
DNN 0.136 0.507
Total RF 0.167 0.558
LR 0.158 0.605
Ridge 0.158 0.605
Lasso 0.158 0.603
SVM 0.157 0.605
XGBoost 0.165 0.565
LightGBM 0.157 0.609
DNN 0.167 0.536

Fig. 4

Models between the Predicted and Actual Values for the Compression Index

Fig. 5

Feature Importance of T-LGBM