Current Issue

Journal of the Korean Society for Marine Environment and Energy - Vol. 28 , No. 2

[ Original Article ]
Journal of the Korean Society for Marine Environment & Energy - Vol. 28, No. 2, pp. 99-107
Abbreviation: J. Korean Soc. Mar. Environ. Energy
ISSN: 2288-0089 (Print) 2288-081X (Online)
Print publication date 25 May 2025
Received 04 Mar 2025 Revised 14 Apr 2025 Accepted 12 May 2025
DOI: https://doi.org/10.7846/JKOSMEE.2025.28.2.99

Multi-step 딥러닝 모델을 활용한 진동만 저층 용존산소 예측 연구
조준모1 ; 박수호3, ; 김청숙1 ; 장선웅4 ; 박성은2
1국립수산과학원 해양환경연구과 연구원
2국립수산과학원 해양환경연구과 연구사
3아이렘기술개발 부설연구소 책임연구원
4아이렘기술개발 부설연구소 대표이사

A Study on Prediction Bottom Dissolved Oxygen in Jindong Bay Using Multi-Step Deep Learning Models
Junmo Jo1 ; Suho Bak3, ; Chungsook Kim1 ; Seon-Woong Jang4 ; Sung Eun Park2
1Researcher, Marine Environment Research Division, National Institute of Fisheries Science, Busan 46083, Korea
2Research Scientist, Marine Environment Research Division, National Institute of Fisheries Science, Busan 46083, Korea
3Principal Researcher, Research Institute, IREMTECH Co.Ltd., Busan 46028, Korea
4CEO, IREMTECH Co.Ltd., Busan 46028, Korea
Correspondence to : shbak@iremtech.co.kr

Funding Information ▼

초록

본 연구는 진동만 저층 용존산소 농도를 72시간 앞까지 시간 단위로 예측하기 위해 멀티스텝 딥러닝 모델을 적용하였다. 2017년부터 2021년까지 관측된 표저층 수온과 용존산소 그리고 이들의 차분 자료를 활용하여 SimpleLSTM, ConvLSTM, ConvFC 모델을 구축 및 비교하였다. 비교 결과, SimpleLSTM 모델은 가장 낮은 RMSE(1.232)와 MAE(0.996)를 보였으나 단주기 변동 재현이 미흡하였다. 반면, 1D-CNN 기반의 ConvFC 모델은 예측 구간의 변동성을 보다 정확히 포착하여 Multi-step 예측에 더 적합함을 확인하였다. 이는 LSTM 레이어가 장기 추세의 재현에는 유리하나 예측 구간이 길어짐에 따라 오차가 누적될 수 있기 때문으로 해석된다. 본 연구 결과는 연안 양식장에서 빈산소로 인한 피해를 사전에 대비하기 위한 실시간 경보 시스템 구축에 활용될 수 있으며, 향후 더 다양한 환경 요인과 자료 해상도를 고려하여 모델 성능을 고도화할 필요가 있다.

Abstract

This study employed a multi-step deep learning model to predict bottom-layer dissolved oxygen (DO) concentrations in Jindong Bay up to 72 hours in advance, at hourly intervals. Using surface and bottom temperature and DO observations from 2017 to 2021, along with their differenced data, three models (SimpleLSTM, ConvFC, and ConvLSTM) were built and compared. Although the SimpleLSTM model yielded the lowest RMSE (1.232) and MAE (0.996), it struggled to capture short-term fluctuations. In contrast, the 1D-CNN–based ConvFC model more accurately reflected variability within the forecast range, indicating its suitability for multi-step prediction. This difference is attributed to the accumulation of errors in LSTM layers over extended prediction horizons. The findings suggest that establishing real-time warning systems for low-oxygen events in coastal aquaculture would benefit from such models, while future studies should incorporate more diverse environmental factors and higher-resolution data to further enhance model performance.


Keywords: Deep learning, Multi-step, Dissolved oxygen, Jindong bay, Forecast
키워드: 딥러닝, 멀티 스텝, 용존 산소, 진동만, 예측

1. 서 론

용존산소는 수생태계의 건전성과 직접적인 관련이 있는 중요 환경인자이다(Xu et al.[2022]). 용존산소의 농도는 생물의 생존성과 관련이 있으며, 적정 수준의 농도를 유지하는 경우 호흡 대사, 먹이 섭취, 면역 반응 등 생물의 주요 생리 기능이 원활히 작동하여 생물의 성장과 발달을 촉진할 수 있다. 반면, 해당 범위를 넘어서면 이를 저해할 수 있다(Shin et al.[2014]; Park et al.[2023]). 용존산소 농도가 감소하면 생물은 저산소 스트레스를 겪으며, 이로 인해 대사 억제, 성장 저하, 면역력 약화, 심지어 폐사에 이를 수 있다. 특히, 저산소 환경에서는 물고기나 갑각류 등이 수면으로 부상하거나 체내 산소 운반 능력을 증가시키는 등의 생리적 보상 반응을 보이지만, 이러한 상태가 지속될 경우 생물의 에너지 소모가 가중되어 생존에 큰 위협이 된다. 연안 양식장과 같은 밀집된 생물 환경에서는 낮은 용존산소 농도가 대규모 폐사로 이어져 막대한 경제적 피해를 유발할 수 있으며, 이러한 피해를 최소화하기 위해서는 저층 빈산소수의 형성 시기와 공간 분포를 사전에 예측하고 이에 대한 대비가 필수적이다(La et al.[1991]). 또한, 기후변화와 연안 개발로 인한 육상기원 오염물질 유입 증가, 수온 상승 등은 수체 내 산소 소모량을 더욱 증가시키는 요인이 되고 있어, 향후 수생태계의 용존산소 변화를 장기적·공간적으로 정밀하게 파악할 필요성이 점차 커지고 있다. 용존산소의 농도를 예측하기 위하여 다양한 시계열 예측 기법을 활용한 연구가 이뤄져 왔으며 관측 기법의 발전과 더불어 다양한 용존산소 예측 연구들이 이뤄지고 있다. 과거에는 ARIMA(Auto Regressive Integrated Moving Average), TFM(Transfer Function Model)과 같은 전통적인 시계열 모델링 기법을 기반으로 용존산소 예측을 시도하였다(Ryu et al.[1999]; Seo and Han[2000]). 그러나 이러한 전통적인 시계열 모델링 기법은 설명변수와 예측변수 간에 주기성이나 추세성이 일관되고 선형성이 뚜렷한 환경에 적합한 방법으로 비선형적인 함수관계를 가진 용존산소 증감을 모델링하는데는 한계가 있다. 이러한 전통적인 모델링 기법의 한계를 극복하기 위한 방안으로 최근 기계학습 및 딥러닝 기법이 시계열 분석 및 예측 분야에서 높은 성능을 보인 사례들이 보고되고 있다. 수문학에서의 머신러닝과 딥러닝 기법의 활용 사례로, Li and Yang[2019]은 수문 시계열의 비선형성과 시계열 의존성을 효과적으로 반영하기 위하여 주의 메커니즘(Attention Mechanism)을 결합한 Attention-LSTM 모델을 제안하였으며, 이는 기존 LSTM 및 전통적 역전파 신경망(BP) 모델 대비 오차가 줄어듬을 확인하였다. 또한, Li et al.[2019]은 Deep Belief Network(DBN) 구조를 활용하여 수문 시계열의 불규칙성과 비정상성을 효과적으로 처리할 수 있는 모델을 개발하였다. 기상학의 경우 Sha and Guha[2023]가 시간적 주의 메커니즘과 전이 학습을 결합한 LSTM 기반 모델을 제안하여 복잡한 기후 패턴의 장기 예측 정확도를 높였다. 이처럼 많은 분야에서 비선형적 예측 수행을 위하여 기계학습 및 딥러닝 기법을 활용한 연구가 활발히 이뤄지고 있으며 기존의 모델링 기법으로 제약이 뚜렷한 용존산소 예측에도 활용될 필요가 있다. 기계학습과 딥러닝을 활용한 용존산소 예측에는 주로 시계열 자료의 장기의존성 문제를 해결하여 장기간의 시계열 자료 분류 및 예측에 적합한 Long Short-Term Memory(LSTM) 모델 또는 Gated Recurrent Unit(GRU)의 활용이 주를 이룬다. Hu et al.[2022]는 주의 메커니즘이 결합된 Single Step GRU 모델을 활용하여 하천의 용존산소를 예측하였으며 상관계수 약 0.9 이상의 높은 예측성능을 확인하였다. 또한, Abba et al.[2020]은 LSTM, GRNN, ELM, HW 등 여러 모델의 용존산소 예측 정확도를 비교하였다. 이 중 HW 모델의 예측 정확도가 가장 뛰어났으며 HW 모델과 랜덤 포레스트를 결합한 앙상블 모델을 개발하여 Single Step 예측 모델의 활용 가능성을 제시하였다. Single Step 모델을 이용한 용존산소 예측은 Li et al.[2021]의 연구에서도 확인할 수 있으며, 비선형성이 강한 환경 데이터를 기반으로 Particle Swarm Optimization(PSO)로 최적화된 Surpport Vector Regression(SVR) 모델을 통해 단일 시점의 용존산소 농도를 높은 정확도로 예측하였다. 이러한 연구들은 대부분 장기간의 환경 자료를 입력하여 특정 1개 시점의 용존산소량을 예측하는 Single Step 모델로 제안되고 있다. Single Step 모델은 모델에 입력된 마지막 시점 직후의 시점을 예측하는 방식으로 용존산소의 급감을 예측하더라도 대응시간이 부족해 방재적 실용성이 낮다는 한계점이 있다. 이에 따라 일부 연구에서는 예측 선행 시간(Lead Time)을 적용하여 2~3일 후의 용존산소량을 예측하려 했으나 이 또한 특정 1개 시점만을 예측하여 추세나 변동성을 파악하는데 한계가 있다. 반면, Multi Step 모델은 모델의 1회 예측을 통해 특정 시점의 예측값이 아닌 시계열 형태의 예측을 수행하며 특정 기간의 용존산소 농도 변동 추세 및 변동성을 파악할 수 있다. 이러한 Multi-Step 시계열 예측 모델은 일반적으로 LSTM(Long Short Term Memory) 또는 1D-CNN(1-Dimensional Convolutional Neural Network)을 기반으로 구현되며(Bi et al.[2020]; Wu et al.[2024]), 기존 연구들 역시 주로 특정 시점의 DO 값을 예측하거나 짧은 예측 구간에 집중한 것이 특징이다. 이에 반해 본 연구는 기존 모델 구조의 연장선상에서 단기 예측 정확도뿐 아니라 예측 구간 내의 변동성 재현 성능까지도 평가 지표로 도입하였으며, 72시간이라는 중기 시계열 예측 구간을 설정하여 기존 연구에 비해 실질적인 방재 활용 가능성을 높였다는 점에서 차별성을 갖는다. 또한, LSTM 기반 모델의 구조적 한계를 지적하고, 오차 누적 문제를 피할 수 있는 ConvFC 구조의 Multi-Step 모델이 단주기 변동 예측에 더 유리함을 실증적으로 제시하였다는 점에서도 기존 연구와의 명확한 차이를 보인다. 그러나 용존산소 농도 예측을 위한 선행 연구들은 대부분 LSTM을 기반으로 만들어진 모델과 전통적인 시계열 모델 또는 기계학습 모델 간의 성능 비교를 중심으로 이루어지고 있다. 따라서 본 연구에서는 1D-CNN 기반의 Multi Step 용존산소 예측 모델을 제안한다. 또한 기존 선행 연구들이 많이 활용한 LSTM 기반의 모델과의 성능 비교를 수행하였다.


2. 재료 및 방법
2.1 연구대상해역

본 연구의 대상 해역인 진동만은 경상남도 창원시 마산합포구에 위치한 소규모 만이다. 만의 북쪽으로는 진동천과 태봉천이 유입되며, 서쪽으로는 진전천이 유입된다. 각 하천 유역에는 대규모 농경지가 형성되어 있으며, 농경지가 하천에 인접하고 있어 농업 활동으로 인한 영양염류가 만으로 유입되고 있다(Fig. 1). 한편, 진동만 연안에는 수하식 양식장이 자리잡고 있어, 양식업이 활발히 이루어지고 있다. 하지만 하천과 양식장에서 유입되는 유기물로 인해 부영양화가 가속화되고, 이로 인해 매년 봄과 가을에 걸쳐 빈산소수괴가 발생하고 있어 양식생물과 저서생물에 심각한 피해를 주고 있다. 본 연구에서는 진동만의 환경 변화를 정밀하게 모니터링하기 위해 관측용 부표를 설치하였다. 설치된 부표로부터 2017년부터 2021년까지 매 1시간마다 표층, 중층, 저층에서 수온과 염분, 용존산소를 측정하였다.


Fig. 1. 
Schematic diagram of Jinhae Bay and monitoring stations (red dots).

2.2 입력변수 선택

본 연구에서는 저층 용존산소 예측을 위한 다변량 시계열 예측 모델을 구축하기 위해 저층 용존산소 농도, 저층 수온, 표층 수온, 표층-저층 수온차(ΔT), 저층 용존산소 1차 차분 시계열, 표층-저층 수온차 1차 차분 시계열의 총 6개 변수를 선택하였다. 학습에서 제외된 염분 데이터는 성층 형성에 기여하는 바가 분명하지만 생물 부착과 같이 자료의 오차가 발생할 확률이 크기 때문에 학습에 악영향을 초래할 수 있어 제외되었다. 저층 용존산소 농도는 본 연구의 핵심 예측 변수로, 다른 변수들과의 상호작용을 통해 그 변동성을 설명하기 위해 사용하였다. 또한 과거 저층 용존산소의 변동 패턴을 통해 예측 구간의 저층 용존산소 농도를 모델링하는데 초점을 두었다. 표층과 저층 수온은 해양 환경에서 온도 변화가 용존산소 농도에 미치는 영향을 평가하는 데 중요한 변수들이다. 피어슨 상관계수 분석 결과 표층과 저층 수온은 각각 0.604와 0.466으로 저층 용존산소 농도와 강한 상관관계를 보였다. 특히, 표층과 저층 수온의 조합은 특정 해역의 온도 구조의 영향을 포괄적으로 설명할 수 있는 변수라 판단하여 설명변수로 활용하였다. 표층-저층 수온차는 수온 약층의 존재와 변동성을 반영할 수 있는 지표로 알려져 있다. 표층-저층 수온차는 피어슨 상관관계 분석 결과 0.603의 강한 상관관계를 보였다. 특히, 표층-저층 수온차와 저층 용존산소의 시계열은 일정 수준의 시차를 두고 유사한 위상으로 변화하는 것을 확인할 수 있었다. 이는 Liu et al.[2020]이 두 변수 간의 상관성에 대해서 보고한 바 있다. 특히, 표층-저층 수온차가 저층 용존산소의 급격한 하락 시기 이전에 우선적으로 변동을 일으킨다는 점에서 저층 용존산소의 급변을 설명하기 위한 전조현상으로 활용할 수 있을 것으로 판단했다. 한편, 저층 용존산소 농도와 표층-저층 수온차는 예측 구간의 저층 용존산소 농도의 시계열 위상을 예측하기 위한 변수이다. 이를 위해 각 변수에 시계열 1차 차분을 적용하여 원본 시계열과 함께 사용하였다. 시계열의 차분을 통해 데이터의 정상성을 확보함으로써 원본 시계열의 추세와 계절성을 제거하여 시간에 따른 변동성을 보다 명확하게 하였다.

2.3 데이터셋

관측기간 5년(2017~2021년) 중 2021년을 평가용 데이터셋(Test Dataset)으로 활용하였으며, 나머지 4년(2017~2020년) 자료를 모델 학습(Train Dataset) 및 검증용 데이터셋(Validation Dataset)으로 활용하였다. 모델에 사용된 모든 시계열 데이터는 이상치 제거를 위해 사분위 범위(Interquartile Range, IQR) 기반의 탐지 기법을 적용하였다. 이상치 판별에 사용되는 IQR 값은 제1사분위수(Q1)와 제3사분위수(Q3)의 차이를 나타내며 식(1)과 같이 이상치 탐지 기준을 정의할 수 있다.

Lower Bound =Q1-1.5×Q3-Q1(1a) 
Upper Bound =Q3+1.5×Q3-Q1(1b) 

본 연구에서는 결측 구간이 12시간 이하인 경우, 칼만 필터 기반 보간법을 적용하여 모델 학습에 활용할 수 있는 시계열 데이터를 보간하였다. 칼만 필터(Kalman Filter)는 상태공간 모델(State-Space Model)에 기반한 추정 기법으로, 관측값과 예측값을 통합하여 시간에 따른 상태의 최적 추정치를 계산한다. 이 방법은 측정값에 포함된 노이즈를 효과적으로 제거하고, 결측이 존재하는 구간에서도 상대적으로 안정적인 추정이 가능하다는 장점이 있다. 특히 시간에 따라 동적으로 변화하는 시스템의 특성을 반영할 수 있어 최근 다양한 시계열 분석 분야에서 널리 활용되고 있다. 그러나 결측 구간의 길이가 12시간을 초과하는 경우에는 시계열의 연속성이 심각하게 훼손될 수 있으며, 이로 인해 모델 학습에 필요한 데이터의 품질이 저하될 우려가 있다. 따라서 본 연구에서는 해당 기준을 초과하는 결측 구간에 대해서는 보간 처리를 수행하지 않고 학습용 데이터셋에서 제외하였다. 데이터셋 구축에 활용한 설명변수들의 단위와 스케일이 다르므로, 이를 일치시키기 위해 Robust Scaling(식 2)을 적용하였다.

S=x- Median (x)Q3-Q1(2) 

여기서 x = 입력 데이터(Input data)

   Q = 사분위수(Quantile)

일반적으로 시계열 데이터의 예측을 위한 데이터셋은 One to One, One to Many, Many to One, Many to Many로 총 4가지 방식이 존재한다. 본 연구에서 활용한 모델은 미래 시점에 대한 시계열을 예측하는 Multi-Step 모델로 Many to Many 방식에 기반한 데이터셋 구조를 선택하였다.

2.4 딥러닝 기반 예측 모델

시계열 예측 모델은 예측값의 구간길이에 따라 Single Step 모델(또는 Many to One)과 Multi Step 모델(Many to Many, Sequence to Sequence)로 구분한다. Single Step 모델은 시계열을 입력자료로 사용하지만 예측값은 단일 시점의 값만을 생성한다, Multi Step 모델은 입력자료가 시계열인 것은 Single Step 모델과 동일하나 예측값 또한 시계열이라는 차이가 있다. 본 연구에서는 6개의 변수를 시계열로 입력하여 1개의 변수를 시계열로 출력하는 형태의 Multi Step 모델을 구성하였으며, 각 시계열의 길이는 14일(336시간)로 설정하였다. 이 중 11일(264시간)은 동일 시점을 공유하도록 하였다. 따라서 모델의 예측 시계열 14일 분량 중 마지막 3일(72시간)에 해당하는 시계열을 실제 예측 결과로 활용하였다(Fig. 2).


Fig. 2. 
Data Input and Output Structure of the Deep Learning Model.

각 딥러닝 모델은 Fig. 3과 같이 구성된다. SimpleLSTM 모델은 LSTM 계층과 밀집 계층(Dense Layer)로 구성하였다. 일반적으로 시계열 또는 신호와 같이 시퀀스 데이터 예측에 많이 사용하는 모델 구조이며, 복잡한 패턴과 긴 종속성의 학습을 위해 LSTM 계층을 단층이 아닌 복층으로 구성하였다. ConvLSTM 모델은 1D 합성곱 계층과 LSTM(Long Short Term Memory Layer) 계층으로 구성하였다. 다변량 시계열 데이터로부터 변수 간의 교차상관 특징을 추출하기 위해 1D 합성곱 계층을 활용하였으며, 필터는 크기가 3인 커널로 각층에 128개씩 2층으로 구성하였다. 추출된 특징들과 반응변수(저층 용존산소 농도) 간의 함수관계를 추출된 특징의 순서에 따라 모델링하기 위해 LSTM 계층을 활용하였다. ConvFC 모델은 1D 합성곱 계층(1-Dimensional Convolution Layer)과 밀집 계층(Dense Layer)으로 구성하였다. 다변량 시계열 데이터로부터 변수 간의 교차상관 특징을 추출하기 위해 1D 합성곱 계층을 활용하였으며, 필터는 크기가 3인 커널로 각 층에 32개씩 4층으로 구성하였다. 추출된 특징들과 반응변수(저층 용존산소 농도) 간의 함수 관계를 모델링하기 위해 밀집 계층을 활용하였다. 또한 입력 시계열에서 노이즈에 강인한(Robustness) 특징 추출을 유도하기 위해 입력 시계열에서 5%를 무작위로 Drop out시켰다.


Fig. 3. 
Model Structures of SimpleLSTM, ConvLSTM, and ConvFC.

2.5 딥러닝 모델 성능 평가 지표

본 연구에서는 모델의 예측성능 평가를 위해 평균절대오차(Mean Absolute Error, MAE), 제곱근평균제곱오차(Root Mean Square Error, RMSE)를 사용하였으며, 각각 식 (3)(4)으로 정의된다. 각 성능 지표는 모델의 예측값과 실제값(관측값) 간의 차이를 의미하며, 0에 가까울수록 모델의 예측 정확도가 높다고 해석할 수 있다.

MAE=1Ni=1Ny^i-yi(3) 
RMSE=1Ni=1Ny^i-yi2(4) 

여기서 N = 전체 데이터 숫자(Total data number)

y^= 실제값(Observation)

y = 예측값(Prediction)

성능 평가 결과를 참조하여 최종 모델을 선택하였으며, 최종 선택된 모델은 정성적 평가와 함께 전체정확도(Total Accuracy), 재현율(Recall), 정밀도(Precision)을 기준으로 정밀 정량평가를 실시하였다. 전체정확도, 재현율, 정밀도는 분류 문제의 정확도 평가에 많이 활용되는 지표로 혼동행렬(Confusion Matrix)을 활용하여 구할 수 있다(Table 1). 전체정확도는 전체사례 중 분류에 성공한 사례의 비율로 정의되며, 재현율은 어떤 현상이 발생한 전체사례 중 모델이 식별에 성공한 사례의 수를 의미한다. 또한 정밀도는 모델이 예측한 결과 중 정답의 비율을 의미한다. 성능 평가를 위해 저층 용존산소의 실제 관측값과 예측값을 3를 기준으로 정상 농도와 빈산소 상태로 구분하여 정확도 평가를 실시하였으며 전체정확도, 재현율, 정밀도는 각각 식 (5), 식 (6), 식 (7)과 같다.

Total Accuracy =A+DA+B+C+D(5) 
Recall =DC+D(6) 
 Precision =DB+D(7) 
Table 1. 
Configuration of the Confusion Matrix for Calculating Accuracy
  Prediction
Non hypoxic Hypoxic
OBS Non hypoxic A B
Hypoxic C D

한편, 본 연구에서 활용한 모델은 72시간 길이의 시계열 형태의 예측 결과를 출력하기 때문에 각 예측 시간대별 성능을 평가하였다. 모델이 예측한 시점(1~72시간)을 기준으로 12시간 간격(12, 24, 36, 48, 60, 72시간)으로 예측성능을 비교하였다.


3. 결과 및 고찰
3.1 모델별 예측 성능 비교

본 연구에서는 저층 용존산소 예측을 위한 딥러닝 모델 3종인 SimpleLSTM과 ConvFC, ConvLSTM의 예측 결과는 Fig. 4와 같다. 각 모델의 예측 성능을 비교한 결과, SimpleLSTM 모델은 RMSE 1.232, MAE 0.996로 나타났고, ConvFC 모델은 RMSE 1.362, MAE 1.098, ConvLSTM 모델의 RMSE는 1.458, MAE는 1.151로 나타났다. 정량적 성능 지표를 기준으로 비교해보았을 때, SimpleLSTM 모델, ConvFC 모델, ConvLSTM 모델 순으로 낮은 오차를 보였다. 이는 SimpleLSTM 모델이 가장 높은 예측 정확도를 갖고 있음을 시사한다(Table 2).


Fig. 4. 
Comparison of Observed Data and Predicted Time Series by Three Different Models Across the Forecast Period.


Fig. 5. 
Detailed Time Series for Comparing Short-Term Fluctuations of the Three Models.

Table 2. 
Statistical Metrics (RMSE and MAE) for Each Models
  Simple LSTM Conv LSTM Conv FC
RMSE 1.232 1.458 1.362
MAE 0.996 1.151 1.098

하지만 수치상 나타난 정확도와 다르게 각 모델이 예측한 시계열을 살펴보면 ConvFC 모델이 실제 시계열의 위상과 추세를 가장 잘 재현하는 것으로 나타났다(Fig. 4). 수치적 성능이 가장 뛰어났던 SimpleLSTM 모델은 실제 시계열의 장기 추세는 어느 정도 반영했으나, 단주기 변동은 제대로 재현하지 못했다. 특히 2021년 5월 8일에 발생한 급격한 DO 변동에 대해 ConvLSTM 모델은 단주기 변화를 거의 포착하지 못하고 장기 추세만 예측하는 경향을 보였다. 이는 시계열 데이터의 연속적인 패턴을 학습하는 과정에서 LSTM 레이어가 이전 시점 출력값에 영향을 받아 오차를 누적하면서 예측 정확도가 떨어진 것으로 추정된다.

이러한 차이는 1D-CNN 계층과 LSTM 계층 간의 구조적 특성에서 비롯된 것으로 판단된다. ConvFC와 ConvLSTM 모두 1D-CNN 계층을 포함하고 있는데, 이 계층은 공간적 특성 학습에 강점을 보이는 반면, LSTM 계층은 시계열 처리 능력이 우수하다. 이러한 구조적 차이가 예측 성능에 직접적인 영향을 미쳤을 가능성이 높다. 예측 결과의 차이를 이해하기 위해서는 예측 대상 시계열 데이터의 특성과 모델 구조를 종합적으로 고려해야 한다. 예컨대 저층 용존산소 데이터의 경우, 시간적 변동성보다 입력 변수 시계열의 국지적 변동이 더 중요한 역할을 할 수 있다. ConvFC 모델이 높은 예측 정확도를 보인 것은 바로 이러한 국지적 변동을 효과적으로 학습했기 때문인 것으로 보인다. 반면 장기 패턴 학습에 장점이 있는 LSTM 계층 기반 모델(ConvLSTM)은 급격한 변동에 대한 민감도가 낮아, 예측 오차가 커진 것으로 추정된다.

Fig. 6은 각 모델의 예측이 실제 용존산소 시계열의 추세와 변동을 얼마나 재현하고 있는지 정량적으로 평가하기 위해 DTW(Dynamic Time Warping) 거리를 계산한 결과이다. DTW는 두 시계열 또는 신호의 형태적 유사성을 정량적으로 평가할 때 활용하는 알고리즘으로 DTW 거리가 0에 가까울수록 두 시계열이 유사한 형태를 가지고 있다고 해석된다. Fig. 46의 결과에 비추어보았을 때, 모든 시점에서 ConvFC가 실제 관측 시계열의 형상과 가장 유사하게 나타났다. 종합적으로 모델의 성능을 고려하였을 때, 정량적인 성능 평가 결과가 SimpleLSTM 모델에서 가장 높게 나타났으나 예측 구간 내 변동성을 재현하는 능력이 Multi-step 모델을 개발하는 궁극적인 이유이므로 SimpleLSTM 모델은 부적합한 모델이라고 판단하였다. 따라서 최종 모델은 예측 구간 내에서 변동성 재현 능력이 확보된과 동시에 비교 대상 모델군 중 상대적으로 오차가 낮은 ConvFC 모델이 보다 적합하다고 판단된다.


Fig. 6. 
DTW Distance Results for Each Model at Different Forecast Times.

3.2 ConvFC 모델의 예측 시기별 성능 정량평가

Fig. 7은 최종 모델로 선택된 ConvFC 모델의 예측 시기별 성능 평가 결과를 나타낸 것이다. ConvFC 모델의 예측 결과는 모든 항목에서 예측 시기가 늘어남에 따라 성능이 떨어지는 경향을 보였다. 이는 대부분의 시계열 예측 모델에서 공통적으로 관찰되는 현상으로 예측 시기가 미래에 가까울수록 불확실성이 높아져 발생하는 결과이다. 그러나 ConvFC 모델의 경우 48시간 예측 시 가장 낮은 성능을 보이며, 60시간과 72시간 예측 시 48시간 예측에 비해 성능이 높게평가되는 현상이 모든지표에서 공통적으로 나타나는 것을 확인할 수 있었다. 재현율과 정밀도를 중심으로 평가 결과를 비교 했을 때, 정밀도는 예측 시간에 따른 편차가 상대적으로 낮게 나타났으며, 비교적 일관된 성능을 보여주었다. 반면, 재현율은 예측 시간이 증가함에 따라 상대적으로 큰 성능 저하가 관찰되었으며, 다른 성능 지표와 마찬가지로 48시간 예측성능에 비해 60시간 예측성능이 다소 높아지는 패턴을 보였다.


Fig. 7. 
Performance Evaluation Results of the ConvFC Model by Forecast Time.

한편, 정밀도가 높다는 것은 모델이 빈산소수괴 발생을 예측했을 때 그 유효율이 높다는 것을 의미한다. 반면, 재현율이 낮다는 것은 모델이 식별하지 못하는 빈산소수괴 발생현상이 일부 존재한다는 것을 의미한다. 본 연구에서 개발된 ConvFC 모델의 경우 모든 예측 구간에서 정밀도가 재현율에 비해 높게 평가되었다. 이는 모델이 예측한 결과에 대해서는 신뢰할 수 있으나 실제 발생한 현상 중 일부를 탐지하지 못하는 과소 추정 경향이 있다는 의미로 해석될 수 있다.


4. 결 론

본 연구에서는 진동만 저층 용존산소 농도를 딥러닝 기반 모델로 예측하는 시도를 수행하고, 자체적으로 구현한 여러 딥러닝 모델의 예측 성능을 비교하였다. 특히 Multi-step 예측 방식을 적용하여 72시간 예측을 1시간 단위로 세분화함으로써 보다 정교한 예측이 가능함을 확인했다. 예측에 사용된 모델은 SimpleLSTM, ConvLSTM, ConvFC 모델이 사용되었으며 이 중 SimpleLSTM의 수치적 성능이 가장 우수하였다. 그러나 시계열의 실제 위상과 추세를 재현하는 능력은 1D-CNN 기반 모델이 더 뛰어난 것으로 나타났다. 진동만 해역의 저층 용존산소는 강우, 수온, 영양염의 유입 등 다양한 외부 요인의 영향을 받아 시계열 데이터의 비선형성과 변동성이 크다. 이러한 비선형성과 변동성의 재현에 국지적 패턴 학습에 강점을 갖는 1D-CNN 기반 모델이 낮은 오차와 안정적인 재현 성능을 나타냈다. 반면에 LSTM 레이어가 포함된 모델은 단주기 변동의 재현에 한계가 나타났으며, 동일한 값을 반복 예측하는 경향을 보이기도 하였다. Single-step 방식 모델의 경우 출력값이 하나임으로 LSTM 레이어의 오차 누적이 발생하지 않으나 Multi-step 방식 모델의 경우 오차 누적으로 인한 문제로 LSTM 레이어를 제거한 1D-CNN 모델이 더욱 적합하다고 판단된다.

본 연구의 결과는 해양환경 관리와 어장 관리 측면에서 실질적인 시사점을 제공한다. 72시간 멀티스텝 예측 모델은 빈산소수괴 발생가능성을 사전에 예측할 수 있는 도구로 활용될 수 있으며, 이를 통해 연안 양식장에서의 산소 공급 장치 가동과 같은 대응 조치를 조기에 시행할 수 있는 기반을 제공한다. 또한, 예측 데이터를 활용하여 특정 시간대와 지역에서 발생할 수 있는 급격한 용존산소 감소를 식별함으로써 생태계와 양식 생물의 피해를 최소화하는 데 기여할 수 있다.

향후 관측 데이터의 해상도와 품질을 개선하고, 빈산소수괴 발생 기작과 관련된 요인을 모델에 추가적으로 반영하여 예측 정확도를 높이는 것이 필요하다. 수온과 함께 성층 형성에 기여하는 염분과 수체 내 산소 소모에 기여하는 환경인자를 함께 고려한다면 더욱 정확한 딥러닝 모델 구축이 가능할 것으로 보인다. 또한, 데이터의 시간적·공간적 분포가 균형을 이루도록 모델을 구축한다면 모델의 범용성을 확대할 수 있을 것이다. 본 연구는 급격히 변동하는 연안의 용존산소를 예측함에 있어 멀티스텝 모델의 활용 가능성을 입증하였으며, 이를 기반으로 한 해양환경 관리 기술의 고도화에 기여할 것으로 기대된다.


Acknowledgments

본 논문은 2025년도 국립수산과학원 수산과학연구사업(R2025043)의 지원으로 수행되었습니다.


References
1. Abba, S., Linh, N.T., Abdullahi, J., Ali, S.I.A., Pham, Q.B., Abdulkadir, R.A., Costache, R., Nam, V.T. and Anh, D.T., 2020, Hybrid machine learning ensemble techniques for modeling dissolved oxygen concentration, IEEE Access, 8, 157218-157237.
2. Bi, J., Lin, Y., Dong, Q., Yuan, H. and Zhou, M., 2020, An improved attention-based LSTM for multi-step dissolved oxygen prediction in water environment, in Proc. of 2020 IEEE International Conference on Networking, Sensing and Control (ICNSC), Beijing, China, IEEE, 1-6.
3. Hu, J., Li, M., Xu, X., Hao, Z., Yang, B., Jiang, J. and Shi, B., 2022, Multi-step prediction of dissolved oxygen in river based on random forest missing value imputation and attention mechanism coupled with recurrent neural network, Water Supply, 22(6), 6455-6470.
4. La, G.H., Lee, C.S. and Choi, W.J., 1991, Effects of dissolved oxygen on mass mortality of sea squirts in summer, Korean J. Fish. Aquat. Sci., 24(1), 52-58.
5. Li, D., Wang, X., Sun, J. and Yang, H., 2021, AI-HydSu: An advanced hybrid approach using support vector regression and particle swarm optimization for dissolved oxygen forecasting, Mathematical Biosciences and Engineering, 18(4), 3646-3666.
6. Li, K., Yu, Y., Wan, D. and Li, G., 2019, Hydrological time series prediction model based on deep belief network, in Proc. of the 2019 IEEE 14th International Conference on Intelligent Systems and Knowledge Engineering (ISKE), 505-512.
7. Li, Y. and Yang, J., 2019, Hydrological time series prediction model based on Attention-LSTM neural network, Proc. of the 2nd International Conference on Machine Learning and Machine Intelligence, 61-65.
8. Liu, G., He, W. and Cai, S., 2020, Seasonal variation of dissolved oxygen in the southeast of the Pearl River Estuary, Water, 12(9), 2475.
9. Park, G.H., Choi, J.S., Lee, Y.H. and Park, J.H., 2023, Acceptable level of dissolved oxygen concentration for rainbow trout (Oncorhynchus mykiss) in a recirculating aquaculture system, J. Fish. Mar. Technol., 59(4), 387-398.
10. Ryu, B.R., Cho, J.S. and Han, Y.S., 1999, Dissolved oxygen prediction for the Gongju site using the transfer function noise model, J. Environ. Sci. (Korea), 8(3), 349-354.
11. Seo, W.H.L.I.S. and Han, Y.S., 2000, Time series analysis of dissolved oxygen simulation with a state-space model and a multiplicative ARIMA model, Korean J. Sanit., 15(2).
12. Sha, R. and Guha, T., 2023, Climate time series prediction with deep learning and LSTM, in Proc. of the 4th International Conference on Smart Electronics and Communication (ICOSEC), 1631-1637.
13. Shin, Y.K., Park, J.J., Park, M.S., Myeong, J.I. and Heo, Y.B., 2014, The effect of changes in temperature and dissolved oxygen on the mortality and physiological responses of sea squirt (Styela clava), Korean J. Environ. Biol., 32(3), 216-224.
14. Wu, J., Wang, Z., Dong, J., Yao, Z., Chen, X. and Fan, H., 2024, Multi-step ahead dissolved oxygen concentration prediction based on knowledge guided ensemble learning and explainable artificial intelligence, J. Hydrol., 636, 131297.
15. Xu, C., Luo, P., Wu, P., Song, C. and Chen, X., 2022, Detection of periodicity, aperiodicity, and corresponding driving factors of river dissolved oxygen based on high-frequency measurements, J. Hydrol., 609, 127711.