Journal of the Korean Society for Marine Environment and Energy

[ Original Article ]

Journal of the Korean Society for Marine Environment & Energy - Vol. 29, No. 1, pp.79-91

ISSN: 2288-0089 (Print) 2288-081X (Online)

Print publication date 25 Feb 2026

Received 22 Sep 2025 Revised 06 Feb 2026 Accepted 09 Feb 2026

DOI: https://doi.org/10.7846/JKOSMEE.2026.29.1.79

고해상도 연속 관측 데이터를 활용한 딥러닝 기반 마산만 특별관리해역 총질소 예측 연구

김종홍¹

; 김청숙¹^{, †}

; 조준모¹

; 이은주¹

; 박성은²

1국립수산과학원 해양환경연구과 연구원
2국립수산과학원 해양환경연구과 해양수산연구관

A Deep Learning-Based Total Nitrogen Prediction Study in the Masan Bay Special Management Sea Area Using High-Resolution Continuous Observation Data

Jong-Hong Kim¹

; Chung-Sook Kim¹^{, †}

; Junmo Jo¹

; Eun-Joo Lee¹

; Sung-Eun Park²

1Researcher, Marine Environment Research Division, National Institute of Fisheries Science, Busan 46083, Korea
2Senior Researcher, Marine Environment Research Division, National Institute of Fisheries Science, Busan 46083, Korea

Correspondence to: ^† matiz4070@naver.com

초록

우리나라의 특별관리해역인 마산만은 반폐쇄성 지형과 육상기인 오염원 유입으로 인해 부영양화에 취약하다. 본 연구는 연안의 총질소(TN) 농도를 예측하기 위해, 2014년부터 2024년까지 수질자동측정망에서 관측된 고해상도 시계열 자료를 기반으로 딥러닝 모델인 Long Short-Term Memory(LSTM)를 구축하였다. 초기 모델은 결정계수 0.94의 높은 정확도를 보였으나, 선행시간(lead time)이 길어지거나, 극한 강우로 인한 총질소의 스파이크 구간에서 성능이 저하되었다. 모델의 정확도 향상을 위해 전처리를 수행한 결과, 결정계수가 최대 0.99까지 향상되었다. 본 연구에서는 고해상도 시계열을 기반으로 총질소 변동을 파악하였다. 또한 극한 강우 이후 발생하는 총질소의 비선형적 변동이 딥러닝 모델의 성능을 저하시켜, 이를 개선하기 위해 최적의 개선 방안을 모색하였다. 이러한 결과는 연안 수질 관리 체계 수립과 기후변화에 대응하기 위한 향후 신뢰성 높은 과학적 근거를 제공할 것으로 기대된다.

Abstract

Masan Bay, a specially managed sea area in South Korea, is vulnerable to eutrophication due to its semi-enclosed topography and the influx of land-based pollutants. In this study, we constructed a Long Short-Term Memory (LSTM) deep learning model based on high-resolution time-series data from an automatic water quality monitoring network (2014-2024) to predict coastal Total Nitrogen (TN) concentration. The initial model demonstrated high accuracy with a coefficient of determination (R²) of 0.94. However, its performance degraded as the lead time increased and during TN spike intervals caused by extreme rainfall. After implementing data preprocessing to enhance model accuracy, the R² improved to a maximum of 0.99. This research identified TN fluctuations based on high-resolution time-series data. Furthermore, we found that non-linear TN variations following extreme rainfall events degraded the deep learning model's performance, prompting an investigation into optimal improvement strategies. These findings are expected to provide a highly reliable scientific basis for establishing coastal water quality management systems and responding to climate change in the future.

Keywords:

Total nitrogen, Deep learning, Time series prediction, Masan bay, Extreme rainfall

키워드:

총질소, 딥러닝, 시계열 예측, 마산만, 극한 강우

1. 서 론

특별관리해역이란, 해양환경기준의 유지가 곤란한 해역 또는 해양환경 및 생태계의 보전에 현저한 장애가 있거나 장애가 발생할 우려가 있는 해역으로 해양오염에 직접 영향을 미치는 육지를 포함한 지역이다(Ministry of Oceans and Fisheries[2024]). 현재 우리나라에는 광양만, 마산만, 부산 연안, 시화호(인천 연안), 울산 연안 등이 특별관리해역에 지정되어, 육상기인 오염부하량의 모니터링을 포함한 지속적인 관리를 수행하고 있다. 그 중 마산만은 1970년대 산업화가 진행되면서 연안·해양환경이 급격히 악화되어 전국 연안 중 수질 오염 정도가 가장 심각한 해역으로 꼽힌다.

연안 수질오염은 주로 육지로부터 유입되는 질소(N), 인(P)과 같은 과도한 영양염 때문에 발생하는데, 그중에서도 질소는 수생태계에 필수적인 영양소임과 동시에 연안 환경 오염의 주원인이다(Nixon [1995]). 질소를 포함한 육상기인 영양염은 수역의 1차 생산자인 식물성 플랑크톤의 성장에 필수적이며 특히 질소는 플랑크톤의 성장을 제한하는 대표적인 영양소이다(Howarth and Roxanne Marino[2006]). 수생태계에 필수적이며 건강한 해양 생태계를 유지하고 생물 다양성을 풍요롭게 하는 핵심적인 역할을 하기 때문에 적절한 양의 질소 공급은 해양 먹이사슬의 기초가 되며 모든 해양의 생산력을 높인다(Lavelle et al.[2005]).

하지만 과도한 질소의 유입은 수역의 생태계와 물질순환 균형을 파괴한다. 특히 최근 기후변화에 따른 극한 강우의 증가로 인한 급격한 질소 유입은 연안역의 물질 및 생지화학적 순환에 악영향을 미치고 있다(Sinha and Michalak[2016]). IPCC[2023] 보고서에 따르면, 기후변화는 연안역의 물질순환과 생지화학적 과정의 불안정을 심화시키며, 빈산소수괴 발생과 영양염류 축적 현상을 증가시킬 것으로 전망된다. 과잉 공급된 영양염류의 과도한 축적은 유해성 조류 대증식, 용존 산소 고갈, 생물 다양성 감소 및 먹이사슬 파괴 등 다양한 수질 문제로 이어져 어패류 및 양식 생물 폐사 등의 문제를 초래할 수 있다(Bianchi and Allison[2009]; Daufresne et al.[2003]; Genner et al.[2004]; He and Silliman[2019]).

수질 악화 문제는 전 세계적으로도 심각하게 인식되며 마산만 또한 그 대표적인 사례 중 하나로 꼽힌다. 이러한 문제를 효과적으로 관리하기 위해서는 수계 내 제한 영양소인 질소의 변동 파악이 필수적이다. 수역 내 총질소(Total Nitrogen, TN) 파악에는 대부분 직접 관측 혹은 수치모델을 이용한 방법이 대표적이다. 이 중 직접 관측 방법의 경우 시간과 공간의 제약, 인력·비용 측면에 있어 한계가 존재한다. 또한 수치모델 기반 총질소 모의 방법은 시간적, 공간적으로 정교한 결과를 도출할 수 있지만 강수, 토지 피복, 만의 형태와 특성 등 많은 매개변수와 복잡한 연산 과정으로 인해 구축 및 검증 과정에 상당한 시간과 비용이 소요되는 한계가 있다(Arhonditsis and Brett[2004]). 이러한 한계는 수질뿐만이 아닌 수온, 조위, 적조 등 대부분의 해양환경 연구 분야에서 공통적으로 발생하고 있으며 이를 극복하기 위해 최근 딥러닝을 활용한 연구가 활발히 이뤄지고 있다(Kim et al.[2024]; Cho et al.[2023]; Kim et al.[2022]).

딥러닝 기반 예측은 복잡한 물리적 연산 없이 비선형적인 변동 패턴과 환경 변수 간의 관계를 학습하여 연안과 같이 복잡한 시공간 변동을 가지는 시스템에 효과적으로 적용될 수 있다. 딥러닝을 이용한 해양환경 예측 연구 중 Hadjisolomou et al.[2023]는 ANN (Artificial Neural Networks)모델을 적용하여 동일 시점의 변수를 활용한 용존무기질소(Dissolved Inorganic Nitrogen, DIN)를 예측하였다. ANN을 이용한 DIN 예측 정확도는 결정계수 0.90∼0.96으로 높게 나타났으나, 월 단위의 산발적인 데이터를 활용하여 시간에 따른 연안 환경의 비선형적 변화를 예측하는 데에는 근본적인 한계를 보였다. Wang et al.[2023]은 하천에서의 암모니아성 질소 농도를 실시간으로 예측하기 위해 LSTM 기반의 순환 신경망을 활용하였다. 예측 결과 상관계수 약 0.97, MAE는 약 0.03의 높은 정확도로 암모니아성 질소를 예측하여 실시간 모니터링 시스템에 딥러닝 모델의 적용 가능성을 입증하였으나, 강우와 같은 비선형적 변수를 입력 변수로 포함하지 않아 급격한 수질 변화 예측에 한계가 존재한다. Zheng et al.[2024]는 ResNet 기반 모델을 기반으로 위성 자료와 수질 측정 데이터를 결합하여 총질소 농도를 예측하였으며 연안의 고농도 질소 분포를 정확히 구분하였다. 하지만 위성 관측 자료의 특성상 자료의 구름과 같은 기상에 따라 자료의 안정성이 떨어졌으며 총질소의 계절적인 변동 외에 폭우로 인한 질소의 급격한 변화를 파악하기에 한계가 있었다. 연안 수질은 강우와 같은 단기 이벤트에 의해 급격하게 변동하는 특성을 가지므로, 산발적 데이터 기반의 모델은 이러한 핵심적인 특성을 포착하는 데 한계가 있다(Malan et al.[2024]).

과거 딥러닝 기반 총질소 예측 연구들은 장기 변동 재현에 집중되어 강우 등 외부 요인으로 인한 총질소의 단기 변동 재현에 한계가 있다. 본 연구는 기존 연구들의 한계를 보완하기 위해 고해상도 시계열 자료를 기반으로 딥러닝 모델을 구축하였고, 총질소의 장기 변동과 더불어 강우 등 여러 요인으로 인한 급격한 변동을 재현하였다. 예측 결과 중 일부 고농도 사례에서 정확도 감소가 나타나 이상치에 기인한 정확도 감소로 판단되어 추가적인 전처리를 수행하였다. 전처리 과정에서 유의한 자료의 손실이 불가피하였으나, 자료의 손실을 최소화하며 스파이크를 제어하고 통계적 안정성을 확보할 수 있는 방안을 제시하였다. 본 연구는 연안 수질 관리 측면에서 고해상도 자료 기반 딥러닝 모델의 재현 성능을 파악하고 연안 수질 관리 체계 및 예·경보 시스템 구축에 기여하고자 한다. 본 연구에서 제안한 전처리 과정과 결과는 딥러닝 기반 연안 수질 관리 방안을 고도화하는 과학적 자료로 활용될 것으로 기대된다.

2. 재료 및 방법

2.1 연구해역

마산만은 대한민국 남해안 진해만의 북서쪽에 위치한 반폐쇄성 내만으로, 수리·지형적으로 외해와의 해수 교환이 제한되는 특성을 가진다. 이러한 구조적 특성은 만 내부의 해수 유동 속도를 느리게 하고 만 내부로 유입된 물질의 체류시간을 길게 만든다(Fig. 1). 그 결과, 외부에서 유입된 오염물질이 쉽게 빠져나가지 못하고 만 내부에 축적되며 오염에 취약한 환경을 조성한다(Kang[1991]). 마산만 일대는 다수의 산업단지와 하수처리시설, 지방하천이 분포하고 있다. 이러한 지역의 특성상 유기물 및 영양염이 지속적으로 유입되며, 특히 여름철 장마와 같은 집중 강우 발생 시 육상기 오염물질 유입이 급증한다. 이러한 폐쇄적인 해역 특성과 강우에 집중된 오염원 유입은 질소 및 인과 같은 영양염류의 과도한 축적을 유발한다. 그 결과, 마산만은 국내에서 부영양화가 가장 심각한 해역 중 하나로 꼽히며, 매년 여름철 잦은 빈산소수괴 발생 등 양식 생물을 포함한 해양 생태계에 심각한 악영향을 미치고 있다. 이러한 복합적인 문제로 인해 마산만은 ‘특별관리해역’으로 지정되었으며, 연안해양환경의 개선과 보존을 위해 지속적인 모니터링과 예측 기술이 요구되고 있다.

Fig. 1.

Location of the Masan Bay and monitoring stations: the Tidal gauge, the ASOS (Automated Synoptic Observing System), the MEM (Marine Environment Monitoring), and the AWQM (Automatic Water Quality Monitoring) station.

2.2 딥러닝 모델 입력변수

딥러닝 기반 마산만 질소부하량 예측을 위해 사용된 입력자료와 수집주기를 Table 1에 나타내었다. 마산만 총질소 농도 예측을 위한 딥러닝 모델 개발을 위하여 해양환경공단(KOEM, 2025)에서 제공하는 수질자동측정망(AWQM) 자료를 사용하였다. 2014년 1월부터 2024년 12월까지 약 11년간 ‘마산양덕’ 정점에서 1시간 간격으로 연속 측정된 자료를 입력 자료로 활용하였으며, 자료의 유효성 및 신뢰성을 검증하기 위해 공간적으로 인접한 해양환경측정망(MEM) 정점의 월 단위 자료와 비교하여 검증을 수행하였다. 조위자료는 국립해양조사원(KHOA, 2025)에서 제공하는‘마산’조위관측소의 자료를 활용하였으며, 강수 및 누적강수량 자료는 기상청(KMA, 2025) 종관기상관측망(ASOS) ‘창원’ 지점의 관측소에서 수집된 1시간 단위 강수량 값을 사용하였다.

Table 1.

Data sources, observation feature and Frequency

딥러닝 모델 구축 과정 중 입력변수 선정은 모델의 성능에 직접적인 영향을 미치는 중요한 전처리 과정 중 하나이다. 입력변수 선정에 흔히 사용되는 피어슨 상관분석은 변수 간의 선형적 관계를 정량적으로 파악할 수 있는 방법이다. 본 연구에서는 타겟변수인 총질소와 입력변수들 간 피어슨 상관계수를 계산하여, PCC ≥ 0.4 이상의 상관성을 보이는 상위 6개의 변수들을 최종 입력변수로 선정하였다. 이 기준은 다변량 입력 특성의 수를 적절히 제한하면서도, 예측 성능에 유의미한 영향을 미칠 수 있는 변수들을 확보하기 위함이다. 추가적으로 여름 및 가을의 강우 이벤트 시, 강우강도에 따른 예측 오차 증가 문제를 해결하기 위해서 추가 검토 실험을 수행하였다. 이를 위하여 6시간부터 7일까지의 다양한 창(window)에 따라 이동평균된 입력과 타겟자료 세트를 구성하고 학습시켜 보다 안정적인 총질소 변동 예측을 수행하였다.

입력변수들의 결측 구간은 모두 제거하였으며 단위와 분포가 상이하므로 Python의 scikit-learn 라이브러리를 활용해 Min-Max Scaling을 적용하였다. 이를 통해 모든 변수를 식 (1)에 따라 0과 1 사이의 값으로 정규화하여 사용하였다.

x' = x - m i n (x) m a x (x) - m i n (x)

(1)

2.3 모델 학습 및 최적 모델 선정

총질소 농도는 다양한 환경 요인의 영향을 받아 시간에 따라 복잡한 비선형 변동을 나타내며, 이 과정에서 장기적인 시간 의존성이 발생한다(Harding et al.[2016]). 이러한 특성을 효과적으로 반영하기 위해서는 시계열 데이터의 시간 지연 및 누적 효과를 학습할 수 있는 구조가 요구된다. 본 연구에서는 이러한 시계열 특성에 적합한 모델로 LSTM(Long Short-Term Memory: 장단기 메모리) 모델을 선정하였다. LSTM 모델은 RNN(Recurrent Neural Network, 순환 신경망)에서 발생하는 장기 의존성(Long-term dependency) 문제를 해결하기 위해 제안된 구조로, 은닉층 내부에 셀 상태(Cell state)를 추가한 것이 특징이다(Hochreiter and Schmidhuber [1997]).

LSTM은 망각 게이트(Forget gate), 입력 게이트(Input gate), 출력 게이트(Output gate)로 구성되며, 각 게이트는 특정 시점에서 정보의 유지와 제거를 제어한다. LSTM의 셀 상태는 장기 의존성 정보를 유지하면서 새로운 입력을 반영하도록 설계되었다. 먼저 망각 게이트는 이전 시점 셀 상태에서 불필요한 정보를 제거하고 필요한 정보를 보존한다. 입력 게이트는 현재 시점에서 추가할 정보의 비율을 결정하며, 후보 셀 상태와 결합한다. 최종적으로 이전 상태와 새로운 정보를 가중 합산하여 갱신된 셀 상태를 형성함으로써, 시계열 데이터의 장기 패턴을 안정적으로 학습한다.

전체 자료 11년의 데이터 중 8년의 데이터는 모델 학습 및 검증용으로 사용되었으며, 이후 3년의 데이터는 테스트 세트로 활용되었다. 모델의 하이퍼파라미터(Hyperparameter)는 Python 환경의 GridSearchCV를 사용하여 최적화하였다. 최적화된 모델의 성능 평가는 결정계수(Coefficient of Determination, R²), 평균절대오차(Mean Absolute Error, MAE), 평균제곱오차(Mean Squared Error, MSE), 제곱근평균제곱오차(Root Mean Squared Error, RMSE)를 평가지표로 산정하였으며, 이는 식 (2)∼(5)과 같다.

R 2 = 1 - ∑ i = 1 n (y i - y -) 2 ∑ i = 1 n (y i - y -) 2

(2)

M A E = 1 n ∑ i = 1 n | y i - y^i |

(3)

M S E = 1 n ∑ i = 1 n (y i - y^i) 2

(4)

R M S E = 1 n ∑ i = 1 n (y i - y^i) 2

(5)

3. 결과 및 고찰

3.1 학습자료 검증

수질자동측정망의 연간 총질소 변동을 살펴보면 여름과 겨울철 강우에 따른 계절적 변동을 확인할 수 있다. 인근 기상정점의 강우 시계열과 비교하였을 때, 강우 발생 시기에 총질소 또한 크게 변동하는 것을 확인할 수 있다(Fig. 2). 이는 하천과 인접한 마산 양덕 정점의 위치 특성상 강우의 영향이 나타나는 것으로 딥러닝 모델에 이를 적절히 반영하고 예측 정확도를 향상시키기 위해서는 주된 입력자료인 수질자동측정망 자료의 신뢰성 검증이 필수적이다. 본 연구에서는 수질자동측정망 자료의 신뢰성을 검증하기 위한 비교 자료로 해양환경측정망 자료를 사용하였다. 이는 수질자동측정망의 주기적인 검·교정 여부가 불확실하고 동일 지점에서의 검증 자료가 부재하기 때문이며, 비교에 사용된 자료는 연 4회(2, 6, 8, 11월) CTD로 관측된 값이다.

Fig. 2.

Time-series observation data during the study period (2014-2024): (a) Temporal variations of TN (Total Nitrogen) concentration observed at the Masan-Yangdeok automatic water quality monitoring station and (b) Hourly rainfall observed at the ASOS station.

검증 기간은 2014년부터 2024년까지 표층 총질소, 총인, 수온, 염분 자료를 비교하였다. 비교 결과, 결정계수는 0.62∼0.96의 범위에서 나타났다. 관측 자료별 비교 결과를 살펴보면 총인의 경우 0.62로 가장 낮았고 수온의 경우 0.96, 총질소는 0.76으로 비교적 높게 나타났다. 또한 수질자동측정망의 시계열 중 강우 시 과도한 스파이크가 발생한 경우 정확한 검증이 필요할 것으로 보인다. 이는 두 정점이 하천과 인접한 해양이라는 점에서 거리에 따른 총질소 농도의 희석, 또는 수중에 잠겨있는 수질자동측정망 센서의 특성상 생물 부착 등으로 인한 측정 오차로 판단된다(Fig. 3). 관측 정점 간의 거리로 인한 희석 효과에 따라 농도 차이가 일부 관찰되었으나, 수질자동측정망 자료가 연안의 시간적 변동 패턴을 충분히 파악할 수 있는 신뢰성 있는 자료인 것으로 판단된다.

Fig. 3.

Scatter plot between MEM(Marine Environment Monitoring) and AWQM (Automatic Water Quality Monitoring) stations: (a) Total Nitrogen (mg/L), (b) Total Phosphorus (mg/L), (c) Temperature (℃) and (d) Salinity (psu).

3.2 입력변수 상관성 분석

Fig. 4는 입력변수 선정을 위한 총질소와 각 항목의 상관성 분석 결과를 나타낸다. 상관성 분석 결과로 질산성 질소, 총인, 48시간 누적강우량, 염분, 암모니아성 질소, 인산염 인으로 총 6가지 항목을 딥러닝 모델의 입력변수로 선정하였다. 선정된 6가지 항목 중 질산성질소가 상관계수 0.83으로 상관성이 가장 높았으며 총인, 인산염, 암모니아성 질소는 각각 0.57, 0.49, 0.48의 상관계수를 나타내 유의한 상관성을 보였다. 또한, 염분과 48시간 누적강우량의 경우 상관계수가 –0.71과 0.53으로 강우 시 하천부하가 총질소에 미치는 영향을 확인할 수 있었다. 그 외 수온, pH, 조위, 강우량 등의 변수는 상대적으로 낮은 상관성을 보였다. 특히 강우량의 경우 하천부하와 관련하여 상관성이 높을 것으로 예상하였으나 상관계수 0.14로 수온이나 pH보다 낮은 상관성을 보였다. 이는 강우 이후 육상기인 부하량의 유출이 수역에 도달하기까지 지연시간이 발생하여 단기간의 강우와 총질소의 상관성이 낮게 나타난 것으로 보인다. 즉, 연안 수역에 강우로 인한 영향을 합리적으로 고려하기 위해서는 누적강우량과 같이 강우의 영향이 나타나는 지연시간을 충분히 반영해야 한다.

Fig. 4.

The result of feature importance scores Pearson correlation matrix.

3.3 최종모델구축

GridSearch로 최적화된 모델의 hyperparameter 조합을 Table 2에 나타내었다. 모델 구조는 2개의 은닉층(hidden layer)으로 구성하였으며, 각 은닉층은 각각 32개와 100개의 유닛(hidden unit)으로 구성하였다. 과적합(overfitting)을 방지하기 위해 은닉층에 드롭아웃(dropout rate)을 적용하였으며, 은닉층의 활성화 함수는 tanh 함수를 사용하였다. 최적화 기법으로는 Adam optimizer를 사용하였으며, 학습률(learning rate)은 0.001로 설정하였다. 손실 함수는 MSE를 사용하였으며, batch size를 64, epochs는 50으로 설정하였다. 입력 시퀀스의 길이(sequence length)는 72시간으로 설정하였으며, 이는 3일간의 연속 수질 데이터를 입력구간으로 활용함을 의미한다. 출력 시점(output length)은 1시간으로, 단일 시점의 총질소 농도를 예측하도록 설계되었다.

Table 2.

Optimal hyperparameters for the applied deep learning model

본 연구에서는 다양한 예측 시점을 고려하기 위해 lead time을 1시간, 6시간, 12시간, 24시간으로 설정하였으며, 각 hyperparameter의 탐색 범위를 설정하고 조합을 도출하였다. 그 결과 lead time별로 최적의 조합이 일부 차이를 보였으나, 성능 차이가 통계적으로 유의미하지 않은 범위 내에서 모델 구조의 일관성을 고려하여 조합 결과 중 공통적으로 성능이 안정적인 조합을 최종 hyperparameter로 선정하였다.

3.4 예측 결과 및 성능

본 연구에서 최종적으로 구축된 3가지 모델의 예측 성능을 정량적으로 평가하기 위해, lead time을 1시간, 6시간, 12시간, 24시간으로 나누어 각각의 성능 지표를 분석하였다(Table 3). 성능 평가 결과, 모든 모델은 lead time이 길어질수록 정확도가 점점 감소하는 것으로 나타났으며, LSTM 모델의 예측 정확도가 우수한 것으로 나타났다. Persistence 모델의 R²는 0.94에서 0.21까지 감소했으며, MAE는 0.08에서 0.30 mg/L, MSE는 0.03에서 0.36 mg/L, RMSE는 0.16에서 0.60 mg/L까지 증가하였다. GRU 모델의 R²는 0.94에서 0.18까지 감소했으며, MAE는 0.08에서 0.29 mg/L, MSE는 0.03에서 0.37 mg/L, RMSE는 0.17에서 0.61 mg/L까지 증가하였다. LSTM 모델의 R²는 0.94에서 0.29까지 감소했으며, MAE는 0.09에서 0.29 mg/L, MSE는 0.03에서 0.32 mg/L, RMSE는 0.17에서 0.57 mg/L까지 증가하였다. 그로 인해 본 논문에서는 LSTM 모델을 활용하여 분석을 진행하였다.

Table 3.

Performance evaluation metrics of the Persistence, GRU and LSTM model for different lead times (1, 6, 12, and 24 hours)

LSTM의 lead time에 따른 예측 결과와 관측 자료의 산포도를 Fig. 5에 나타내었다. Fig. 5(a)의 1시간 예측 산포도를 살펴보면 딥러닝 모델의 예측 결과가 회귀선을 중심으로 고르게 분포하며 우수한 예측 성능을 보여주고 있다. 그러나 lead time이 길어질수록 모델의 성능은 급격히 저하되는 경향을 보였다. 이러한 성능 저하의 원인은 Fig. 5(b~d)에서 명확하게 확인할 수 있다. 예측 시간이 길어질수록 모델은 고농도 총질소 구간에서 실제 관측값을 과소추정하는 경향을 보였다. 특히 24시간 예측결과에서는 관측값에 나타나는 대부분의 고농도 총질소 농도를 전혀 예측하지 못하고, 평균적인 농도 범위 내에서만 예측값을 생성하는 한계가 나타났다. 따라서 본 연구에서 개발된 모델은 실시간에 가까운 단기 예보에는 매우 효과적이지만, 실질적으로 활용될 수 있는 중장기적 예측 정확도를 확보를 위해서는 추가적인 개선이 필요하다. 연안역 수질의 안정적 예측을 위해서는, 시계열 데이터에 포함된 단기 스파이크의 제어가 필요하다. 단기 변동으로 인한 예측 성능 저하 및 불안정성 문제를 완화하기 위한 방안으로 이동평균 기반의 데이터 전처리 기법을 적용하여 그 효과와 한계를 검토하였다.

Fig. 5.

Regression analysis results between the LSTM model’s predicted and observed TN (Total Nitrogen) values for different lead times ((a): 1, (b): 6, (c): 12, and (d): 24 hours).

3.5 모델 안정성 확보를 위한 학습자료 전처리

3.5.1 이동평균 적용 및 예측 결과 분석

기 구축한 LSTM 모델은 예측시간이 길어질수록 총질소 농도의 단기적인 스파이크를 예측하는 데 한계를 보였다. 따라서 이러한 한계를 개선하기 위하여 입력 및 타겟 변수에 6시간부터 168시간까지 다양한 창(Window)의 이동평균(Moving Average)을 적용하여 안정된 예측 결과를 제공하는 딥러닝 모델을 추가로 구축하고 그 효과를 분석하였다.

이동평균이 적용된 딥러닝 모델의 분석 결과, 이동평균 적용 시간이 길어질수록 결정계수는 최대 0.99까지 증가하고 MAE, MSE, RMSE와 같은 오차 지표는 현저히 감소하는 등, 모든 통계적 성능 지표가 크게 향상되었다. 그러나 이러한 수치적 개선은 모델 성능 향상을 의미하는 것은 아니며, 이동평균 적용으로 인한 단기 변동성 감소에 기인하여 나타나는 통계적 결과이다. 이동평균은 본 연구가 예측하고자 하는 고농도 스파이크를 평활화하는 특성을 가진다. 따라서 이동평균 시간이 길어질수록 모델은 급격한 변동성이 제거되어 훨씬 단순하고 완만한 형태의 데이터를 학습하게 된다. 즉, Table 4의 결과는 모델 성능의 향상이 아닌, 예측 대상 데이터가 단순화됨에 따라 나타나는 통계적 결과로 해석된다. 이러한 해석적 한계는 이동평균을 적용한 후에도 여전히 남아있는 예측 오차의 특성을 통해 더욱 명확해진다.

Table 4.

Total Nitrogen prediction performance of the LSTM model according to the moving average window (0-168 hours).

전체적인 성능 개선에도 불구하고, 모델은 특정 구간에서 관측된 고농도 총질소 값을 지속적으로 과소추정하는 경향을 보였다. 해당 데이터들의 염분 값을 함께 분석한 결과, 이러한 예측 한계 구간은 대부분 저염분 상태에서 발생했음을 확인하였다(Fig. 6). 저염분 상태는 주로 강우 이후 다량의 담수가 육상으로부터 유입될 때 발생하며, 이는 육상기인 오염물질이 연안으로 대량 유입되어 총질소 농도가 급격히 치솟는 현상과 정확히 일치한다. 특히, 예측 오차가 크게 발생한 일부 구간은 관측 시점 1∼2일 이내에 시간당 80mm 이상의 극한 강우가 발생했던 시점이었다. 이러한 현상은 Fig. 7에서 명확하게 확인할 수 있다. 상단 그래프는 극한 강우 이후 총질소 농도의 급등 구간을 모델이 학습하지 못하는 반면, 하단 그래프에서는 일반적인 강우에 따른 급등 구간의 변동 특성을 예측결과가 관측값과 유사하게 재현하고 있다. 이는 곧 모델이 학습 데이터에서 빈번하게 나타나는 일반적인 강우 패턴에는 높은 재현성을 보이지만, 이례적으로 나타나는 극한 강우 패턴에 대해서는 성능이 급격히 저하됨을 보여준다. 이와 같은 현상의 조건을 확인하기 위해 염분을 사분위수로 나눠 예측성능을 비교·분석하였다(Table 5). 가장 낮은 염분인 Q1의 경우 변동 폭(Range)이 4.26 mg/L로 가장 높았으며, Bias와 RMSE 또한 가장 높은 오차를 보였다. 이는 염분이 매우 낮은 구간이 강우나 담수 유입으로 인한 시점임을 시사한다. 이러한 시점의 변동 폭은 모델이 스파이크 패턴을 충분히 재현하지 못해 과소추정하는 경향이 나타난 것으로 판단된다. 이는 이동평균과 같은 데이터 평활화 기법으로는 마산만 수질을 좌우하는 핵심 메커니즘인 강우 이벤트에 따른 비선형적 오염물질 유입을 포착하는 데 한계를 보여준다.

Fig. 6.

Relationship between model prediction errors and observed TN (Total Nitrogen) and Salinity for each moving average times ((a): 6, (b): 12, (c): 24, (d): 72, (e): 120, and (f): 168 hours).

Fig. 7.

Comparison of total nitrogen prediction performance across rainfall conditions. (a): Bad case in 2024, where the model underpredicted observed high concentrations of total nitrogen (Obs. TN) following an extreme rainfall event. (b): Good case in 2023, where the predicted values (Pred. TN) reliably tracked observed values during periods of minimal rainfall.

Table 5.

Range, Bias, and RMSE for quartile(Q1 ~ Q4) of Salinity

3.5.2 예측 안정성과 정보 손실의 상충관계 분석

이동평균 기법의 적용은 모델의 통계적 안정성을 높이는 동시에, 원본 데이터가 가진 중요 정보 손실을 야기하는 상충관계(trade-off)를 발생시킨다. 이러한 상충관계를 정량적으로 분석하여, 이동평균 기법이 실시간 예측 모델의 전처리 도구로서 가지는 실용적 가치와 명백한 한계를 평가하고자 하였다. Fig. 8은 이동평균 시간이 길어짐에 따라 각 성능 지표가 어떻게 변화하는지를 보여준다. 모든 오차지표는 이동평균 시간이 증가함에 따라 감소하고, 결정계수는 증가하며 전반적인 예측 성능이 향상되는 경향을 보인다. 그러나 주목할 점은 성능 지표의 개선율이다. 특히 12시간에서 24시간 구간을 기점으로 성능 지표의 개선폭이 눈에 띄게 완만해지는 변곡점이 나타난다. 72시간 이상의 장기 이동평균을 적용할 경우, 시계열의 단기 변동성이 대부분 제거되어 결정계수 값은 0.98 이상으로 수렴한다. 그러나 이러한 과도한 평탄화는 극한 강우로 인해 발생하는 총질소 스파이크와 같은 핵심 정보를 완전히 왜곡하거나 소실시키는 치명적인 문제점을 야기할 수 있다. 연안 수질 예·경보 시스템의 실용적인 관점에서 볼 때, 해당 모델은 평균적인 수질 상태에서 높은 예측 정확도를 보이지만, 가장 중요하게 예측이 요구되는 극한 이벤트 발생 시에는 성능이 현저히 저하되므로 예·경보 시스템으로서의 실효성을 확보하기 어렵다. 따라서 Fig. 8의 변곡점 분석은 해당 모델의 예측 성능의 향상을 위한 최적의 이동평균 시간을 도출하는 과정이 아니라, 통계적 안정성 확보와 정보 손실 최소화 사이의 절충점을 규명하는 과정으로 해석해야 한다. 12∼24시간 이동평균 구간은 단기 스파이크를 일부 제어하면서도 고농도 사례의 정보를 최소한으로 보존하기 위함이다. 하지만 이 분석의 최종결론은, 이동평균과 같은 단순 평활화 기법은 근본적인 해결책이 될 수 없다는 점이다. 오히려 이 분석은 향후 모델 개발이 나아가야 할 방향이 데이터의 정보를 인위적으로 제거하는 것이 아닌, 강우량, 하천 유량과 같은 외부 강제력 변수를 명시적으로 포함하여 시스템의 비선형적 반응 자체를 학습하는 방향이어야 함을 역설적으로 보여준다.

Fig. 8.

Changes in model performance evaluation metrics according to the varying moving average window used to determine the optimal moving average time ((a) MAE, (b) MSE, (c) R2, and (d): RMSE).

4. 결 론

본 연구는 특별관리해역인 마산만의 총질소 농도를 예측하기 위해, 11년간의 고해상도 연속 관측 자료에 딥러닝 모델인 LSTM을 적용하고 그 과정에서 나타나는 모델의 성능과 본질적 한계를 심층적으로 분석하였다. 초기 LSTM 모델은 1시간 단기 예측에서는 결정계수 0.94의 높은 정확도를 보였으나, 예측 시간이 길어질수록 성능이 급격히 저하되며 특히 강우와 연관된 고농도 스파이크를 예측하지 못하는 한계를 드러냈다. 이러한 단기 변동성을 제어하기 위해 적용된 이동평균 기법은, 평활화 구간이 길어질수록 통계적 성능 지표를 최대 결정계수 0.99까지 향상시켰다. 그러나 이는 모델의 예측력이 개선된 것이 아니라, 원본 데이터의 핵심 정보인 고농도 스파이크가 소실되면서 문제 자체가 인위적으로 단순화된 결과임을 하였다. 이 분석은 통계적 지표 최적화에만 집중하는 데이터 전처리 방식이 오히려 수질 변동 예측과 같은 실용적 목표를 저해할 수 있음을 시사한다. 본 연구의 핵심적인 성과는 모델의 예측 한계가 극한 강우 이후 발생하는 저염분 상태라는 특정 물리적 조건에서 집중적으로 발생한다는 점을 실증적으로 규명한 데 있다. 이는 단순한 통계적 오류가 아니라, 마산만의 총질소 변동성이 평균적인 상태가 아닌, 강우와 같은 외부 요인에 의해 비선형적으로 급변하는 상황임을 실증적으로 보여준다. 장기간의 일반적인 해양 환경을 학습한 모델은 극한 강우 시 발생하는 총질소의 급변 구간을 예측하는 데 한계를 보였으나, 역설적으로 마산만 수질 변동의 원인이 돌발적인 담수 유입에 있음을 파악할 수 있었다. 따라서 본 연구의 기여도는 완벽한 예측 모델을 제시하는 데 있는 것이 아니라, 표준 딥러닝 모델의 미흡한 결과를 통해 연구 해역의 복잡한 특성을 규명하고 향후 모델 개발이 나아가야 할 방향을 명확히 제시했다는 데 있다. 향후 마산만과 같은 복잡한 연안 시스템의 수질 예측 정확도를 실질적으로 향상시키기 위해서는 다음과 같은 후속 연구가 필수적이다. 첫째, 강우량뿐만 아니라 하천 유량, 유역의 토지이용 특성과 같이 육상 오염원의 유입 과정을 직접적으로 나타내는 물리 변수를 입력 자료로 반드시 포함해야 한다. 둘째, 선형적 관계 분석에 국한되는 피어슨 상관분석의 한계를 넘어, 비선형적 관계를 탐지할 수 있는 변수 선택 기법을 적용해야 한다. 마지막으로, 통계 모델과 물리 기반 모델을 결합한 하이브리드 모델을 구축하거나, 이례적인 강우 사례를 고려할 수 있는 딥러닝 모델 구축 방안이 필요할 것으로 보인다. 본 연구는 고해상도 데이터와 딥러닝을 활용하여 연안 총질소 농도 예측의 가능성과 그 명확한 한계를 동시에 제시하였다. 본 연구에서 도출된 결론과 제언은 기후변화로 인해 빈번해지는 극한 강우에 대응하여, 보다 신뢰성 높은 수질 관리 및 예·경보 체계를 구축하는 데 중요한 과학적 자료가 될 것으로 기대된다.

Acknowledgments

본 논문은 2026년도 국립수산과학원 수산과학연구사업(R2026043)의 지원으로 수행되었습니다.

References

Arhonditsis, G.B. and Brett, M.T., 2004, Evaluation of the current state of mechanistic aquatic biogeochemical modeling, Ecol. Model., 173(3), 349-368.
Bianchi, T.S. and Allison, M.A., 2009, Large-river delta-front estuaries as natural "recorders" of global environmental change, Proc. Natl. Acad. Sci. U.S.A., 106(20), 8085-8092. [https://doi.org/10.1073/pnas.0812878106]
Cho, M.W., Choi, H.B., Han, M.S., Jung, E.S. and Kang, T.S., 2023, Statistical method and deep learning model for sea surface temperature prediction, J. Korean Soc. Mar. Environ. Saf., 29(6), 543-551. [https://doi.org/10.7837/kosomes.2023.29.6.543]
Daufresne, M., Roger, M.C., Capra, H. and Lamouroux, N., 2003, Long-term changes within the invertebrate and fish communities of the Upper Rhône River: effects of climatic factors, Glob. Change Biol., 10, 124-140. [https://doi.org/10.1046/j.1529-8817.2003.00720.x]
Genner, M.J., Sims, D.W., Wearmouth, V.J., Southall, E.J., Southward, A.J., Henderson, P.A. and Hawkins, S.J., 2004, Regional climatic warming drives long-term community changes of British marine fish, Proc. R. Soc. Lond. B Biol. Sci., 271, 655-661. [https://doi.org/10.1098/rspb.2003.2651]
Hadjisolomou, E., Antoniadis, K., Rousou, M., Vasiliades, L., Abu-Alhaija, R., Herodotou, H., Michaelides, M. and Kyriakides, I., 2023, Predicting coastal dissolved inorganic nitrogen levels by applying data-driven modelling: The case study of Cyprus (Eastern Mediterranean Sea), E3S Web Conf., 436, 10002. [https://doi.org/10.1051/e3sconf/202343610002]
Harding, L.W., Gallegos, C.L., Perry, E.S., Miller, W.D., Adolf, J.E., Mallonee, M.E. and Paerl, H.W., 2016, Variable climatic conditions dominate recent phytoplankton dynamics in Chesapeake Bay, Ecol. Appl., 26(3), 677-700. [https://doi.org/10.1038/srep23773]
He, Q. and Silliman, B.R., 2019, Climate change, human impacts, and coastal ecosystems in the Anthropocene, Curr. Biol., 29(19), R1021-R1035. [https://doi.org/10.1016/j.cub.2019.08.042]
Hochreiter, S. and Schmidhuber, J., 1997, Long short-term memory, Neural Comput., 9(8), 1735-1780. [https://doi.org/10.1162/neco.1997.9.8.1735]
Howarth, R.W. and Marino, R., 2006, Nitrogen as the limiting nutrient for eutrophication in coastal marine ecosystems: Evolving views over three decades, Limnol. Oceanogr., 51(1 part 2), 364-376. [https://doi.org/10.4319/lo.2006.51.1_part_2.0364]
Intergovernmental Panel on Climate Change (IPCC), 2023, Climate Change 2022: Impacts, adaptation and vulnerability. Working Group II contribution to the Sixth Assessment Report of the Intergovernmental Panel on Climate Change, Cambridge Univ. Press, Cambridge and New York, 3056 pp. [https://doi.org/10.1017/9781009325844]
Kang, S.W., 1991, Circulation and pollutant dispersion in Masan-Jinhae Bay of Korea, Mar. Pollut. Bull., 23, 37-41. [https://doi.org/10.1016/0025-326X(91)90646-A]
KHOA (Korea Hydrographic and Oceanographic Agency), https://www.khoa.go.kr, (accessed 2025.07.16)
Kim, D., Kim, T., Lee, H. and Park, S., 2024, Prediction of the temporal variations in bottom dissolved oxygen using deep learning and continuous monitoring data, J. Mar. Sci. Eng., 12(3), 447.
Kim, H.L., Jeon, Y.H., Park, J.H. and Yoon, H.S., 2022, Tidal level prediction of Busan Port using long short-term memory, J. Korean Soc. Mar. Environ. Saf., 28(4), 469-476. [https://doi.org/10.7837/kosomes.2022.28.4.469]
KMA (Korea Meteorological Administration), https://data.kma.go.kr, , 2025 (accessed 2025.07.16.)
KOEM (Korea Marine Environment Management Corporation), https://www.meis.go.kr, (accessed 2025.07.16)
Lavelle, P., Dugdale, R., Scholes, R., Berhe, A.A., Carpenter, E., Codispoti, L., Izac, A.-M., Lemoalle, J., Luizao, F., Scholes, M., Tréguer, P. and Ward, B., 2005, Nutrient cycling, in: Hassan, R., Scholes, R. and Ash, N. (Eds.), Ecosystems and human well-being: Current state and trends, Island Press, Washington, DC, 333-353.
Malan, N., Roughan, M., Hemming, M. and Ingleton, T., 2024, Quantifying coastal freshwater extremes during unprecedented rainfall using long timeseries multi-platform salinity observations, Nat. Commun., 15, 424. [https://doi.org/10.1038/s41467-023-44398-2]
Ministry of Oceans and Fisheries, 2024, Marine Environment Management Act (Act No. 19779), Government of the Republic of Korea, Seoul.
Nixon, S.W., 1995, Coastal marine eutrophication: A definition, social causes, and future concerns, Ophelia, 41, 199-219. [https://doi.org/10.1080/00785236.1995.10422044]
Sinha, E. and Michalak, A.M., 2016, Precipitation dominates interannual variability of riverine nitrogen loading across the continental United States, Environ. Sci. Technol., 50(23), 12874-12884. [https://doi.org/10.1021/acs.est.6b04455]
Wang, X., Qiao, M., Li, Y., Tavares, A., Qiao, Q. and Liang, Y., 2023, Deep-learning-based water quality monitoring and early warning methods: A case study of ammonia nitrogen prediction in rivers, Electronics, 12(21), 4645. [https://doi.org/10.3390/electronics12224645]
Zheng, H., Wu, Y., Han, H., Wang, J., Liu, S., Xu, M., Cui, J. and Yasir, M., 2024, Utilizing residual networks for remote sensing estimation of total nitrogen concentration in Shandong offshore areas, Front. Mar. Sci. [https://doi.org/10.3389/fmars.2024.1336259]

Agency	Station	Measured feature	Time resolution
KOEM	AWQM	TN, TP, Temperature, Salinity, pH, DO, Turbidity, NH4-N, NO3-N, PO4-P, COD	Hourly
KOEM	MEM	TN, TP, Temp., Sal.	2,6,8,11 Month
KMA KHOA	ASOS Tidal gauge	Rainfall Tide level	Hourly Hourly

Model		Lead Time
Model		1h	6h	12h	24h
Persistence	R² MAE MSE RMSE	0.94 0.08 0.03 0.16	0.64 0.23 0.17 0.41	0.49 0.25 0.23 0.48	0.21 0.30 0.36 0.60
GRU	R² MAE MSE RMSE	0.94 0.08 0.03 0.17	0.64 0.21 0.16 0.40	0.46 0.24 0.25 0.50	0.18 0.29 0.37 0.61
LSTM	R² MAE MSE RMSE	0.94 0.09 0.03 0.17	0.67 0.2 0.15 0.39	0.52 0.24 0.22 0.47	0.29 0.29 0.32 0.57

Time Window	0h	6h	12h	24h	72h	120h	168h
R²	0.67	0.77	0.89	0.95	0.98	0.99	0.99
MAE	0.21	0.17	0.10	0.06	0.04	0.02	0.02
MSE	0.15	0.1	0.05	0.02	0.01	0.002	0.001
RMSE	0.39	0.32	0.22	0.14	0.08	0.04	0.04

	Quartile	Range	Bias	RMSE
Salinity	Q1_(Low)	4.26	0.13	0.26
	Q2	1.37	0.05	0.08
	Q3	1.63	0.04	0.06
	Q4_(High)	1.80	0.03	0.06

Hyperparameters	Values
hidden layers	2
number of hidden units	first layer: 32, second layer: 100
dropout rate	0.3
epochs	50
activation	tanh
optimizer	Adam
learning_rate	0.001
loss function	MSE
batch size	64
sequence length	72h
output length	1h
lead time	1, 6, 12, 24