Ansatz des maschinellen Lernens zur Erklärung der Wasserqualitätsdynamik in einem urbanisierten Fluss

Nachricht

HeimHeim / Nachricht / Ansatz des maschinellen Lernens zur Erklärung der Wasserqualitätsdynamik in einem urbanisierten Fluss

Jan 25, 2024

Ansatz des maschinellen Lernens zur Erklärung der Wasserqualitätsdynamik in einem urbanisierten Fluss

Wissenschaftliche Berichte Band 12,

Wissenschaftliche Berichte Band 12, Artikelnummer: 12346 (2022) Diesen Artikel zitieren

2719 Zugriffe

2 Zitate

10 Altmetrisch

Details zu den Metriken

Menschliche Aktivitäten verändern die Qualität und Quantität des Flusswassers, mit Folgen für die Ökosysteme urbanisierter Flüsse. Die Quantifizierung der Rolle der vom Menschen verursachten Faktoren bei der Kontrolle räumlich-zeitlicher Muster der Wasserqualität ist entscheidend für die Entwicklung erfolgreicher Strategien zur Verbesserung der ökologischen Gesundheit städtischer Flüsse. Hier analysieren wir hochfrequente elektrische Leitfähigkeits- und Temperaturdaten, die im Rahmen eines Citizen Science-Projekts vom Fluss Chess im Südosten Englands gesammelt wurden. Mithilfe maschinellen Lernens stellen wir fest, dass verstärkte Bäume GAM übertreffen und die Dynamik der Wasserqualität mit einem Fehler von weniger als 1 % genau beschreiben. SHapley Additive ExPlanations zeigen die Bedeutung und die (wechselseitigen) Abhängigkeiten zwischen den einzelnen Variablen, wie z. B. dem Flusspegel und dem Abfluss der Abwasserbehandlungsanlage (WWTW). Abwasserabflüsse führen zu tageszeitlichen Schwankungen der elektrischen Leitfähigkeit, die das ganze Jahr über nachweisbar sind, und zu einem Anstieg der durchschnittlichen Wassertemperatur um 1 \(\rm{^o}C\) in einem 2 km langen Bereich stromabwärts der Kläranlage bei geringem Durchfluss. Insgesamt zeigen wir, wie hochfrequente Wasserqualitätsmessungen, die von einem Citizen Science-Projekt initiiert wurden, zusammen mit Techniken des maschinellen Lernens dazu beitragen können, die wichtigsten Treiber der Wasserqualitätsdynamik in einem urbanisierten Kreidebach zu entschlüsseln.

Auf der ganzen Welt führen menschliche Aktivitäten wie die Urbanisierung zu Veränderungen in den Wasserkreisläufen von Einzugsgebieten, die tiefgreifende Auswirkungen auf die Wassermenge, -qualität und die Ökologie von Flüssen haben1,2. Die Urbanisierung verändert die Hydrologie eines Einzugsgebiets auf vielfältige Weise3. Die Einführung undurchlässiger Oberflächen zusammen mit künstlichen Entwässerungssystemen kann die Spitzenabflüsse in Flüssen erhöhen3, die hydrologischen Reaktionszeiten auf Niederschläge verkürzen4,5 und den Grundabfluss und die Grundwasserneubildung verringern6. In vielen Ländern transportieren Mischkanalisationssysteme häusliches und industrielles Abwasser unter trockenen Bedingungen zu Kläranlagen und leiten bei Regen Regenwasser von befestigten Flächen ab. Die Einleitung von behandeltem Abwasser kann in Flüssen unterschiedliche Fließmuster verursachen, die durch menschliche Aktivitäten bestimmt werden7,8.

Die mit der Urbanisierung verbundenen menschlichen Aktivitäten wirken sich auch auf die chemische Wasserqualität aus, wobei große Anstrengungen auf die Charakterisierung von Wasserqualitätsänderungen in städtischen Flüssen während Sturmereignissen9,10,11 und dem „First Flush“-Phänomen12,13 gerichtet sind. Mischwasserüberläufe können auch nach starken Regenfällen erhebliche Auswirkungen auf die Wasserqualität haben, wenn die Kapazität der Kläranlagen überschritten wurde14,15,16,17. Wir wissen auch, dass städtische Ströme tendenziell eine höhere mittlere elektrische Leitfähigkeit und größere Ionenkonzentrationen aufweisen als ihre ländlichen Gegenstücke18,19,20, was auf eine Kombination aus punktuellen und diffusen Verschmutzungsquellen zurückzuführen ist. Beispielsweise sind Chlorid, Sulfat, Natrium und Kalium häufige Elektrolyte im Urin und daher im Abwasser konzentriert19. Die Bestimmung der Hauptquellen einzelner Ionen in städtischen Systemen hat sich jedoch als schwierig erwiesen21. Solche erhöhten Gehalte an gelösten Stoffen veranlassen Ökologen nun dazu, Hypothesen über mögliche Auswirkungen erhöhter Ionenkonzentrationen auf die Gesundheit und Widerstandsfähigkeit städtischer Flussökosysteme aufzustellen22.

Menschliche Aktivitäten führen zu einer weitreichenden Verschlechterung der Wasserqualität in Flüssen mit Folgen für die ökologische Gesundheit23. Diese Aktivitäten führen zu Veränderungen der Wasserqualität der Vorfluter, die über verschachtelte Zeitskalen von Stunden (als Reaktion auf Niederschlagsereignisse) bis hin zu täglichen, saisonalen und zwischenjährlichen Zyklen wirken24,25. Um die Auswirkungen menschlicher Aktivitäten auf Flüsse vollständig zu verstehen, müssen wir vom Menschen verursachte und natürliche Schwankungen der Wasserqualität unterscheiden. Dazu benötigen wir Zugang zu hochauflösenden und langfristigen Überwachungsdaten urbanisierter Systeme, wie sie durch den Einsatz von Echtzeit-Hochfrequenz-Wasserqualitätssensoren26 verfügbar werden.

Da detaillierte Daten verfügbar sind, wird maschinelles Lernen (ML) zu einer wichtigen Alternative zu prozessbasierten oder traditionellen statistischen Modellen. Diese Entwicklung wird noch beschleunigt, wenn ML-Modelle im Vergleich zu herkömmlichen Ansätzen eine überlegene Vorhersageleistung27 aufweisen. Beispielsweise28 hat kürzlich gezeigt, dass maschinelles Lernen zur Erkennung unbehandelter Abwassereinleitungen eingesetzt werden kann, wenn es mit 15-minütigen Durchflussdaten von Abwasseraufbereitungsanlagen (WWTW) trainiert wird. Zu den spezifischen Techniken des maschinellen Lernens gehören Generalized Additive Models (GAM) und Boosted Trees. GAM-Techniken wurden verwendet, um Korrelationen zwischen Chlorophyll a und anderen Wasserqualitätsparametern zu untersuchen29. Mittlerweile wurde die verstärkte Baumanalyse beispielsweise verwendet, um die Bedeutung von Faktoren einzustufen, die die Nitratkonzentration im Grundwasser beeinflussen, und um Nitrat-Gefährdungskarten zu erstellen30. Die Grundidee von Boosted Trees besteht darin, viele „schwache Lernende“, nämlich einfache Regressionsbäume, in einem Ensemble-Prädiktor zu kombinieren31. Boosted Trees übertreffen häufig neuronale Netze, insbesondere bei tabellarischen Daten32, haben jedoch Probleme, zukünftige Ereignisse vorherzusagen und über zuvor aufgezeichnete Werte hinaus zu extrapolieren.

Bei der Anwendung von maschinellem Lernen ist es wichtig, Black-Box-Lösungen zu vermeiden, da diese keine prozessbasierten wissenschaftlichen Erkenntnisse liefern33. Mit dem Aufkommen des „erklärbaren“ oder „interpretierbaren“ maschinellen Lernens (IML) wurde das maschinelle Lernen verbessert, um das Verständnis relevanter Beziehungen in den Daten hervorzuheben. Allerdings wurden diese IML-Methoden bisher nicht in großem Umfang für die Analyse der Wasserqualität eingesetzt27,34,35. Hier zeigen wir, wie IML verwendet werden kann, um die relative Bedeutung verschiedener Umwelt- und menschlicher Faktoren zu bestimmen, die die Dynamik der Wasserqualität steuern, und um die Art der Beziehungen zwischen Flussniveau und elektrischer Leitfähigkeit oder Temperatur herauszufinden. In diesem Fall verwenden wir verstärkte Bäume und interpretieren diese traditionellen Blackboxen über Shapley-Werte36,37 und vergleichen ihre Gesamtleistung mit einem traditionelleren GAM-Ansatz. Wir betonen, dass unsere Analyse an sich transparent und reproduzierbar ist: Wir stellen unseren Code online zur Verfügung und alle unsere Ergebnisse basieren auf öffentlich verfügbaren und Open-Source-Paketen, z. B. in Python und R.

Im Vereinigten Königreich sind die vom Grundwasser gespeisten Kreidebäche einer der Flusstypen, die scheinbar am stärksten durch menschliche Aktivitäten belastet sind. Die meisten Kreideflüsse der Welt (224 Flüsse) befinden sich in England38 und gelten aufgrund ihrer charakteristischen Hydrologie, Wasserqualität, Ökologie und Ästhetik als von internationaler Bedeutung. Allerdings erreichen 77 % dieser Flüsse nicht den „guten“ ökologischen Zustand gemäß der Wasserrahmenrichtlinie der Europäischen Union (EU)39, da die Belastungen durch übermäßige Entnahme, landwirtschaftliche Aktivitäten und Urbanisierung entstehen. Obwohl sie gemäß Anhang 1 der Habitat-Richtlinie ausgewiesen sind, ist die Wahrscheinlichkeit höher, dass sie sich in einem „schlechten“ oder „schlechten“ Zustand befinden als der durchschnittliche Fluss in England und Wales38. Kreidebäche am Gefälle des Chilterns Area of ​​Outstanding Natural Beauty (AONB) sind ein typisches Beispiel für die Probleme, mit denen viele Flüsse im Vereinigten Königreich konfrontiert sind, die sich in schnell urbanisierenden Gebieten befinden, in denen aufbereitetes Abwasser einen hohen Anteil des gesamten Flussflusses ausmacht. Darüber hinaus bedroht der Klimawandel die Widerstandsfähigkeit dieser Flussökosysteme40. Unter Klimawandelszenarien mit heißeren, trockeneren Sommern könnte der Anteil des gereinigten Abwassers am Grundwasser in diesen Systemen weiter ansteigen. Darüber hinaus könnte die vorhergesagte Zunahme der Häufigkeit intensiver Regenfälle zusätzlichen Druck auf Kläranlagen ausüben, die Wasser aus Mischkanalisationsnetzen beziehen, was zu häufigeren Regenwasserabflüssen führen und die Wasserqualität weiter beeinträchtigen würde. Solche Möglichkeiten geben uns zusätzliche Impulse für die Entwicklung von Methoden zum Verständnis der Bedeutung verschiedener (natürlicher und menschlicher) Beiträge zu Wasserqualitätsmustern in urbanisierten Flüssen. Unter diesen Beiträgen gehört die Abwasserbewirtschaftung zu den dringendsten Problemen für die Wasserqualität41,42, insbesondere in Situationen mit geringem Durchfluss.

Schließlich bezieht sich unsere Forschung auch auf Citizen Science-Bemühungen, die aufgrund der Möglichkeiten zur Sammlung von Datensätzen, die ohne lokale und öffentliche Unterstützung möglicherweise nicht möglich gewesen wären, in der akademischen Literatur an Bedeutung und Interesse gewinnen. Diese großen Datensätze sind von entscheidender Bedeutung, um jede Anwendung für maschinelles Lernen zu ermöglichen. Darüber hinaus fördern Citizen Scientists das Thema in der lokalen Gemeinschaft und erhöhen dadurch das Bewusstsein, insbesondere für Umweltthemen43,44.

Hier konzentrieren wir uns auf den River Chess, der ein Piloteinzugsgebiet für die von Thames Water ins Leben gerufene „The Smarter Water Catchment Initiative“ ist, die darauf abzielt, das Einzugsgebietsmanagement durch Partnerschaftsprojekte zu verbessern, die mehrere Herausforderungen angehen und Citizen Science einbeziehen. Die Initiative hat uns die Möglichkeit geboten, mithilfe von von Citizen Scientists gewarteten Sensoren eine Langzeitzeitreihe von Temperatur und elektrischer Leitfähigkeit in 15-Minuten-Intervallen zu erfassen. In dieser Arbeit liegt der Schwerpunkt auf Schwankungen in Zeitreihen von Temperatur und elektrischer Leitfähigkeit (als Stellvertreter für die Gesamtmenge gelöster Stoffe), da es sich dabei um Wasserqualitätsparameter handelt, die durch anthropogene Faktoren verändert werden können und wichtige Auswirkungen auf andere kritische ökologische Prozesse wie den Stoffwechsel26 haben. 45 und weil sie für Citizen Science-Gruppen kostengünstig und einfach zu überwachen sind.

Unser übergeordnetes Ziel besteht darin, den Einsatz maschineller Lernwerkzeuge, insbesondere GAM, Boosted Tree und SHAP-Analyse, zu demonstrieren, um die räumlich-zeitlichen Muster der Temperatur und der elektrischen Leitfähigkeit zu analysieren, die sich aus punktuellen und diffusen städtischen Abflüssen in einem grundwassergespeisten Fluss ergeben. Wir verwenden diese maschinellen Lernwerkzeuge, um den Einfluss einer Abwasseraufbereitungsanlage auf die beobachteten räumlich-zeitlichen Muster herauszufinden. Abschließend bewerten wir im Lichte unserer Ergebnisse, wie sich elektrische Leitfähigkeitsdaten wie unsere für Citizen Science-Gruppen, die sich mit Wasserqualitätsproblemen in städtischen Flüssen befassen, als nützlich erweisen könnten.

Unser Überwachungszeitraum umfasst eine Dürreperiode mit außergewöhnlich geringen Abflüssen (September 2019) und niedrigen Grundwasserständen im Einzugsgebiet; Anstieg auf außergewöhnlich hohe Abflüsse im Februar/März 2020, da der Grundwasserspiegel als Reaktion auf hohe Gesamtniederschläge im Herbst und Winter im Jahr 2020 anstieg, begleitet von starken Niederschlagsereignissen. Der Grundwasser- und Flussspiegel zeigt einen klaren saisonalen Zyklus als Reaktion auf die sich ändernden Niederschlagsmuster im Einzugsgebiet (Abb. 1).

Zeitreihendiagramme von (a) täglichem Gesamtniederschlag (Chenies, EA-Station); (b) Grundwasserspiegel (Ashley Green, EA-Station); und (c) Flussniveau von River Chess in Rickmansworth vom 1. Juni 2019 bis 1. Juni 2020 (EA-Messstation)46.

Saisonale Dynamik wird auch im Datensatz der elektrischen Leitfähigkeit an den Standorten stromabwärts von Chesham WWTW (LP und WB) beobachtet, siehe auch Methoden für eine Karte. An diesen Standorten ist die elektrische Leitfähigkeit am höchsten, während der Grundwasser- und Flussspiegel niedrig ist, und nimmt ab, sobald der Grundwasser- und Flussspiegel ansteigt (Abb. 2a), wohingegen es an den Standorten stromaufwärts des WWTW (BH und) kein offensichtliches saisonales Muster der elektrischen Leitfähigkeit gibt LC). Die Flusswassertemperatur zeigt an allen Standorten ein starkes saisonales Signal, wobei die höheren Wassertemperaturen im Sommer (Juli bis September 2019) im Herbst auf ein Wintertief sinken und dann im Frühjahr wieder ansteigen (Abb. 3a). Wenn wir die Daten zur elektrischen Leitfähigkeit für eine Woche grafisch darstellen (Abb. 2b), können wir auch tägliche Zyklen der elektrischen Leitfähigkeit stromabwärts der Kläranlage beobachten, die an den stromaufwärts gelegenen Standorten nicht zu beobachten sind (Abb. 2b). Auch die Flusswassertemperatur weist an allen Standorten deutliche tägliche Schwankungen auf (Abb. 3b).

Zeitreihe der elektrischen Leitfähigkeit (a) Juni 2019 bis 2020; und (b) 23. August bis 30. August 2019.

Temperaturzeitreihe (a) Juni 2019 bis 2020; und (b) 23. August bis 30. August 2019.

Die Zeitreihe kann über ihr PDF (aus Histogrammen extrahiert) systematischer analysiert werden, um Gesamtunterschiede zwischen Standorten anzuzeigen (Abb. 4). Wichtige statistische Parameter sind in Tabelle 1 zusammengefasst. Die mittlere elektrische Leitfähigkeit ist an der Stelle 2 km flussabwärts am höchsten das WWTW (734 \(\rm{\mu S cm^{-1}}\) am LP) und ist 5 km weiter flussabwärts niedriger (648 \(\rm{\mu S cm^{-1}}\) bei WB). Dies steht im Gegensatz zu einer geringeren elektrischen Leitfähigkeit vor dem WWTW (565 und 575 \(\rm{\mu S cm^{-1}}\) bei LC bzw. BH). Die Datensätze zur elektrischen Leitfähigkeit folgen nicht der Gauß-Verteilung und weisen stattdessen starke Ausläufer auf, insbesondere stromaufwärts des WWTW, wo die Kurtosis \(\kappa >3=\kappa _\text {Gaussian}\)47 ist. Im Gegensatz dazu zeigt die Flusswassertemperatur einen allmählichen Anstieg der Mittelwerte mit zunehmender Entfernung flussabwärts von Chesham, mit einem Unterschied von \(1,1^{\rm{\circ } C}\) zwischen BH und WB und einer Kurtosis \(\kappa < 3\).

Normalisierte Histogramme von (a) elektrischer Leitfähigkeit; und (b) Temperatur für alle Sensorstandorte. Beachten Sie die logarithmische Skala auf der Y-Achse, die die starken Ausläufer in BH hervorhebt.

Beachten Sie, dass der Messzeitraum das Frühjahr 2020 umfasst, also den Beginn der Covid-19-Pandemie in Großbritannien. Bei der Analyse der Daten stellen wir fest, dass der Lockdown im März im Vereinigten Königreich zwar geringe, aber keine nennenswerten Auswirkungen hat. Einzelheiten finden Sie im Code.

Wir beobachten einen klaren Zusammenhang zwischen der Einleitung des behandelten Abwassers aus der Kläranlage (WWTW) und der elektrischen Leitfähigkeit des Flusswassers (Abb. 5). Um die Zeitverzögerung zwischen der Aufzeichnung des WWTW-Abflusses in der Anlage und dem Erreichen unserer nachgeschalteten Sensoren an den LP- und WB-Standorten zu berücksichtigen, verschieben wir die Messungen der elektrischen Leitfähigkeit des Flusswassers um etwa 2,5 bzw. 8,5 Stunden nach hinten.

Normalisierte Zeitreihe der behandelten Abwasserentsorgung und elektrischen Leitfähigkeit (EC) von Abwasseraufbereitungsanlagen (WWTW). Der EC-Wert wurde bei LP und WB gemessen und um 2,5 bzw. 8,5 Stunden verschoben, um die Zeitverzögerung zu berücksichtigen, mit der das Abwasser der Abwasserbehandlung den Sensorstandort erreicht.

Um die Beziehung zwischen behandeltem Abwasser aus der Kläranlage und dem EC weiter zu quantifizieren, führen wir eine Fourier-Transformationsanalyse durch, um die im System vorhandenen Hauptfrequenzen aufzudecken (Abb. 6). Wir vergleichen die Fourier-Analysen des behandelten Abwasserabflusses mit der Fourier-Analyse des Flusswasser-EC an allen vier Messstellen. Bemerkenswerterweise zeigen sowohl die WWTW-Entladung als auch die elektrische Leitfähigkeit an den beiden stromabwärts gelegenen Standorten (LP und WB) ausgeprägte Spitzen bei Frequenzen von 24, 12, 8 und 6 Stunden, während wir bei LC oder BH kein solches zyklisches Verhalten beobachten.

Fourier-Analyse von Abwasseraufbereitungsanlagen, behandeltem Abwasser und EC. Wir zeichnen die Fourier-Amplituden sowohl der elektrischen Leitfähigkeit (EC) als auch des Abflusses der Kläranlage (WWTW) an allen Standorten auf. Wir stellen relevante Frequenzspitzen nach 24, 12, 8 und 6 Stunden in der WWTW-Entladung sowie in der Leitfähigkeit für LP und WB fest.

Als nächstes verfolgen wir zwei datengesteuerte Ansätze, um die elektrische Leitfähigkeit (EC) als Zielvariable (y) zu beschreiben, die durch \(p=7\)-Merkmale gekennzeichnet ist: Zwei lokale Variablen: Temperatur, pH (lokale Sensorvariablen) und fünf globale Variablen: Niederschlag, Flusspegel und Zeitstempel, aufgeteilt in Monat, Tag und Stunde. Für alle Zeitreihen verwenden wir Daten vom 1. Juni 2019 bis zum 1. Juni 2020, wobei wir bei Bedarf NaN-Einträge entfernen. Anschließend führen wir sowohl eine GAM- als auch eine Boosted-Tree-Analyse durch, siehe auch Methoden. Beachten Sie, dass der Flusspegel an allen Standorten auf den in Rickmansworth aufgezeichneten Werten basiert, das mehrere Kilometer flussabwärts von allen Messstandorten liegt. Später betrachten wir auch einen Modelllauf, bei dem wir die lokale Zeitreihe eines Sensors mit der Station in Rickmansworth abgleichen.

Wir haben an allen Standorten eine GAM-Analyse (Generalized Additive Model) durchgeführt, konzentrieren uns hier jedoch auf die beiden Downstream-Standorte, während die Ergebnisse für die beiden Upstream-Standorte in der Ergänzung bereitgestellt werden. Die wichtigsten Merkmale, basierend auf der Größe ihrer beitragenden Splines, sind der pH-Wert und die Flussniveaus, die beide negativ mit der elektrischen Leitfähigkeit korrelieren (Abb. 7). Die Abweichung zwischen Modell und Testsatz beträgt \(\text {SMAPE}\ungefähr 1...2\%\), wobei SMAPE für den symmetrischen mittleren absoluten prozentualen Fehler steht48.

Ergebnisse der GAM-Analyse für LP (a) und WB (b). Am besten angepasste Splines der verschiedenen Merkmale \(x_{i}\) und ihr Einfluss auf die elektrische Leitfähigkeit (EC) im vollständig angepassten GAM-Ansatz. Die blaue Kurve ergibt die beste Anpassung und die roten gestrichelten Linien umschließen ein einzelnes Konfidenzintervall (\(68\%\) unter der Annahme einer zugrunde liegenden Gaußschen Unsicherheit). Schließlich geben wir den symmetrischen mittleren absoluten prozentualen Fehler (SMAPE)48 an, wenn das Modell auf den zuvor zurückgehaltenen Testsatz angewendet wird.

Anschließend wenden wir einen Boosted-Tree-Ansatz an und verwenden SHAP zur Interpretation der Ergebnisse. Lassen Sie uns zunächst diskutieren, wie es zu einer individuellen Erklärung kommt (Abb. 8): Der „Basiswert“ (mittlere Leitfähigkeit für LP) von etwa 723 \(\rm{\mu S/cm}\) wird in diesen spezifischen Daten verändert Dies wird durch die positive Auswirkung der Funktion „Tag“ (welcher Tag in der Woche) angezeigt, während „Monat“, „Flusspegel“, „Temperatur“ und „Stunde“ die Vorhersage auf einen niedrigeren Wert drücken. Daher sagt das Modell einen Wert von 662,7 \(\rm{\mu S/cm}\) voraus, wobei das einflussreichste Merkmal der Monat ist.

Erläuterung der Ergebnisse des Boosted Tree über SHAP. Ausgehend von einem Basiswert (hier ca. 723) verschiebt jedes Merkmal die Vorhersage für den Wert der elektrischen Leitfähigkeit auf niedrigere (blau) oder höhere (rot) Werte relativ zum Basiswert (Ensemble-Durchschnitt). Hier erklären wir eine EC-Messung am LP-Messstandort über SHAP.

Wir fahren mit einer systematischeren Studie fort, indem wir den Einfluss jedes Merkmals auf die Vorhersage bewerten und so von einer einzelnen lokalen Erklärung zu globalen Modelleigenschaften übergehen37. Dabei gehören Flusspegel, Temperatur, pH-Wert und die Zeit (Monat oder Stunde) zu den wichtigsten Beschreibungsmerkmalen (Abb. 9). Wie zuvor verschieben negative SHAP-Werte die Vorhersage der elektrischen Leitfähigkeit in Richtung niedrigerer Werte, während positive Werte die Vorhersage in Richtung höherer EC-Werte verschieben, was auf höhere Gesamtwerte gelöster Stoffe hinweist. Die Farben geben den Merkmalswert an und reichen von hoch (rot) bis niedrig (blau). Dadurch erhalten wir einen ersten Eindruck über die Abhängigkeiten hier: Das Flussniveaumerkmal ist bei negativen Werten überwiegend rot und bei positiven SHAP-Werten blau, korreliert also negativ mit der Leitfähigkeit. Abschließend berechnen wir die Abweichung zwischen Modell und Testsatz als \(\text {SMAPE}\ca. 0,2...0,4\%\).

Feature-Ranking des geboosteten Baums über SHAP. Die Merkmale sind nach ihrer Bedeutung für die Vorhersage von Abweichungen vom mittleren EC für LP (a) und WB (b) sortiert, siehe auch Abb. 8. Wie beim GAM-Ansatz geben wir den symmetrischen mittleren absoluten prozentualen Fehler (SMAPE) des an Modell, wenn es auf den Testsatz angewendet wird.

Um zu untersuchen, wie jedes Merkmal zum Modell beiträgt, analysieren wir Teilabhängigkeitsdiagramme der drei wichtigsten Merkmale; Flusspegel, Monat und Wassertemperatur für LP und Flusspegel, pH-Wert und Tageszeit bei WB (Abb. 10). In jedem Teilabhängigkeitsdiagramm zeigt die Farbe die Werte des interagierenden Merkmals an, das den größten Teil der beobachteten Varianz erklärt (in (Abb. 10a) des Monats). Wir beobachten durchweg eine negative Beziehung zwischen der elektrischen Leitfähigkeit und dem Flussniveau (Abb. 10a, e) sowie die elektrische Leitfähigkeit und der pH-Wert (Abb. 10d), d. h. ein höherer Flusspegel oder pH-Wert führen zu einer niedrigeren EC-Vorhersage. Beachten Sie, dass alle Diagramme einen Farbcode verwenden, um ein sekundäres Merkmal anzuzeigen, das die meisten Abweichungen erklärt die primäre Merkmalsvorhersage. Wir können also beobachten, dass niedrige Flusspegel in den Monaten 8 bis 12 (August bis Dezember) mit der höchsten elektrischen Leitfähigkeit des Flusswassers bei LP verbunden sind (Abb. 10a). Bei WB liegen die höchsten elektrischen Leitfähigkeitswerte im Flusswasser vor verbunden mit einem niedrigen pH-Wert von 7,4 bis 7,8 in den Monaten 8 bis 12 (August bis Dezember). Darüber hinaus gibt es interessante zeitliche Trends in den Stunden- und Monatsmerkmalen. Beispielsweise waren es bei WB die Nachmittage (13:00 bis 16:00 Uhr). gekennzeichnet durch eine geringere elektrische Leitfähigkeit im Flusswasser zu Zeiten, in denen der pH-Wert tendenziell höher war (7,8 bis 8,1). Feature-Ranking und Teilabhängigkeitsdiagramme für Upstream-Standorte werden in der Ergänzung angezeigt.

Partielle Abhängigkeitsdiagramme des EC-Boost-Baums für LP (ac) und WB (df). Wir stellen die drei wichtigsten Merkmale der beiden nachgelagerten Messstellen dar. Die Farben (und die linke Achse) heben Wechselwirkungen zweiter Ordnung zwischen dem dargestellten Feature und einem sekundären Feature hervor.

Als Erweiterung der zuvor abgeleiteten Ergebnisse integrieren wir drei neue Merkmale: den gesamten Flussdurchfluss, den gesamten WWTW-Abfluss und den WWTW-Anteil (Verhältnis von WWTW-Abfluss und Gesamtfluss) unter Berücksichtigung der Zeitverzögerung zwischen den verschiedenen Messstationen (siehe Ergänzungen für). Einzelheiten). Wir betonen, dass die Integration solcher zusätzlicher nützlicher Funktionen die Leistung des Modells verbessert, siehe Abb. 11. Insbesondere bleiben die wichtigsten Funktionen, Flusspegel und Monat, in diesem erweiterten Funktionsumfang weiterhin wichtig. Darüber hinaus bleibt die teilweise Abhängigkeit (Abb. 11b) für den Flusspegel durch die Hinzufügung eines neuen Merkmals nahezu unverändert. Abschließend ist zu beachten, dass der EC-Wert innerhalb des Modells nahezu linear vom Anteil des Durchflusses abhängt, der dem WWTW zugeschrieben wird (Abb. 11c), was sehr gut mit der zuvor beobachteten Übereinstimmung im Fourier-Spektrum und der Zeitreihe übereinstimmt: Höhere WWTW-Abflüsse weisen auf a hin höherer EC. Diese lineare Abhängigkeit ist im Modell viel deutlicher als in einem einfachen Streudiagramm.

Merkmalsranking und Teilabhängigkeitsdiagramme des erweiterten EC-Modells am LP-Standort. Wir zeichnen die Rangfolge der Merkmale (a), das wichtigste Merkmal (b) und die Abhängigkeit vom Anteil des Durchflusses aus dem WWTW (c) auf. Beachten Sie, dass der Oberflächenwasser-Grundwasser-Austausch im Fluss zwischen dem WWTW und dem Standort der Messstation zu einem Wert für den WWTW-Anteil \(> 1\) führen kann.

Nachdem wir EC im Detail analysiert haben, untersuchen wir als nächstes die Temperaturabhängigkeit. Unter Verwendung des erweiterten Datensatzes (also einschließlich der absoluten Flüsse und des WWTW-Anteils) erreichen wir sehr gute Anpassungen, siehe Abb. 12: \(\text {SMAPE}\ca. 0,5\%\) Abweichung im Durchschnitt. Wie in der EC-Analyse steht der Gesamtpegel des Flusses in unserer Merkmalsliste ganz oben, der Monat wird jedoch noch höher eingestuft, was auf die starke saisonale Abhängigkeit der Temperatur hinweist. Obwohl der WWTW-Anteil hier nicht zu den drei wichtigsten Merkmalen zählt, führen geringfügige Variationen der Hyperparameter zu einer Neuordnung der Merkmalsränge (Einzelheiten siehe Code) und die Abhängigkeit der Temperatur vom WWTW-Anteilsmerkmal bleibt robust. Eine Erhöhung des WWTW-Anteils geht mit einem Temperaturanstieg einher. Im hier gezeigten Modell kann ein erhöhter WWTW-Abfluss die Temperaturvorhersage um bis zu \(1^{\rm{\circ }}C\ beeinflussen, wenn die Flusspegel am niedrigsten sind (blaue Datenpunkte, Abb. 12c). Wenn der Flusspegel hoch ist (rote bis violette Datenpunkte, Abb. 12c), ist der WWTW-Anteil niedrig und die Auswirkung auf die Temperatur ist geringer.

Temperaturanalyse des LP-Standorts. Wir zeichnen die Rangfolge der Merkmale (a), das wichtigste Merkmal (b) und die Abhängigkeit vom Anteil des Durchflusses aus dem WWTW (c) auf.

Die Abflussbeiträge des WWTW in Chesham zum Fluss schwanken je nach Grundwasserspiegel und den kurzfristigen Auswirkungen von Niederschlagsereignissen zwischen 40 und 70 %. Dieser wichtige Beitrag von Punktquellen zur Flussströmung führt auch zu einer deutlich höheren mittleren elektrischen Leitfähigkeit im Oberflächenwasser stromabwärts des WWTW-Auslasses (Abb. 4a, Tabelle 1). Somit liefert diese Studie weitere Belege für die Rolle, die behandelte Abwassereinträge bei der Entstehung einer erhöhten elektrischen Leitfähigkeit in urbanisierten Flussläufen spielen18,19,20,21. Obwohl der WWTW-Auslass eine Punktquelle für gelöste Stoffe in das Flusssystem ist, erhält der WWTW Wasser aus einem kombinierten Abwassersystem, das Haushalts- und Industrieabwässer sowie Straßenabwasser aus diffusen Quellen umfasst, wie es in England üblich ist. Daher variiert die Zusammensetzung der gelösten Stoffe im behandelten Abwasser der Kläranlage je nach menschlichen Aktivitäten und Niederschlag. Darüber hinaus ist das beteiligte Kanalisationsnetz in Zeiten erhöhter Grundwasserspiegel (z. B. ab März 2020) einem Grundwassereinbruch ausgesetzt, was die Liste der Faktoren, die die elektrische Leitfähigkeit des Abwassers beeinflussen, ergänzt. Trotz dieser möglichen Ursachen für Schwankungen der elektrischen Leitfähigkeit im WWTW-Abwasser (diese Determinante wird von der Wasserversorgungsgesellschaft nicht überwacht) sehen wir dennoch konsistente zeitliche Trends in der elektrischen Leitfähigkeit des Flusses, die sich aus diesem Beitrag von Punktquellen zum Fluss ergeben.

In einem natürlichen Flusssystem wird der Grundabfluss in der EG als relativ hoch angesehen, da das Grundwasser im Vergleich zu den Schnellströmungskomponenten der Ganglinie, die von Niederschlägen und flachen unterirdischen Strömungen dominiert werden, reich an gelösten Stoffen ist49. In diesem grundwassergespeisten System werden die saisonalen und überjährlichen Schwankungen des Flusspegels und des Abflusses hauptsächlich durch den Grundwasserspiegel gesteuert (Abb. 1). Wir stellen fest, dass der EC-Wert das ganze Jahr über an unserem Grundwasserquellenstandort (LC) stromaufwärts des WWTW stabil bleibt, was darauf hinweist, dass der EC-Wert aufgrund sich ändernder Tiefen oder Grundwasserquellen kaum variiert (Abb. 2a, Tabelle 1). Unser vorgelagerter städtischer Standort (BH) hat ein variableres EC-Signal. Diese Variabilität entsteht durch Regenwassereinträge in den Kanal durch schnelle städtische Abflüsse, die als Reaktion auf Niederschlagsereignisse mit hoher Intensität zu starken EC-Abfällen führen (Abb. 2a, Tabelle 1). Die größten Schwankungen im EC werden jedoch an den Standorten stromabwärts der WWTW beobachtet. An diesen Standorten (LP und WB) ist der Einfluss des Flusspegels und des Anteils des WWTW-Abwassers auf die saisonalen Zyklen der EC deutlich erkennbar, wobei der höchste EC gemessen wird, wenn die Flusspegel am niedrigsten sind (Abb. 10), und der Beitrag des WWTW-Abwassers zum Basisabfluss ist am höchsten (Abb. 11b,c).

Es gibt nicht nur deutliche jahreszeitliche Veränderungen im EC, sondern auch deutliche Muster auf 24-Stunden- und kürzeren Zeitskalen, die durch Veränderungen im behandelten Abwasserabfluss aus der Kläranlage verursacht werden (Abb. 5, 6c, d, 10f). In der Kläranlage gibt es zwei Perioden mit Spitzenabflüssen; um 13:00 bis 14:00 GMT und 21:00 bis 22:00 GMT im Zusammenhang mit Mustern menschlicher häuslicher Aktivitäten im Einzugsgebiet. Diese elektrische Leitfähigkeitssignatur dieser Aktivitätsspitzen wird stromabwärts abgeschwächt, bleibt jedoch 5 km stromabwärts des Ausflusses beobachtbar; und selbst wenn der Flusspegel im Frühling (Februar bis Mai 2020) hoch ist. Diese „Signatur“ kann verwendet werden, um die durchschnittliche Wasserreisezeit oder -geschwindigkeit zwischen Standorten abzuschätzen. Die ungefähre Reisezeit des Wassers von der Kläranlage zum LP und WB beträgt 2,5 bzw. 8,5 Stunden. Daher entsprechen die Tagesbedingungen (09:00 bis 17:00 Uhr) im Fluss bei WB einem Zeitraum mit den niedrigsten täglichen Beiträgen des WWTW.

Hier überlegen wir, ob tägliche Änderungen der elektrischen Leitfähigkeit an anderen urbanisierten Flüssen im Vereinigten Königreich messbar sein könnten und wie übertragbar unsere Beobachtungen sein könnten? In diesem Zusammenhang ist ein nützlicher zu berücksichtigender Parameter der „Verdünnungsfaktor“, der als Verhältnis des Flussabflusses am Auslass des Einzugsgebiets zum gesamten häuslichen Abwasserabfluss definiert ist50. Der Verdünnungsfaktor wird bei ökologischen Risikobewertungen im Rahmen der EU-Gesetzgebung verwendet, um eine „Worst-Case-Exposition“ von Oberflächenwasser gegenüber Chemikalien aus behandeltem Abwasser vorherzusagen51. Für diese Analysen wird ein fester Verdünnungsfaktor von zehn verwendet. Auf der Grundlage der Daten zum behandelten Abwasserfluss aus Chesham und dem Flussfluss an der Messstation Rickmansworth schätzen wir einen mittleren Verdünnungsfaktor von 2,67 während unserer Studie, mit einem Minimum von 0,87 während der Dürreperiode zu Beginn unserer Studie und einem Maximum von 6,81 im Februar/März 2020. Während dieses gesamten Zeitraums waren im Fluss Tageszyklen der elektrischen Leitfähigkeit zu beobachten.50 Schätzungen zufolge haben 25\(\%\) der Flüsse im Vereinigten Königreich schätzungsweise einen mittleren Verdünnungsfaktor von \(< 6,26\). und diese Flüsse kommen hauptsächlich in dicht besiedelten Regionen wie Südostengland vor. Auf dieser Grundlage gehen wir davon aus, dass in vielen Tieflandflüssen im Vereinigten Königreich tageszeitliche Veränderungen der elektrischen Leitfähigkeit zu beobachten sein könnten, obwohl diese Kreisläufe durch die Wirkung von mehr als einer Abwasseraufbereitungsanlage vor einer Flussmessstation erschwert werden können. Es gibt keine umfassende Übersicht über die Verdünnungsfaktoren in europäischen Flüssen, aber eine aktuelle Analyse großer deutscher Kläranlagen mit einer Größe von > 10.000 Einwohneräquivalenten hat ergeben, dass 60 % der Verdünnungsfaktoren unter 10 fallen, was auf tageszeitliche Veränderungen schließen lässt Die elektrische Leitfähigkeit könnte in größerem Umfang beobachtbar sein52.

Die partiellen Abhängigkeitsdiagramme aus der Boosted-Tree-Analyse ermöglichen es uns auch, die Beziehung zwischen dem Anteil des Durchflusses aus dem WWTW (unter Verwendung der elektrischen Leitfähigkeit als Proxy) und dem pH-Wert am WB zu berücksichtigen. Abbildung 10e zeigt, dass die Zeiträume mit den höchsten Beiträgen des WWTW zum Gesamtabfluss im Fluss mit den Bedingungen mit dem niedrigsten pH-Wert verbunden sind. Abbildung 10f zeigt, dass die Tagesbedingungen im Fluss bei WB (09:00–17:00 Uhr), wenn der Beitrag des Abflusses aus dem WWTW am niedrigsten ist, mit den höchsten pH-Bedingungen verbunden sind. Während der Tageslichtstunden wird die Photosynthese auch zu alkalischem Flusswasser führen, aber diese Analyse deutet darauf hin, dass eine Kombination aus Photosynthese und behandeltem Abwasser die Amplitude des pH-Zyklus im Fluss erhöhen könnte.

Schließlich ermöglicht uns die Analyse auch, die Merkmale zu entschlüsseln, die die Flusswassertemperatur steuern. Die SHAP-Analysen bestätigen das bisher bekannte wichtige Zusammenspiel zwischen Jahreszeit und Flussniveau auf die Temperatur53. Beispielsweise54 haben zuvor Lufttemperatur und Wasserstand verwendet, um stündliche Änderungen der Wassertemperatur mithilfe eines Modellierungsansatzes für künstliche neuronale Netze vorherzusagen. Unsere Modellierung zeigt auch, dass der Anteil des Abflusses aus der vorgelagerten Kläranlage positiv mit einer Änderung der Flusswassertemperatur von ca. 30 % korreliert. 1\(\rm{^{o}C}\) während Perioden mit niedrigem Flusspegel, was weitere Forschung in diesem Bereich rechtfertigt. Insbesondere angesichts der Tatsache, dass die Wassertemperaturen im Sommer bei geringem Durchfluss 20 \(\rm{^{o}C}\) überstiegen; Temperaturen, die den Rekrutierungserfolg von Salmoniden wie der Bachforelle (Salmo trutta) und der europäischen Äsche (Thymallus thymallus) beeinträchtigen können55. Abwasseraufbereitungsanlagen sind eine Quelle für warmes Wasser, die bisher wenig Beachtung gefunden hat, aber eine landesweite Analyse im Vereinigten Königreich56 hat gezeigt, dass das Potenzial besteht, Wärme aus Abwasseraufbereitungsanlagen zurückzugewinnen, um zur Erreichung der Klimaschutzziele beizutragen, mit dem zusätzlichen Nutzen Umweltauswirkungen auf Flüsse zu reduzieren. Unsere Analyse zeigt, dass eine Minderungsoption wie die Wärmerückgewinnung aus der Einleitung behandelter Abwässer von Vorteil für Kreidebäche wie den River Chess sein kann, die einen großen Teil ihres Abflusses aus aufbereitetem Abwasser beziehen. Dies ist besonders wichtig in einer Zeit, in der das Bevölkerungswachstum voraussichtlich zu einem Anstieg der täglich in den Fluss gelangenden Menge an behandeltem Abwasser führen wird.

Sowohl die GAM- als auch die SHAP-Analyse zeigten eine gute Übereinstimmung hinsichtlich des Einflusses der verschiedenen Variablen auf die elektrische Leitfähigkeit. Beispielsweise zeigte sich bei beiden Techniken, dass der pH-Wert und der Flusspegel negativ mit der elektrischen Leitfähigkeit korrelieren. Der SHAP-Ansatz erzielte jedoch eine Verbesserung der Modellleistung um fast eine Größenordnung im Vergleich zum GAM, gemessen am symmetrischen mittleren absoluten prozentualen Fehler (\(\text {SMAPE} =0,2\) bzw. 1,5). Entscheidend ist, dass die Boosted-Tree-Analyse mit der SHAP-Analyse leicht zu visualisieren und zu interpretieren ist und der darin enthaltene Regressionsbaum-Ansatz die Berücksichtigung variabler Wechselwirkungen ermöglicht, während der GAM-Ansatz unabhängige Variablen voraussetzt. Darüber hinaus befasst sich der Boosted-Tree-Ansatz mit Nichtlinearität und kann bei Tabellendaten eine gute Leistung erbringen31. Ein alternativer Ansatz könnten neuronale Netze sein, diese erlauben jedoch in der Regel keine so gute Interpretation wie der hier dargestellte SHAP-Ansatz57.

Hier verwendeten wir Python-Pakete und insbesondere die Idee des automatisierten maschinellen Lernens58, um diese Techniken des maschinellen Lernens hoffentlich für eine breite Forschungsgemeinschaft einfacher auszuprobieren. Während die Analyse über geboostete Bäume auch in R59 verfügbar ist, z. B. über das Caret-Paket60, ist eine detaillierte Interpretation des abgeleiteten Modells, wie hier über SHAP-Werte, noch nicht verfügbar, könnte aber in Zukunft enthalten sein.

„Umherziehende“ kostengünstige elektrische Leitfähigkeitssensoren können in einem Einzugsgebiet bewegt werden, um die Untersuchung räumlicher Muster in Schadstoffen zu unterstützen. Diese Sensoren könnten dazu verwendet werden, potenzielle Verschmutzungsquellen aufgrund von Kanalfehlanschlüssen zu identifizieren, und als Tool in „Outfall Safaris“ (https://catchmentbasedapproach.org/learn/outfall-safari-guide/) zur Identifizierung von Standorten eingebettet werden zeichnet sich durch eine hohe Gesamtmenge an gelösten Stoffen aus, die einer weiteren Untersuchung wert sind. Messungen der elektrischen Leitfähigkeit könnten mit gelöstem Sauerstoff kombiniert werden, um Messungen der Verdünnungskapazität mit der ökologischen Funktion und dem ökologischen Zustand gemäß der Wasserrahmenrichtlinie zu verknüpfen.

Hier zeigen wir auch die Vorteile der Hochfrequenzüberwachung der elektrischen Leitfähigkeit für Flussgruppen. Die hochfrequente Überwachung von Wasserqualitätsdeterminanten ist eine zunehmend gängige Praxis für Regulierungsbehörden und Wissenschaftler in städtischen Einzugsgebieten20,49 und liefert wichtige Erkenntnisse über die Ursachen zeitlicher Schwankungen der Wasserqualität61. Jüngste Fortschritte in der Sensortechnologie unter Verwendung der Internet-of-Things-Ansätze (IoT)62 machen die Hochfrequenzüberwachung der elektrischen Leitfähigkeit und Temperatur zu einem potenziell kostengünstigen Untersuchungsinstrument für Citizen-Science-Gruppen und partizipative Forschung.

Für Flussgruppen sollte es wichtig sein, die Tageszyklen der Wasserqualität zu verstehen. Die zyklische tägliche Variation der elektrischen Leitfähigkeitsdaten könnte als Grundlage für die Planung von Kampagnen zur Überwachung der städtischen Wasserqualität verwendet werden. Solche Informationen könnten vorgeben, wann Probenahmeaktivitäten und -aufwand auf einen Tageszyklus konzentriert werden müssen, um die wahrscheinlich besten und schlechtesten Szenarios in Bezug auf chemische Konzentrationen zu untersuchen, die aus punktuellen Quelleneinträgen (z. B. Nährstoffen und Pharmazeutika) resultieren. Das Verständnis, wie das Signal der elektrischen Leitfähigkeit stromabwärts abschwächt, würde es Citizen Scientists auch ermöglichen, die optimalen Probenahmezeiten an verschiedenen Punkten stromabwärts eines Punktquelleneingangs zu ermitteln. Solche Analysen könnten in Toolkits eingebettet werden, die derzeit von Initiativen wie CaBa im Vereinigten Königreich entwickelt werden, um Gruppen dabei zu helfen, gemeinsam mit Wasserunternehmen und Regulierungsbehörden Aktionspläne für ihre Flüsse zu priorisieren.

Durch menschliche Aktivitäten steigen die Konzentrationen der gesamten gelösten Stoffe in Süßwasser weltweit. Obwohl ein Großteil des Fokus derzeit auf den Auswirkungen auf die menschliche Gesundheit (z. B. Grundwasserschwellenwerte von 1880 \(\rm{\mu S cm^{-1}}\) für Trinkwasserschutzgebiete, die gemäß der Wasserrahmenrichtlinie ausgewiesen sind) und der Bewässerung liegt, liegt das Potenzial darin Ökologische Auswirkungen erhalten jetzt mehr Aufmerksamkeit22, zusammen mit Empfehlungen zur Entwicklung ökologischer Kriterien für bestimmte Ionen und ihre Mischungen. Zu den künftigen bewährten Verfahren könnte beispielsweise die Reduzierung der Salzbelastung durch die Minimierung der punktuellen Einleitung von Salzen in Süßwasser durch Ressourcengewinnung gehören22. Obwohl es unwahrscheinlich ist, dass die beobachteten Änderungen der elektrischen Leitfähigkeit im Fluss Chess per se ein ökologisches Risiko darstellen, sind sie ein Hinweis auf die sich ändernde Belastung des Flusses mit aus dem Abwasser stammenden Chemikalien63. Derzeit gibt es keine In-situ-Sensoren, um diese neu auftretenden Chemikalien kontinuierlich mit hoher Frequenz zu messen, und die elektrische Leitfähigkeit könnte daher als Indikator für die Entwicklung von Risikokriterien für urbanisierte Flüsse in Betracht gezogen werden49.

Änderungen der elektrischen Leitfähigkeit sind teilweise auch auf Schwankungen der Konzentrationen von Anionen wie Chlorid61, Phosphat und Nitrat im Fluss zurückzuführen und legen nahe, dass eine detailliertere Untersuchung der hochfrequenten Schwankungen dieser Anionen zur Verbesserung erforderlich ist Genauigkeit der Belastungsberechnungen. Das Verständnis, wie diese Tageszyklen dieser Chemikalien mit jahreszeitlichen Veränderungen der Abflüsse variieren, ist auch entscheidend für das Verständnis des potenziellen Gesamteinflusses einer bestimmten Punktquellenableitung auf die biologische Funktion des Flusssystems. Obwohl sich gezeigt hat, dass der Einfluss von behandeltem Abwasser auf die Fließgewässerfunktion in semiariden und mediterranen Regionen ausgeprägt ist64,65,66, zeigen unsere Daten, dass eine begrenzte Verdünnungskapazität auch bedeuten könnte, dass behandeltes Abwasser einen entscheidenden Einfluss auf den biogeochemischen Kreislauf im Fluss in gemäßigten Klimazonen hat , urbanisierte Bäche.

SHAP-Analysen – eine Methode aus dem Bereich des interpretierbaren maschinellen Lernens (IML) – haben ein Black-Box-Modell eröffnet, das nützliche Einblicke in voneinander abhängige Faktoren liefert, die die Zyklen der elektrischen Leitfähigkeit und Temperatur in einem urbanisierten Fluss steuern. Mithilfe dieser Analysen konnten wir nachweisen, dass der Anteil des WWTW-Abwassers, der den Gesamtabfluss ausmacht, eine kritische Variable ist, die mit den saisonalen und täglichen Zyklen der elektrischen Leitfähigkeit und Temperatur in diesem urbanisierten Kreidebach übereinstimmt. Da die mit aufbereitetem Abwasser im River Chess verbundenen Verdünnungsfaktoren mit denen vieler anderer Flüsse in England und Wales vergleichbar sind, gehen wir davon aus, dass kostengünstige Hochfrequenzmessungen der elektrischen Leitfähigkeit dazu beitragen könnten, den Einfluss von Kläranlagen in anderen urbanisierten Flusssystemen zu untersuchen. Wir haben diese Analyse auch verwendet, um den Einfluss einer WWTW auf die Flusswassertemperatur zu demonstrieren, wobei wir hervorgehoben haben, dass die WWTW in diesem Fall mit einem Anstieg der Wassertemperatur um 1 \(\rm{^oC}\) in einer Entfernung von 2 km verbunden ist aus dem Auslass des behandelten Abwassers bei niedrigsten Durchflussbedingungen. Darüber hinaus könnten andere Citizen-Science-Gruppen kostengünstige und kostengünstige Messungen der elektrischen Leitfähigkeit nutzen, um Wasserprobenentnahmen in städtischen Flüssen zu steuern. Mithilfe gleichzeitiger stromaufwärts und stromabwärts gerichteter Messungen der elektrischen Leitfähigkeit können sie möglicherweise optimale Zeitpunkte für die Messung unterschiedlicher Wasserqualität und ökologischer Parameter festlegen und die Reisezeiten des Wassers durch städtische Flusssysteme quantifizieren.

Der Fluss Chess (8 Meilen lang, Einzugsgebiet 105 \(\rm{km^2}\)) ist einer von neun Kreideflüssen mit geringem Gefälle, die das Gefälle des Chilterns Area of ​​Outstanding Natural Beauty (AONB) entwässern, siehe Abb. 13 für eine Karte. Der standardisierte durchschnittliche jährliche Niederschlag für das Einzugsgebiet beträgt 753 mm (1961–1990,46), und der Basisabflussindex beträgt 0,95. Die Landbedeckung im Einzugsgebiet ist gemischt mit 12 % städtischer, 18 % Wald-, 35 % Grünland- und 35 % Ackerlandfläche. Die winterlichen (ephemeren) Flussabschnitte rund um die Stadt Chesham sind urbanisiert und kanalisiert mit zahlreichen artesischen Brunnen sowie Grundwasserquellen. Flussabwärts von Chesham wird die Landschaft ländlicher und die Nutzung von Grünland und Ackerland dominiert, bis der Fluss bei Rickmansworth seinen Zusammenfluss mit dem Fluss Colne erreicht. Der mittlere jährliche Durchfluss an der Rickmansworth-Messstation beträgt 0,54 \(\rm{m^3s^{-1}}\)46. Aufbereitetes Abwasser aus den Abwasserbehandlungsanlagen von Chesham (Einwohneräquivalent = 37.300; ST1 in Abb. 13) macht je nach Strömungsbedingungen etwa 40 bis 70 % des Abflusses im Fluss stromabwärts von Chesham aus. ST2 in Abb. 13 ist eine kleine ländliche Kläranlage mit einem Einwohnerwert von 50.

Karte mit der Lage von (a) Chiltern Area of ​​Outstanding Natural Beauty (AONB) im Südosten Englands (b) River Chess, der aus dem Chilterns AONB fließt; und (c) die vier Überwachungsstandorte im River Chess: BH, LC, LP und WB. ST1 und ST2 geben den Standort der beiden Abwasseraufbereitungsanlagen am Fluss an. Karten, die mit offenen Daten von OpenStreetMap erstellt wurden und unter der Open Database-Lizenz verfügbar sind, finden Sie unter 67 für Einzelheiten.

Unser Programm zur Überwachung der Wasserqualität wurde gemeinsam mit einer örtlichen Flussgruppe (River Chess Association) entwickelt, die verstehen wollte, wie sich eine lokale Abwasseraufbereitung auf die Wasserqualität im River Chess auswirkt. Ab April 2019 wurden vier Eureka Manta 2-Wasserqualitätssonden im River Chess installiert und so programmiert, dass sie in 15-Minuten-Intervallen Messungen durchführen. Jede Sonde war mit Sensoren zur Messung von Wassertemperatur, pH-Wert, elektrischer Leitfähigkeit, Trübung und gelöstem Sauerstoff ausgestattet. Der Schwerpunkt liegt hier auf der temperaturkompensierten elektrischen Leitfähigkeit (angegeben als auf 25 \(\rm{^{o}C}\) korrigiert) und den Wassertemperaturdatensätzen. Die Sonden waren mit einem verlängerten Wischerarm ausgestattet, um die Sensoren vor jeder Messung zu reinigen, und wurden alle zwei Wochen von unserem Citizen Scientist-Team manuell gereinigt und überprüft, um Verschmutzungen vorzubeugen. Die Kalibrierung jedes Sensors wurde monatlich vom akademischen Team überprüft. Wassertemperatur und elektrische Leitfähigkeit blieben während der gesamten Studie im Erfassungsbereich der Sensoren (– 5 bis 50\(\rm{^{o}C}\) für die Wassertemperatur und 0 bis 100 mS/cm für die elektrische Leitfähigkeit).

Das Citizen Science-Programm wurde entwickelt, um die Wasserqualität stromabwärts des urbanisierten Quellgebiets des Flusses Chess zu untersuchen. Dementsprechend wurde Sensor 1 (BH) stromabwärts von Chesham (der Stadt im Quellgebiet des Flusses Chess) installiert; Sensor 2 (LC) wurde in einem Seitenkanal des Flusses Chess innerhalb der städtischen Gebiete installiert, der Wasser aus einem artesischen Brunnen und einer natürlichen Quelle erhält; Sensor 3 (LP) wurde etwa 2 km stromabwärts von Chesham Wastewater Treatment Works (WWTW), aber stromaufwärts von allen anderen wichtigen Nebenflüssen oder Quellen installiert; und Sensor 4 (WB) befand sich 3 km stromabwärts von Sensor 3, um anzuzeigen, wie weit stromabwärts Auswirkungen von Chesham WWTW erkennbar waren. Zwischen Sensor 2 und 3 gibt es zahlreiche Quellen, die Wasser in den Fluss Chess leiten, siehe auch Abb. 13 für eine Karte.

Die Gesamtniederschlagsmenge von fünfzehn Minuten (Chenies, Stationsnummer 278744TP), der Flussabfluss (Rickmansworth-Messstation Nummer 2859TH) und die Daten zum Grundwasserspiegel (Ashley Green) wurden von der Umweltbehörde bezogen. Die von Chesham Wastewater Treatment Works behandelten Abflussdaten (15-Minuten-Auflösung) wurden von Thames Water46 bezogen. Beachten Sie, dass wir „Abfluss behandelter Abwässer“ verwenden, um die Menge des endgültigen, behandelten Abwassers zu messen, das aus der Anlage freigesetzt wird.

Die Datenanalyse wurde an 12-monatigen 15-Minuten-Sensordaten (1. Juni 2019 bis 1. Juni 2020) durchgeführt. Für die elektrische Leitfähigkeit und Temperatur wurden empirische Wahrscheinlichkeitsdichtefunktionen (PDF) abgeleitet, um zusammenfassende statistische Eigenschaften der vier Überwachungsstandorte zu vergleichen. Dominante Frequenzen in den elektrischen Leitfähigkeits- und Temperaturdatensätzen wurden mithilfe einer Fourier-Analyse identifiziert und mit zyklischen Mustern im behandelten Abwasserabfluss aus dem WWTW verglichen, um zu testen, ob die elektrische Leitfähigkeit als Indikator für die Dominanz des Abwasserabflusses aus dem WWTW dienen könnte. GAM und eine Gradient-Boosted-Tree-Analyse wurden auf den 12-Monats-Datensatz angewendet, um den Einfluss verschiedener Variablen und ihrer Wechselwirkungen (Zeit, Wasserstand, pH-Wert) auf die elektrische Leitfähigkeit zu untersuchen. Um die Analyse durchzuführen, haben wir die Daten gemischt und in 70 % Trainings- und 30 % Testdaten aufgeteilt. Abschließend wurde eine SHAP-Analyse auf die Ergebnisse des verstärkten Baums angewendet, um eine detaillierte Interpretation der Ergebnisse zu erleichtern. Jede der Datenanalysemethoden wird in den folgenden Abschnitten a–f ausführlich beschrieben. Beachten Sie, dass alle Daten und Codes online frei verfügbar sind (siehe Erklärung zur Code-Verfügbarkeit). Daher empfehlen wir dem interessierten Leser, zusätzlich zu den hier angebotenen allgemeinen, weiterführenden Beschreibungen auch den Code zu konsultieren.

Empirische Wahrscheinlichkeitsdichtefunktionen (PDF) Um zu bewerten, wie wahrscheinlich eine bestimmte Beobachtung y ist, verwenden wir empirische Wahrscheinlichkeitsdichtefunktionen (PDFs). Jede Messinstanz \(y_1\), \(y_2\), \(y_3\), ... \(y_j\), ..., \(y_N\) wird in einem von n Bins aggregiert. Jedes Bin i deckt ein Intervall \(\left[ y_\text {min}(i),y_\text {max}(i)\right)\ ab, in dem wir \(y_\text {min}(i+ 1)=y_\text {max}(i)\). Nachdem wir gezählt haben, wie viele Messungen in jedes Bin i fallen, normalisieren wir mit der Gesamtzahl der Zählungen, sodass jedes Bin eine Wahrscheinlichkeit p(i) mit \(\sum _i p(i)=1\) darstellt. Dadurch erhalten wir ein normalisiertes Histogramm. Zusätzlich zu diesem Histogramm zeigen wir auch eine empirisch angepasste Kurve an, bei der es sich um die univariate Kerndichteschätzung handelt, d. h. es handelt sich um eine Funktion, die das zugrunde liegende Histogramm als annähert

Dabei haben wir einen Gaußschen Kernel K gewählt. Technisch gesehen schätzen und zeigen wir die empirischen Dichten mithilfe des Seaborn-Pakets in Python68 an.

Fourier-Analyse In vielen Ökosystemen beobachten wir Periodizität, beispielsweise im Hinblick auf saisonale oder tägliche Zyklen. Um diese Zyklen zu analysieren, verwenden wir die Fourier-Analyse, die eine Zeitreihe y(t) vom Zeitbereich, also unter Verwendung des Arguments t, in den Frequenzbereich transformiert:

wobei i die imaginäre Einheit ist. Die neue Reihe \({\tilde{y}}(k)\) ist eine Funktion der Frequenzen k und wir wenden eine inverse Fourier-Transformation an, um die ursprüngliche Zeitreihe y(t) wiederherzustellen. Zyklisches Verhalten lässt sich leicht mit \({\tilde{y}}(k)\) analysieren, da \({\tilde{y}}(k)\) bei Eigenfrequenzen der Zeitreihe y(t) seinen Höhepunkt erreicht. . Beispielsweise führt eine Zeitreihe, die genau eine Sinusfunktion mit einer Periode von 1 Stunde ist, zu einer Deltafunktion von \({\tilde{y}}(k)\) bei \(k=(1h)^{-1} \), während eine realistische Zeitreihe mit mehreren Frequenzen und einem ausgeprägten Tageszyklus einen endlichen Peak bei \({\tilde{y}}\left( (24h)^{-1}\right)\) aufweist. Je größer der Peak in der Fourier-Transformation \({\tilde{y}}(k)\), desto dominanter ist diese Frequenz in der ursprünglichen Zeitreihe y(t).

GAM Als einen möglichen Ansatz, um abzuleiten, wie sich die verschiedenen Variablen (Merkmale) auf unser Ziel auswirken, verwenden wir Generalized Additive Models (GAMs)31. GAMs nutzen Splines, also stückweise glatt verbundene Polynome, um lokale Abhängigkeiten zu beschreiben. Mehrere dieser Splines werden hinzugefügt, um ein vollständiges Modell der Beziehung zwischen den verschiedenen Zustandsraumgrößen zu erhalten. Um das beobachtbare y zu beschreiben, erstellen wir insbesondere das folgende Modell:

Dabei ist c eine Konstante (Achsenabschnitt oder Bias) und \(s_{i}\) B-Splines 3. Ordnung für jedes der Features \(x_{i}\) und wir addieren einfach alle Spline-Terme zusammen, was zu an führt additives Modell. Technisch implementieren wir GAMs mithilfe des Python-pyGAM-Pakets69 und verwenden eine 70-prozentige Trainings- und 30-prozentige Testaufteilung zufällig gemischter Daten. Aus Gründen der Konsistenz verwenden wir an allen Standorten eine identische Anzahl von Splines, nämlich 10. Ein etwas geringerer Fehler kann durch Feinabstimmung der Anzahl von Splines an jedem Standort erreicht werden, wodurch der Fehler ungefähr um bis zu \(5\%\) reduziert wird. .

Ein Vorteil von GAM ist seine einfache Interpretierbarkeit. Es sind keine weiteren Schritte erforderlich, um partielle Abhängigkeiten aus einem GAM-Ansatz zu erhalten. Wir können einfach die Splines \(s_{i}\) visualisieren, um zu sehen, wie ein bestimmtes Merkmal \(x_i\) unser Ziel y beeinflusst.

Gradientenverstärkte Bäume Als Alternative zu GAMs verwenden wir auch Gradientenverstärkte Bäume, um die Feature-Interaktion und gegenseitigen Abhängigkeiten zu beschreiben. Die Schlüsselidee besteht darin, dass ein Ensemble von „schwachen Lernenden“, wie z. B. erwartungstreue Bäume mit hoher Varianz, verwendet wird, um einen viel präziseren Prädiktor mit idealerweise geringer Verzerrung und geringer Varianz zu generieren. Wir initialisieren einen einzelnen Baum, berechnen dann den Verlust, dh den Fehler in seiner Vorhersage auf einem Validierungssatz, und berechnen den Gradienten dieses Verlusts. Als nächstes passen wir einen neuen Regressionsbaum an die Gradienten an. Der neue Prädiktor wird durch Summieren des neu angepassten Baums mit dem vorherigen Prädiktor erhalten. Eine Lernrate \(\eta\) steuert, wie weit wir uns entlang des Gradienten bewegen und wie stark dadurch der nächste hinzugefügte Baum die vorherige Vorhersage verändert. Für diesen aktualisierten Prädiktor, der aus einer Summe von Bäumen besteht, berechnen wir erneut den Verlust und den Gradienten und führen eine Aktualisierung durch. Dieser Vorgang wird wiederholt, bis eine bestimmte Anzahl von Iterationen abgeschlossen ist oder ein Verlustschwellenwert überschritten wurde.

Auf der technischen Seite wird Boosted in Python mithilfe von LightGBM70 implementiert und wir finden geeignete Hyperparameter mithilfe von FLAML58, also einem automatisierten Framework für maschinelles Lernen, das mögliche Parameter automatisch untersucht. Wir haben die Hyperparameter-Erkundung auf 1000 Sekunden beschränkt und eine hohe Präzision erreicht. Einige Tests ergaben, dass die Interpretation der Modelle durch eine Änderung der für die Parametersuche vorgesehenen Zeit, z. B. auf 100 Sekunden, nur geringfügig beeinflusst wird. Daher sind wir zuversichtlich, dass die erhaltenen und unten diskutierten Ergebnisse unabhängig von den verwendeten spezifischen Hyperparameterlösungen sind. Wir lassen zu, dass Hyperparameter für jedes Modell variieren und erhalten Lernraten in der Größenordnung \(\alpha \sim 0,02...0,05\) und der Anzahl der Blätter \(\sim 300\). Details zur Implementierung finden Sie im veröffentlichten Code.

Shapley-Werte Im Gegensatz zu GAMs erfordern Boosted Trees mehr Aufwand, um eine detaillierte Interpretation zu ermöglichen. Hier interpretieren wir den vollständig trainierten Baum durch Anwendung von Shapley-Werten57. Die Idee der Shapley-Werte stammt aus der Spieltheorie und quantifiziert, wie viel jeder Spieler eines kooperativen Spiels zum gewonnenen Wert beitrug. Daher könnte eine siegreiche Koalition von Spielern die Belohnungen für den Sieg eines Spiels gerecht unter ihren Spielern aufteilen, indem sie jeden Spieler proportional zu seinem Wert für den Erfolg bezahlt.

Beim maschinellen Lernen beantworten Shapley-Werte eine sehr ähnliche Frage: Gegeben ein Vorhersageergebnis eines maschinellen Lernmodells (in unserem Fall Boosted Trees): Wie viel hat jedes Feature (anstelle eines Spielers) zur Entscheidung des Modells beigetragen? Genauer gesagt ist der Shapley-Wert von Merkmal i die Auswirkung des Merkmals, gewichtet und summiert über alle möglichen Merkmalskombinationen:

Dabei ist S die Menge der im Modell verwendeten Merkmale und \(x=(x_1, x_2, ..., x_p)\) der Merkmalsvektor der Instanz, die erklärt werden soll. Darüber hinaus ist p die Anzahl der Features und val(S) die Vorhersage für das Ziel y angesichts der Features in der Menge S. Jetzt können wir den Beitrag in verschiedenen Feature-Koalitionen bewerten, indem wir variieren, welche Features in S eingehen und welche marginalisiert werden . Entscheidend ist, dass Shapley-Werte mehrere wünschenswerte Eigenschaften haben, z. B. dass sie effizient, symmetrisch, additiv und invariant unter Hinzufügung eines Dummy-Merkmals sind. Weitere Einzelheiten finden Sie auch unter 57.

Während Shapley-Werte häufig rechenintensiv zu berechnen sind,36 und37 wurden neben recheneffizienten Algorithmen auch SHAP (SHapley Additive ExPlanations) zur Berechnung von SHAP-Werten für baumbasierte Methoden eingeführt. Ähnlich wie Shapley-Werte sagt uns SHAP, wie viel jedes Merkmal zu einer Vorhersage beiträgt. Konkret sagt uns ein positiver SHAP-Wert, dass ein bestimmtes Merkmal die Vorhersage über den Mittelwert hinaus treibt, während ein negativer SHAP-Wert bedeutet, dass das Merkmal typischerweise den vorhergesagten Wert verringert. Die Größe des SHAP-Werts kann dann zur Einstufung von Merkmalen (Merkmalsbedeutung) verwendet werden. Schließlich werden partielle Abhängigkeitsdiagramme erhalten, indem der Merkmalswert gegen seinen SHAP-Beitrag aufgetragen wird, d. h. Paare \((\phi (x_i),\phi _i)\) für ein gegebenes Merkmal i aufgetragen werden.

Datenbereinigung Bei der Anwendung des GAM- oder Boosted-Tree-Ansatzes verlassen wir uns auf saubere Datensätze ohne Lücken oder NaN-Einträge (keine Zahl). Daher eliminieren wir bei der Vorbereitung des Datensatzes für die Trainings-Test-Aufteilung jede Zeile, in der mindestens ein Eintrag oder NaN fehlt. Dadurch werden zwar die verfügbaren Daten reduziert, wir vermeiden jedoch die Festlegung von Modellannahmen, die zur Imputation der fehlenden Daten erforderlich sind. Beachten Sie, dass nicht alle Messstandorte gleichzeitig über NaN verfügen und wir daher möglicherweise nur den Sommer und Herbst an einem Standort modellieren können, während wir an einem anderen Standort das gesamte Jahr modellieren, was zu unterschiedlichen Bereichen des „Monats“ führt. Wert. Die Gesamtzahl der für die verschiedenen Standorte verbleibenden „sauberen“ Datenpunkte beträgt etwa 17.000 für LC und BH, 27.000 für LP und 18.000 für WB, was etwa 177 bis 288 Gesamttagen sauberer Daten entspricht. Die meisten dieser nutzbaren Daten liegen in einem großen, kontinuierlichen Zeitraum vor.

Schließlich stellten wir am LC-Standort für einen kurzen Zeitraum einen systematischen Versatz der elektrischen Leitfähigkeit auf niedrigere als übliche Werte fest, der auf eine Verstopfung im Sensorhohlraum zurückzuführen war. Wir haben diesen Versatz korrigiert, indem wir die Werte erhöht haben, um sie an den folgenden Zeitraum anzupassen. Einzelheiten finden Sie im veröffentlichten Code.

Daten vom River Chess sind auf der folgenden ChessWatch-Website verfügbar: https://rhysh.shinyapps.io/ChessWatch/. Der Code, der zur Analyse der Daten verwendet wurde, ist unter https://osf.io/txjv3/ verfügbar.

Astaraie-Imani, M., Kapelan, Z., Fu, G. & Butler, D. Bewertung der kombinierten Auswirkungen von Urbanisierung und Klimawandel auf die Flusswasserqualität in einem integrierten städtischen Abwassersystem im Vereinigten Königreich. J. Umgebung. Verwalten. 112, 1–9 (2012).

Artikel CAS PubMed Google Scholar

Miller, JD & Hutchins, M. Die Auswirkungen von Urbanisierung und Klimawandel auf städtische Überschwemmungen und städtische Wasserqualität: Eine Überprüfung der Beweise für das Vereinigte Königreich. J. Hydrol. Regionalgestüt. 12, 345–362 (2017).

Artikel Google Scholar

Miller, JD et al. Bewertung der Auswirkungen der Urbanisierung auf den Sturmabfluss in einem stadtnahen Einzugsgebiet anhand historischer Veränderungen der Versiegelungsdecke. J. Hydrol. 515, 59–70 (2014).

Artikel ADS Google Scholar

Shields, CA et al. Stromflussverteilung des Stickstoffexports aus nicht punktuellen Quellen aus Stadt-Land-Einzugsgebieten im Wassereinzugsgebiet der Chesapeake Bay. Wasserressource. Res. 44 (2008).

Huang, J., Yin, H., Chapra, SC & Zhou, Q. Modellierung der Depression von gelöstem Sauerstoff in einem städtischen Fluss in China. Wasser 9, 520 (2017).

Artikel CAS Google Scholar

Simmons, DL & Reynolds, RJ Auswirkungen der Urbanisierung auf den Grundfluss ausgewählter Bäche an der Südküste, Long Island, New York 1. JAWRA J. Am. Wasserressource. Assoc. 18, 797–805 (1982).

Artikel ADS Google Scholar

Johnson, AC et al. Der britische Fluss der Zukunft: Wie sich Klimawandel und menschliche Aktivitäten auf zwei gegensätzliche Flussökosysteme in England auswirken könnten. Wissenschaft. Gesamtumgebung. 407, 4787–4798 (2009).

Artikel ADS CAS PubMed Google Scholar

Lokhande, S. & Tare, V. Räumlich-zeitliche Trends in der Strömung und Wasserqualität: Reaktion des Flusses Yamuna auf die Urbanisierung. Umgebung. Überwachen. Bewerten. 193, 1–14 (2021).

Artikel CAS Google Scholar

Mallin, MA, Johnson, VL & Ensign, SH Vergleichende Auswirkungen des Regenwasserabflusses auf die Wasserqualität eines städtischen, eines vorstädtischen und eines ländlichen Baches. Umgebung. Überwachen. Bewerten. 159, 475–491 (2009).

Artikel CAS PubMed Google Scholar

Yang, Y.-Y. & Toor, GS Durch Regenwasserabfluss bedingter Phosphortransport in einem städtischen Einzugsgebiet: Auswirkungen auf den Schutz der Wasserqualität in städtischen Wassereinzugsgebieten. Wissenschaft. Rep. 8, 1–10 (2018).

Google Scholar

Gaafar, M., Mahmoud, SH, Gan, TY & Davies, EG Ein praktischer GIS-basierter Rahmen zur Gefahrenbewertung für die Wasserqualität in Regenwassersystemen. J. Sauber. Prod. 245, 118855 (2020).

Artikel CAS Google Scholar

Stenstrom, MK & Kayhanian, M. Charakterisierung des First-Flush-Phänomens (Tech. Rep, California Department of Transportation Division of Environmental Analysis, 2005).

Peter, KT et al. Mehr als ein First Flush: Sturmganglinien von Urban Creek zeigen breite Schadstoffverunreinigungen. Umgebung. Wissenschaft. Technol. 54, 6152–6165 (2020).

Artikel ADS CAS PubMed Google Scholar

Peters, PE & Zitomer, DH Aktuelle und zukünftige Ansätze für das Strömungsmanagement bei nassem Wetter: Ein Rückblick. Wasserumgebung. Res. 93, 1179–1193 (2021).

Artikel CAS PubMed Google Scholar

Lund, A. et al. Langfristige Auswirkungen der kombinierten Kanalüberlaufsanierung auf die Wasserqualität und die Populationsdynamik von Culex Quinquefasciatus, dem wichtigsten städtischen West-Nil-Virusüberträger in Atlanta, GA. Umgebung. Res. 129, 20–26 (2014).

Artikel CAS PubMed Google Scholar

Crocetti, P. et al. Einzugsgebietsweite validierte Bewertung von Mischwasserüberläufen (CSOs) in einem Mittelmeerküstengebiet und möglichen Desinfektionsmethoden zur Minderung mikrobieller Kontamination. Umgebung. Res.196 (2021).

Dittmer, U., Bachmann-Machnik, A. & Launay, MA Einfluss von Mischkanalisationssystemen auf die Qualität städtischer Bäche: Häufigkeit und Dauer erhöhter Mikroschadstoffkonzentrationen. Wasser12 (2020).

Conway, TM Undurchlässige Oberfläche als Indikator für pH-Wert und spezifischen Leitwert in der urbanisierten Küstenzone von New Jersey, USA. J. Umgebung. Verwalten. 85, 308–316 (2007).

Artikel CAS PubMed Google Scholar

Rose, S. Die Auswirkungen der Urbanisierung auf die Hydrochemie des Grundflusses im Chattahoochee River Basin (Georgia, USA). J. Hydrol. 341, 42–54 (2007).

Artikel ADS Google Scholar

Peters, NE Auswirkungen der Urbanisierung auf die Wasserqualität von Bächen in der Stadt Atlanta, Georgia, USA. Hydrol. Prozesse Int. J. 23, 2860–2878 (2009).

Artikel ADS CAS Google Scholar

Moore, J., Bird, DL, Dobbis, SK & Woodward, G. Nichtpunktuelle Quellenbeiträge führen zu erhöhten Konzentrationen von Hauptionen und gelöstem anorganischem Kohlenstoff in städtischen Wassereinzugsgebieten. Umgebung. Wissenschaft. Technol. Lette. 4, 198–204 (2017).

Artikel CAS Google Scholar

Cañedo-Argüelles, M. et al. Süßwasser vor Salzen bewahren. Wissenschaft 351, 914–916.

Artikel ADS PubMed Google Scholar

Billen, G., Garnier, J., Ficht, A. & Cun, C. Modellierung der Reaktion der Wasserqualität im Mündungsgebiet der Seine auf menschliche Aktivitäten in ihrem Wassereinzugsgebiet in den letzten 50 Jahren. Estuaries 24, 977–993 (2001).

Artikel CAS Google Scholar

Abbott, BW et al. Trends und Saisonalität von Flussnährstoffen in landwirtschaftlichen Einzugsgebieten: 18 Jahre wöchentliche Bürgerwissenschaft in Frankreich. Wissenschaft. Gesamtumgebung. 624, 845–858 (2018).

Artikel ADS CAS PubMed Google Scholar

Duan, W. et al. Identifizierung langfristiger Trends und Saisonalität in hochfrequenten Wasserqualitätsdaten aus dem Einzugsgebiet des Jangtsekiang, China. PLoS One 13, e0188889 (2018).

Artikel PubMed PubMed Central CAS Google Scholar

Arroita, M., Elosegi, A. & Hall, RO Jr. Zwanzig Jahre täglicher Stoffwechsel zeigen, dass sich die Flüsse nach der Abwasserreinigung erholen. Limnol. Ozeanogr. 64, S77–S92 (2019).

Artikel ADS CAS Google Scholar

Schmidt, L., Heße, F., Attinger, S. & Kumar, R. Herausforderungen bei der Anwendung maschineller Lernmodelle für hydrologische Schlussfolgerungen: Eine Fallstudie für Überschwemmungsereignisse in ganz Deutschland. Wasserressource. Res. 56, e2019WR025924 (2020).

Artikel ADS Google Scholar

Hammond, P., Suttie, M., Lewis, VT, Smith, AP & Singer, AC Erkennung von unbehandelten Abwassereinleitungen in Wasserläufe mittels maschinellem Lernen. NPJ Clean Water 4, 1–10 (2021).

CAS Google Scholar

Liu, L. et al. Auf dem Weg zu einer umfassenden Wasserqualitätskontrolle im Taihu-See: Korrelation von Chlorphyll a und Wasserqualitätsparametern mit einem verallgemeinerten Additivmodell. Wissenschaft. Gesamtumgebung. 705, 135993 (2020).

Artikel ADS CAS PubMed Google Scholar

Motevalli, A. et al. Inverse Methode unter Verwendung eines verstärkten Regressionsbaums und des k-nächsten Nachbarn zur Quantifizierung der Auswirkungen der Nitratverschmutzung aus Punkt- und Nichtpunktquellen im Grundwasser. J. Sauber. Prod. 228, 1248–1263 (2019).

Artikel CAS Google Scholar

Friedman, J., Hastie, T. & Tibshirani, R. The Elements of Statistical Learning, vol. 1 (Springer-Reihe in Statistics New York, 2001).

Shwartz-Ziv, R. & Armon, A. Tabellendaten: Deep Learning ist nicht alles, was Sie brauchen. Inf. Fusion 81, 84–90 (2022).

Artikel Google Scholar

Roscher, R., Bohn, B., Duarte, MF & Garcke, J. Erklärbares maschinelles Lernen für wissenschaftliche Erkenntnisse und Entdeckungen. IEEE Access 8, 42200–42216 (2020).

Artikel Google Scholar

Yang, Y. & Chui, TFM Modellierung und Interpretation hydrologischer Reaktionen nachhaltiger städtischer Entwässerungssysteme mit erklärbaren Methoden des maschinellen Lernens. Hydrol. Erdsystem. Wissenschaft. Diskussionen 1–41 (2020).

Jiang, S., Zheng, Y., Wang, C. & Babovic, V. Aufdeckung von Überschwemmungsmechanismen in den angrenzenden Vereinigten Staaten durch interpretatives Deep Learning in repräsentativen Einzugsgebieten. Wasserressource. Res. e2021WR030185 (2022).

Lundberg, SM & Lee, S.-I. Ein einheitlicher Ansatz zur Interpretation von Modellvorhersagen. In Advances in neuronal information processing systems, 4765–4774 (2017).

Lundberg, SM et al. Von lokalen Erklärungen zum globalen Verständnis mit erklärbarer KI für Bäume. Nat. Mach. Intel. 2, 2522–5839 (2020).

Artikel Google Scholar

Parkinson, A. WWF: The State of England's Chalk Streams (2014).

WRRL. „RICHTLINIE 2000/60/EG DES EUROPÄISCHEN PARLAMENTS UND DES RATES vom 23. Oktober 2000 zur Schaffung eines Rahmens für Maßnahmen der Gemeinschaft im Bereich der Wasserpolitik“ oder kurz die EU-Wasserrahmenrichtlinie. Amtsblatt der Europäischen Gemeinschaften L 327, 1–72 (2000).

Visser, A., Beevers, L. & Patidar, S. Die Auswirkungen des Klimawandels auf die hydroökologische Reaktion in Kreidebächen. Wasser 11, 596 (2019).

Artikel Google Scholar

Dąbrowska, J., Bawiec, A., Pawęska, K., Kamińska, J. & Stodolak, R. Bewertung der Auswirkungen der Abwasserumleitung auf die Wasserqualität. Polnisch J. Environ. Stud.26 (2017).

Issa, HM & Alshatteri, AH Auswirkungen der Abwassereinleitung aus der Stadt Kalar auf die Wasserqualität des Flusses Diyala-Sirwan, Irak: Bewertung der Umweltverschmutzung, Gesundheitsrisiken einer Schwermetallkontamination. Appl. Wasserwissenschaft. 11, 1–13 (2021).

Artikel CAS Google Scholar

Jordan, RC, Gray, SA, Howe, DV, Brooks, WR & Ehrenfeld, JG Wissensgewinn und Verhaltensänderung in Citizen-Science-Programmen. Konserv. Biol. 25, 1148–1154 (2011).

Artikel PubMed Google Scholar

Bonney, R., Phillips, TB, Ballard, HL & Enck, JW Kann Citizen Science das öffentliche Verständnis von Wissenschaft verbessern? Öffentliches Verständnis Wissenschaft. 25, 2–16 (2016).

Artikel PubMed Google Scholar

Pike, A. et al. Vorhersage der Flusstemperaturen in Echtzeit mithilfe eines stochastischen Dynamikansatzes. Water Resources Research 49, 5168–5182 (2013).

NERC-Zentrum für Ökologie und Hydrologie. Nationales Flussflussarchiv 2020: Nationales Flussflussarchiv. http://nrfa.ceh.ac.uk (2020). (Zugriff am 27. Oktober 2020).

Schäfer, B., Heppell, CM, Rhys, H. & Beck, C. Schwankungen der Zeitreihen der Wasserqualität in Flüssen folgen Superstatistiken. iScience24 (2021). https://doi.org/10.1016/j.isci.2021.102881https://www.cell.com/iscience/pdf/S2589-0042(21)00849-X.pdf.

Kreinovich, V., Nguyen, HT & Ouncharoen, R. Wie man die Prognosequalität schätzt: Eine systemmotivierte Ableitung des symmetrischen mittleren absoluten prozentualen Fehlers (Smape) und anderer ähnlicher Merkmale (2014).

Guo, D. et al. Schlüsselfaktoren, die die zeitliche Variabilität der Bachwasserqualität beeinflussen. Wasserressource. Res. 55, 112–129 (2019).

Keller, VDJ, Williams, RJ, Lofthouse, C. & Johnson, AC Weltweite Schätzung der Flusskonzentrationen von Chemikalien aus Kläranlagen unter Verwendung von Verdünnungsfaktoren. Umgebung. Toxicol. Chem. 33, 447–452 (2014).

ECHA. Leitlinien zu Informationsanforderungen und Stoffsicherheitsbeurteilung: Kapitel r.16: Umweltexpositionsbeurteilung. (2016).

Link, M., von der Ohe, PC, Voss, K. & Schafer, RB Vergleich der Verdünnungsfaktoren für Abwässer deutscher Kläranlagen in Vorflutern mit dem festen Verdünnungsfaktor aus der chemischen Risikobewertung. Wissenschaft. Gesamtumgebung. 598, 805–813 (2017).

Artikel ADS CAS PubMed Google Scholar

Zhu, SL & Piotrowski, AP Vorhersage der Fluss-/Bachwassertemperatur mithilfe von Modellen der künstlichen Intelligenz: eine systematische Überprüfung. Acta Geophysica 68, 1433–1442 (2020).

Artikel ADS Google Scholar

Hebert, C., Caissie, D., Satish, MG & El-Jabi, N. Modellierung stündlicher Flusswassertemperaturen mithilfe künstlicher neuronaler Netze. Wasserqualität Res. J. Canada 49, 144–162 (2014).

Basic, T., Britton, JR, Cove, RJ, Ibbotson, AT & Gregory, SD Die Rolle von Abfluss und Temperatur bei der Rekrutierung eines Kaltwasserfisches, der Europäischen Äsche Thymallus thymallus, nahe seiner südlichen Verbreitungsgrenze. Ökologisch. Süßwasserfische 27, 940–951 (2018).

Wilson, M. & Worrall, F. Das Wärmerückgewinnungspotenzial von „Abwasser“: Eine nationale Analyse der Abwasserabflusstemperaturen. Umgebung. Wissenschaft. Wasserres. Technol. 7, 1760–1777. https://doi.org/10.1039/D1EW00411E (2021).

Artikel CAS Google Scholar

Molnar, C. Interpretierbares maschinelles Lernen (Lulu. com, 2020).

Wang, C., Wu, Q., Weimer, M. & Zhu, E. Flaml: Eine schnelle und leichte automatische Bibliothek. Proz. Mach. Lernen. Syst.3 (2021).

Slater, LJ et al. Verwendung von R in der Hydrologie: Ein Überblick über aktuelle Entwicklungen und zukünftige Richtungen. Hydrol. Erdsystem. Wissenschaft. 23, 2939–2963 (2019).

Artikel ADS Google Scholar

Kuhn, M. Erstellen von Vorhersagemodellen in R mithilfe des Caret-Pakets. J. Stat. Softw. 28, 1–26 (2008).

Artikel Google Scholar

McGrane, SJ et al. Während eines stürmischen Winters in einem kleinen britischen Einzugsgebiet folgen die Reaktionen auf Hydrologie und Wasserqualität einem klaren Land-Stadt-Gefälle. J. Hydrol.545, 463–477 (2017).

Artikel ADS CAS Google Scholar

Chan, KS et al. Kostengünstige elektronische Sensoren für die Umweltforschung: Fallstricke und Chancen. Fortschrittsphysik. Geographie-Erdumgebung. 45, 305–338 (2021).

Munro, K. et al. Bewertung der Auswirkungen von Mischwasserüberläufen auf das kurzfristige Vorkommen von Arzneimitteln und illegalen Drogen in einem stark urbanisierten Gezeitenflusseinzugsgebiet (London, Vereinigtes Königreich). Wissenschaft. Gesamtumgebung. 657, 1099–1111 (2019).

Artikel ADS CAS PubMed Google Scholar

Bernal, S. et al. Die Abwassereinträge von Kläranlagen führen bei geringen Abflüssen in einem intermittierenden Bach zu großen biogeochemischen Veränderungen, aber zu kleinen Veränderungen im Tag-Nacht-Muster. Wissenschaft. Gesamtumwelt.714, 136733 (2020). https://www.ncbi.nlm.nih.gov/pubmed/31982751.

Marti, E., Aumatell, J., Gode, L., Poch, M. & Sabater, F. Nährstoffrückhalteeffizienz in Bächen, die Einträge aus Kläranlagen erhalten. J. Umgebung. Qualität 33, 285–293 (2004).

Arnon, S., Avni, N. & Gafny, S. Nährstoffaufnahme und Struktur der Makrowirbellosengemeinschaft in einem stark regulierten Mittelmeerstrom, der aufbereitetes Abwasser erhält. Aquatische Wissenschaft. 77, 623–637 (2015).

Artikel CAS Google Scholar

OpenStreetMap-Mitwirkende. OpenStreetMaps. https://www.openstreetmap.org/copyright (2022).

Waskom, ML Seaborn: Statistische Datenvisualisierung. J. Open Source Softw. 6, 3021 (2021).

Artikel ADS Google Scholar

Servén, D. & Brummitt, C. Pygam: verallgemeinerte additive Modelle in Python. Zenodo 10 (2018).

Ke, G. et al. Lightgbm: Ein hocheffizienter Entscheidungsbaum zur Gradientenverstärkung. Adv. Neuronal. Inf. Verfahren. Syst. 30, 3146–3154 (2017).

Google Scholar

Referenzen herunterladen

Die Autoren möchten allen am ChessWatch-Projekt beteiligten Citizen Scientists danken, die anonym bleiben möchten, sowie den Landbesitzern, die die Sensoren untergebracht haben. Ohne ihre Hilfe wäre dieses Projekt nicht möglich gewesen. Wir möchten uns auch bei Dr. Tom Kelly für seine technische Unterstützung vor Ort bedanken. Dieses Projekt wurde vom Forschungs- und Innovationsprogramm Horizon 2020 der Europäischen Union im Rahmen der Marie-Sklodowska-Curie-Zuschussvereinbarung Nr. 840825 und von der Helmholtz-Gemeinschaft unter der Zuschuss-Nr. VH-NG-1727, vom Centre for Public Engagement der Queen Mary University of London, von einem QMUL Research England Policy Impact Grant 2022 und von Thames Water.

Open-Access-Förderung ermöglicht und organisiert durch Projekt DEAL.

Queen Mary University of London, School of Mathematical Sciences, Mile End Road, London, E1 4NS, Großbritannien

Benjamin Schäfer & Christian Beck

Fakultät für Naturwissenschaften und Technik, Norwegische Universität für Biowissenschaften, 1432, Ås, Norwegen

Benjamin Schäfer

Institut für Automatisierung und Angewandte Informatik, Karlsruher Institut für Technologie, 76344, Eggenstein-Leopoldshafen, Deutschland

Benjamin Schäfer

Das Alan Turing Institute, 96 Euston Road, London, NW1 2DB, Großbritannien

Christian Beck

Das Francis Crick Institute, Flow Cytometry Science Technology Platform, London, Großbritannien

Hefin Rhys

Thames Water, Clearwater Court, Vastern Road, Reading, RG1 8DB, Großbritannien

Helena Soteriou

River Chess Association, Croxley Green, Großbritannien

Paul Jennings

Chilterns Chalk Streams Project, Chilterns Conservation Board, Chinnor, Oxfordshire, OX39 4HA, Großbritannien

Allen Beechey

Queen Mary University of London, School of Geography, Mile End Road, London, E1 4NS, Großbritannien

Catherine M. Heppell

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

CMH, PJ und AB konzipierten das ChessWatch-Projekt, CMH und PJ sammelten die Daten, HR erstellte ein Online-Dashboard zur Wasserqualität für die Datenabfrage, BS führte die Datenanalyse durch, CB und alle anderen Autoren interpretierten die Ergebnisse, verfassten und überprüften das Manuskript .

Korrespondenz mit Benjamin Schäfer.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Schäfer, B., Beck, C., Rhys, H. et al. Ansatz des maschinellen Lernens zur Erklärung der Wasserqualitätsdynamik in einem urbanisierten Fluss. Sci Rep 12, 12346 (2022). https://doi.org/10.1038/s41598-022-16342-9

Zitat herunterladen

Eingegangen: 17. März 2022

Angenommen: 08. Juli 2022

Veröffentlicht: 19. Juli 2022

DOI: https://doi.org/10.1038/s41598-022-16342-9

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.