Jan 28, 2024
Einsatz von maschinellem Lernen zur Verbesserung der Toxizitätsbewertung von Chemikalien
Forscher der Universität Amsterdam haben zusammen mit Kollegen der
Forscher der Universität Amsterdam haben zusammen mit Kollegen der University of Queensland und dem norwegischen Institut für Wasserforschung eine Strategie zur Bewertung der Toxizität von Chemikalien mithilfe maschinellen Lernens entwickelt.Ihren Ansatz stellen sie in einem Artikel vor in Umweltwissenschaften und -technologie für die Sonderausgabe „Data Science for Advancing Environmental Science, Engineering, and Technology“. Die in dieser Studie entwickelten Modelle können im Vergleich zu herkömmlichen In-silico-Bewertungen, die auf der Modellierung quantitativer Struktur-Aktivitätsbeziehungen (QSAR) basieren, zu erheblichen Verbesserungen führen.
Den Forschern zufolge kann der Einsatz von maschinellem Lernen die Gefahrenbewertung von Molekülen erheblich verbessern, sowohl bei der Safe-by-Design-Entwicklung neuer Chemikalien als auch bei der Bewertung bestehender Chemikalien. Die Bedeutung des Letzteren wird durch die Tatsache veranschaulicht, dass europäische und US-amerikanische Chemiebehörden etwa 800.000 Chemikalien aufgelistet haben, die im Laufe der Jahre entwickelt wurden, über deren Verbleib oder Toxizität in der Umwelt jedoch kaum oder gar kein Wissen besteht.
Da eine experimentelle Bewertung des Verbleibs und der Toxizität von Chemikalien viel Zeit, Aufwand und Ressourcen erfordert, werden bereits Modellierungsansätze zur Vorhersage von Gefahrenindikatoren verwendet. Insbesondere die Modellierung der quantitativen Struktur-Aktivitäts-Beziehung (QSAR) wird häufig angewendet, um molekulare Merkmale wie die Atomanordnung und die 3D-Struktur mit physikalisch-chemischen Eigenschaften und biologischer Aktivität in Beziehung zu setzen. Basierend auf den Modellierungsergebnissen (oder gemessenen Daten, sofern verfügbar) klassifizieren Experten ein Molekül in Kategorien, wie sie beispielsweise im Global Harmonisierten System zur Klassifizierung und Kennzeichnung von Chemikalien (GHS) definiert sind. Für bestimmte Kategorien werden die Moleküle dann einer intensiveren Forschung, einer aktiveren Überwachung und schließlich einer Gesetzgebung unterzogen.
Dieses Verfahren weist jedoch inhärente Nachteile auf, die größtenteils auf die Einschränkungen der QSAR-Modelle zurückzuführen sind. Sie basieren oft auf sehr homogenen Trainingssätzen und gehen für Extrapolationen von einer linearen Struktur-Aktivitäts-Beziehung aus. Infolgedessen werden viele Chemikalien durch bestehende QSAR-Modelle nicht gut repräsentiert und ihre Verwendung kann möglicherweise zu erheblichen Vorhersagefehlern und einer Fehlklassifizierung von Chemikalien führen.
In dem in Environmental Science & Technology veröffentlichten Artikel schlagen Dr. Saer Samanipour und Co-Autoren eine alternative Bewertungsstrategie vor, die den Schritt der QSAR-Vorhersage vollständig überspringt. Samanipour, ein Umweltanalytiker am Van 't Hoff-Institut für Molekularwissenschaften der Universität Amsterdam, tat sich mit Dr. Antonia Praetorius, einer Umweltchemikerin am Institut für Biodiversität und Ökosystemdynamik derselben Universität, zusammen. Gemeinsam mit Kollegen der University of Queensland und des Norwegischen Instituts für Wasserforschung entwickelten sie eine auf maschinellem Lernen basierende Strategie zur direkten Klassifizierung der akuten aquatischen Toxizität von Chemikalien anhand molekularer Deskriptoren.
Das Modell wurde anhand von 907 experimentell gewonnenen Daten zur akuten Fischtoxizität (96-Stunden-LC50-Werte) entwickelt und getestet. Das neue Modell überspringt die explizite Vorhersage eines Toxizitätswerts (96h LC50) für jede Chemikalie, sondern klassifiziert jede Chemikalie direkt in eine Reihe vordefinierter Toxizitätskategorien. Diese Kategorien können beispielsweise durch spezifische Vorschriften oder Standardisierungssysteme definiert werden, wie im Artikel mit den GHS-Kategorien für akute Gewässergefährdung gezeigt. Das Modell erklärte rund 90 Prozent der Varianz bei den im Trainingssatz verwendeten Daten und rund 80 Prozent bei den Testsatzdaten.
Diese direkte Klassifizierungsstrategie führte im Vergleich zu einer auf einem QSAR-Regressionsmodell basierenden Strategie zu einer Verfünffachung der falschen Kategorisierung. Anschließend erweiterten die Forscher ihre Strategie, um die Toxizitätskategorien einer großen Menge von 32.000 Chemikalien vorherzusagen.
Sie zeigen, dass ihr direkter Klassifizierungsansatz zu Vorhersagen mit höherer Genauigkeit führt, da experimentelle Datensätze aus verschiedenen Quellen und für verschiedene chemische Familien gruppiert werden können, um größere Trainingssätze zu generieren. Es kann an verschiedene vordefinierte Kategorien angepasst werden, wie sie in verschiedenen internationalen Vorschriften und Klassifizierungs- oder Kennzeichnungssystemen vorgeschrieben sind. Zukünftig kann der direkte Klassifizierungsansatz auch auf andere Gefahrenkategorien (z. B. chronische Toxizität) sowie auf den Verbleib in der Umwelt (z. B. Mobilität oder Persistenz) ausgeweitet werden und weist großes Potenzial für die Verbesserung von In-silico-Tools für chemische Gefahren und Risiken auf Bewertung.
- Diese Pressemitteilung wurde ursprünglich auf der Website der Universität Amsterdam veröffentlicht
Sie stellen ihren Ansatz in einem Artikel vor: Überspringen der QSAR-Vorhersage: Vorhersagen mit höherer Genauigkeit