Eine Technologie – die Emotionen und Gesundheitsinformationen anhand der Stimme erkennen kann
10.05.2023 | audEERING GmbH| Interview
Welche Vorteile bietet diese Technologie und wo liegen die Herausforderungen? Lesen Sie das vollständige Interview mit Dagmar M. Schuller, Geschäftsführerin und Mitbegründerin der audEERING GmbH.
1. Woran arbeiten Sie im Moment?
Im Wesentlichen geht es darum, anhand der Stimme Merkmale hinsichtlich des menschlichen Zustandes und der Entwicklung, die sich aus der Sprachproduktion ergeben, mit Hilfe von KITechnologien zuverlässig und automatisiert zu erkennen und zu verstehen. Hierbei stehen die Emotionserkennung und Stimmbiomarker in Verbindung mit Mental Disorder wie zum Beispiel Burnout, Depression, Stress, aber auch neurodegenerative Krankheiten im Fokus unserer Arbeit. Ziel ist es, die Technologie skalierbar über weit verbreitete Endgeräte wie Smartphones oder Kopfhörer und über Apps oder Telemedizinplattformen zugänglich zu machen, wobei wir die Module als Lieferant den Anbietern zur Verfügung stellen. Einige unserer Forschungsarbeiten sind von der Europäischen Union im Rahmen von H2020 sowie durch das BMBF und BMWK gefördert. Die Stimme bzw. die Stimmproduktion eröffnet ganz vielfältige Analysemöglichkeiten, aus denen man viel ableiten kann, was unmittelbar mit verschiedenen Krankheiten zusammenhängt.

Insgesamt gibt es drei Bereiche, die hier analysiert werden: Der motorische und physiologische Bereich, der kognitive Bereich und der psychische Bereich.
Bei bestimmten Einschränkungen, wie beispielsweise bei neurodegenerativen Krankheiten, aber auch zum Beispiel bei Infekten mit Fieber, hat man damit die Möglichkeit, aufgrund unterschiedlicher Marker in der Stimme Merkmale der Krankheit zu erkennen und automatisiert zu analysieren. Beispielsweise konnten wir bei unseren Analysen im Zusammenhang mit der Covid19- Erkrankung feststellen, dass das Sprech-Pause-Verhältnis bei stark symptomatischen Patient:innen nahezu eine 1:1 Relation aufzeigt, hingegen bei schwach symptomatischen Patient:innen noch immer 1:5, während gesunden Personen im Mittel eine 1:10 oder 1:15 Relation aufweisen. Im Verlauf der Erkrankung konnte man sehr gut erkennen, dass sich die Relation deutlich verändert. Aber dies ist nur einer von mehreren Markern, die wir in diesem Zusammenhang identifizieren konnten.
Auch bei neurodegnerativen Einschränkungen, wie beispielsweise bei Demenzerkrankungen oder bei anderen neurokognitiven Krankheiten, die sich sehr stark auch auf den muskulären und damit motorischen Bereich auswirken, spielt die Stimme eine wichtige Rolle. Wir können damit einhergehende Dysfunktionalitäten und Anomalien erkennen und analysieren, was neue Möglichkeiten im Zusammenhang mit Therapien eröffnet. Bei Nervenkrankheiten, wie beispielsweise Multiple Sklerose äußert sich das in diesem Zusammenspiel ebenfalls zum Teil in der Sprachproduktion, wodurch sich auch hier die Möglichkeit ergibt, unsere Technologie einzusetzen. Aufgrund der einfachen Skalierbarkeit ist die Technologie auch bei größeren Studien und in weiteren unterschiedlichen medizinischen Bereichen effizient einsetzbar, wie beispielsweise beim Screening oder Monitoring von Patienten.
Der Emotionsmarker, also der psychische Anteil, wird stets mitgemessen. Das ermöglicht, weitere Informationen zum Zustand des Patienten separat oder im Zusammenhang mit seiner Krankheit zu erhalten und möglichst frühzeitig gegenzusteuern, falls dieser sich nicht wohl fühlt.
Hinter der KI-basierten Sprachanalyse – wie bei allen KI-Systemen – steckt immer eine Wahrscheinlichkeitsrechnung, mit der ein Modell entsprechende Marker erkennt oder diese überhaupt erst identifiziert. Bei manchen Krankheiten, die sehr stark in den drei vorgenannten Bereichen (Sprachmotorik, Kognition, Psyche) vorherrschen, ist die Anwendbarkeit sinnvoller als bei manch anderen, die mit der Sprachproduktion verhältnismäßig wenig zu tun haben. Schmerzen kann man aus der Stimme heraushören, ein Knochenbruch ist aus der Stimme hingegen nicht erkennbar.

2. Wo sehen Sie die Vorteile für Patientinnen und Patienten und Ärztinnen und Ärzte?
Durch den Einsatz dieser Technologie kann insbesondere die nicht in der Praxis stattfindende Kommunikation zwischen Patient:innen und Arzt:innen verbessert werden, Kontext und Monitoring sind effizient abbildbar und Arzt:innen können auf individueller Ebene auch longitudinale Informationen ihrer Patient:innen bekommen. Beispiel Datenerhebung: Sehr häufig bekommt man als Patient:in einen Fragebogen, allerdings hat der Arzt eigentlich keine Möglichkeit festzustellen – außer, die Person sitzt im 424 Wartzezimmer – wann und unter welchen Bedingungen die Informationen ausgefüllt werden, ob sich daran kurz. bzw. mittelfristig etwas ändert oder der Zustand länger anhält. Sind Patient:innen wirklich schläfrig, weil es mit der Krankheit zusammenhängt, oder haben sie lediglich schlecht geschlafen bzw. eine stressige Woche hinter sich? Gerade solche Informationen sind aber für ein Gesamtbild wesentlich. In einer 1-Jahres-Studie beispielsweise konnte man sehr gut nachweisen, dass mit Hilfe durchgeführter kurzer Audiosprachtests s bzw. einem „Audiotagebuch“ eine sehr gute Relation zwischen dem unspezifischen Symptom Fatigue und der in der Studie im Fokus stehenden Krankheit festgestellt werden konnte. Für Ärzt:innen entsteht hierdurch eine deutlich bessere Informationslage hinsichtlich Diagnose und Therapie.
Diese nicht-invasive KIbasierte Technologie ist optimal, weil sie kostengünstig und über weit verbreitete Geräte abrufbar ist, die ein Mikrofon als Sensor besitzen (Smartphone, Laptop, Tablet und Wearables). Es ist also sehr wenig Infrastruktur nötig, wodurch es skalierbar und auch zeit- und ortsunabhängig eingesetzt werden kann.
Wir sehen auch sehr vielversprechende Möglichkeiten, dass man diese Technologie neben Monitoring und Therapie vor allem im Bereich Screening und Präventionsarbeit nutzt, wie beispielsweise auch zur verbesserten Self- Awareness. Das heißt, dass man selbst früher erkennen kann, ob es bestimmte Defekte, Anomalien oder Dysfunktionalitäten gibt, aber auch präventive Maßnahmen und deren Auswirkungen ins Visier nimmt und deren Effektivität misst. Für Ärzt:innen liegt der Vorteil auf der Hand: Sie haben ein unterstützendes Tool, welches es ermöglicht, die Anamnese zu bewerten und eine Diagnose zu stellen. Zudem können sie Verläufe von Patient:innen erkennen, die Aufschluss über Entwicklung und Therapie geben.

Anschließend folgen das Monitoring und die Individualisierung der Therapie: Wie wirken sich Interventionen auf Patient:innenen aus? Wie wirken sich Medikamente auf Patient:innen aus? Wie ist der psychische Zustand nach einer Diagnose oder während der Therapie? Können Patient:innen selbst noch tätig werden und welche weiteren Unterstützungsmöglichkeiten gibt es? Im Bereich Selfmonitoring liefert unsere Technologie kontinuierlich Zustandsinformationen, die leicht abzurufen sind. Und das frühzeitig, was sowohl Ärzt:innen als auch dem Patient:innen zu Gute kommt.
3. Wo liegen Schwierigkeiten & Herausforderungen?
Ein Problem ist die sehr starke Überregulierung, die in Europa im KI-Bereich stattfindet. Aufgrund der datenschutzrechtlichen Regularien ist es hierzulande gerade für klein- und mittelständische Betriebe oft nicht einfach und sehr kostenintensiv, an die für die KI-Modelle notwendigen Daten zu kommen. Der medizinische Bereich ist bereits stringent reguliert, nun kommt es in diesem Zusammenspiel mit KI zu weiteren Komplikationen. In dem aktuellen Entwurf zur Festlegung harmonisierter Vorschriften für Künstliche Intelligenz bringt die EU-Kommission ein weiteres Technologieregulierungsvorhaben auf den Weg, das unabhängig vom tatsächlichen Nutzungsprozess pauschal nach Klassen restriktiv vorgeht und hohe Anforderungen mit sich bringt, die in der Praxis sehr aufwendig und schwer umsetzbar 434 sind. Dies führt dazu, dass es schwieriger für Unternehmen wird, ein wie in den USA oder Asien vorherrschendes Level zu erreichen, insbesondere im Bereich großer Modelle. Regulierung muss sein, aber mit Maß und Ziel und nicht nach dem Gießkannenprinzip. Es braucht praktische Erfahrung und sollte mit denjenigen abgestimmt werden, diejeden Tag mit KI zu tun haben. Man darf auch den Wettbewerb nicht außer Acht lassen – den „Brüssel-Effekt“ kann man trotz eines Herbeiwünschens ähnlich wie beim Datenschutz zumindest bisher nicht in den USA oder Asien signifikant erkennen und die beiden treiben gerade die Entwicklung großer Modelle voran. Wichtig wäre es, eine Prozessstruktur anstatt einer Pyramidenstruktur im Blick zu behalten und vor allem die pragmatische Machbarkeit nicht aus den Augen zu verlieren. Beispielsweise Daten „repräsentativ, vollständig und fehlerfrei“ zur Verfügung zu stellen, ist natürlich äußerst wünschenswert, hat aber zumeist mit der Realität wenig zu tun. Betrachten Sie Chat-GPT – die Anforderungen werden nicht erfüllt, aber die Daten, auf denen es trainiert wurde, bilden nun einmal die Realtität ab. Und manchmal wird eben das Wunschdenken von der Realität eingeholt. Ein praktisches Beispiel wäre auch die Hautkrebsvorsorge. Verschiedene Apps können maligne Melanome erkennen. Die KI basiert auf Algorithmen, die schon sehr viele maligne Melanome gesehen hat. Ein hochsensibler Bereich mit wahnsinnig vielen Anforderungen, weshalb nicht die KI entscheidet und schneidet, sondern Ärzt:innen. Deshalb muss ein prozessreguliertes Vorgehen gewährleistet sein. Regulatorisch wird viel zu oft an die Risiken anstatt daraus resultierende Chancen gedacht.
Foto: Dagmar Schuller, Fotograf Martin Nink
Technologiebilder: audEERING GmbH