Exploiting Domain-specific Knowledge for Classifier Learning : AU-based Facial Expression Analysis and Emotion Recognition

Seuß, DominikDominikSeuß2021-06-172021-06-172021https://fis.uni-bamberg.de/handle/uniba/49932Kumulative Dissertation, Otto-Friedrich-Universität Bamberg, 2021Gesichtsausdrücke sind einer der wichtigsten Kanäle menschlicher nonverbaler Kommunikation. Sie lassen Rückschlüsse auf unseren mentalen Zustand zu und gelten als universell verständlich über Ethnien hinweg. Das Facial Action Coding System (FACS) wird in der Psychologie verwendet, um diese Mimiken beschreiben zu können. Dabei werden den verschiedenen möglichen Gesichtsmuskelbewegungen Bezeichner zugeordnet, sogenannte Action Units (AUs). Mit Hilfe der AUs wird die Analyse der Semantik von Gesichtsausdrücken durchgeführt. In dieser Dissertation werden mehrere Herausforderungen, insbesondere der Mangel an Trainingsdaten, die Nachvollziehbarkeit von Systementscheidungen für den Menschen in der Emotions- und Schmerzforschung und die Einbeziehung von domänespezifischen Wissen im Kontext von Systemen zur automatischen Erkennung von Gesichtsausdrücken adressiert. Für die Entwicklung von Systemen zur automatischen Mimikerkennung werden meist Trainingsdaten benötigt. Es gibt bereits öffentliche Datenbanken zum Training von solchen Systemen, die aber alle Defizite aufweisen. Einer der wichtigsten Faktoren ist die Qualität der Annotationen, da diese maßgebend für die spätere Leistung des Systems sind. Für eine robuste Erkennung von Gesichtsausdrücken, auch bei leicht rotierten Gesichtern, müssen Personen aus verschiedenen Winkeln aufgenommen werden. Diese Robustheit ist wichtig, da in vielen Domänen nicht garantiert werden kann, dass Menschen immer frontal in die Kamera blicken. Das Bildmaterial muss hochwertig sein, damit auch subtile Änderungen im Gesicht erkennbar sind. Im Rahmen dieser Doktorarbeit wurde eine neue Datenbank, das sogenannte Actor Study Dataset, kuratiert, evaluiert und veröffentlicht. Die Datenbank beinhaltet neben qualitativ hochwertigem Bildmaterial Annotationen der dargestellten Gesichtsausdrücke, von Appraisal-Dimensionen und Emotionen bis hin zu AUs. Hierfür wurden 21 Schauspieler aus fünf Perspektiven mit synchronisierten Industrie und high-speed Kameras gefilmt und das daraus gewonnene Filmmaterial durch FACS-Experten annotiert. Zwei aktuelle Systeme zur AU-Detektion wurden zur Erstellung von Benchmark Ergebnissen für die verschiedenen Kamerawinkel genutzt. Sowohl die Aufnahmen als auch die Annotationen wurden kuratiert, aufbereitet und für die nicht-kommerzielle Nutzung zur Verfügung gestellt. Viele Experten im Bereich der künstlichen Intelligenz (KI), respektive des maschinellen Lernens und der Computer Vision haben Systeme entwickelt, die automatisiert Mimiken erkennen können. Es bestehen aber immer noch viele Herausforderungen: Wenige Ansätze nutzen AUs als Möglichkeit zur Nachvollziehbarkeit von Systementscheidungen und verwenden stattdessen rein datengetriebene Ansätze, deren Validierung aus Sicht von Domäneexperten oftmals schwierig ist. In dieser Arbeit werden zwei zweistufige Ansätze zur Klassifikation von Gesichtsausdrücken auf Basis von AUs vorgestellt. In die Entwicklung beider Ansätze ist Expertenwissen aus den Domänen der Emotionsforschung und der Schmerzforschung eingeflossen, um die Erkennungsleistung zu verbessern und die Komplexität zu verringern. Ein zweistufiges Verfahren ermöglicht Nachvollziehbarkeit und Validierung der Entscheidungen und Ergebnisse beider Systeme und liefert einen wichtigen Beitrag zum Forschungsfeld Erklärbarkeit von KI Entscheidungen. Es gibt wenige Ansätze, die Gesichtsausdrücke in sogenannte Appraisal-Dimensionen einordnen. Diese Dimensionen sind kontinuierlich und wichtig für die Klassifikation von subtilen Gesichtsausdrücken und für Rückschlüsse auf mentale Zustände, die keiner Basisemotionen zugeordnet werden können. Bestehende Ansätze zur Klassifikation in die Appraisal-Dimensionen verwenden höchstens zwei Dimensionen und bilden daher nur ein relativ kleines Spektrum ab. Zur Klassifikation von Gesichtsausdrücken in die drei Appraisal-Dimensionen Valence, Control und Novelty wird in dieser Doktorarbeit ein zweistufiger Ansatz vorgestellt. In diesem Rahmen wird als erster Schritt ein eigens entwickelter Ansatz zur automatischen Detektion von AU-Intensitäten eingeführt. Dieser berücksichtigt die zeitlichen Zusammenhänge von AUs und kann einfach um neue Informationsquellen erweitert werden, ohne ein Neutraining des Systems durchführen zu müssen und unterscheidet sich damit maßgeblich von bereits bestehenden Systemen. Durch domänespezifisches Wissen aus der Emotionsforschung konnte die Entwicklung auf die Erkennung von 22 relevante AUs konzentriert werden. Aufbauend auf den erkannten AU-Intensitäten, wird im zweiten Schritt die Einordnung in die Appraisal Dimensionen mit Hilfe einer Kleinst-Quadrate-Regression vorgenommen. Der zweistufige Ansatz ermöglicht eine Nachvollziehbarkeit der Systementscheidung für den Menschen, da die Gewichtungen der Regression direkte Rückschlüsse auf den Beitrag jeder einzelnen AU und damit der verwendeten Gesichtsmuskeln erlauben Dies ermöglicht eine zusätzliche Validierung des Systems durch Experten. Vorhandene Ansätze zur Schmerzerkennung versuchen meist Schmerz direkt aus Bildern zu lernen oder verwenden oftmals statistische Merkmale verschiedener wichtiger Punkte im Gesicht. Diese Systeme erreichen oft eine gute Klassifikationsleistung, lassen aber meist keine Rückschlüsse auf die Entscheidungsfindung zu. Der zweite vorgestellte Ansatz befasst sich mit der Erkennung von Schmerz auf Basis eines Regelwerks. Dieses Regelwerk, eine sogenannte Grammatik, wird aus AU-Sequenzen eines Trainingsdatensatzes inferiert. Mit Hilfe der extrahierten Regeln können neue Sequenzen in "Schmerz" und "nicht Schmerz" klassifiziert werden. Wenn eine neue Sequenz durch Ableitung verschiedener Regeln generierbar ist, handelt es sich um eine Schmerzsequenz. Bei der Entwicklung des Ansatzes wurde domänespezifisches Wissen aus der Schmerzforschung verwendet, um eine Optimierung des Regelextraktionsverfahrens zu ermöglichen. Die Vorteile des gewählten Ansatzes sind die Nachvollziehbarkeit der Systementscheidung für den Menschen durch die Nachverfolgung der verwendeten Regeln der Grammatik und der Möglichkeit der Validierung durch Experten. Den Abschluss dieser Arbeit bildet ein Aufruf zur verstärkten gemeinsamen Forschung an Ansätzen zur Nachvollziehbarkeit von KI-Systemen durch Kombination der Forschungszweige "Erklärbare KI" und "Quantifizierung von Unsicherheit in KI Entscheidungen"engemotion recognition, pain detection, machine learning, explainable AI004Exploiting Domain-specific Knowledge for Classifier Learning : AU-based Facial Expression Analysis and Emotion Recognitiondoctoralthesisurn:nbn:de:bvb:473-irb-499326