Die gesichtsbasierte Emotionserkennung geht in drei Schritten vor: Zunächst erfolgt die Gesichtserkennung, dann die Merkmalsextraktion und danach die Klassifikation der Emotion. Bei der Merkmalsextraktion können etwa die geometrischen Merkmale wie die Abstände zwischen wichtigen Gesichtspunkten oder die Geschwindigkeitsvektoren dieser Punkte verwendet werden, wenn sich der Gesichtsausdruck verändert. Ein anderes Verfahren nutzt Änderungen der Bildtextur, die sich aus der Verformung des neutralen Gesichtsausdrucks ergeben (beispielsweise Ausbuchtungen und Falten im Gesicht).
Doch wie zuverlässig sind künstliche Systeme bei der gesichtsbasierten Emotionserkennung? Ekman vertritt die Auffassung, dass trainierte Menschen diese Aufgabe besser bewältigen als Algorithmen. Zur Unterstützung könne jedoch auf die automatisierte gesichtsbasierte Emotionserkennung durch künstliche Systeme zurückgegriffen werden. Einige Forscherteams behaupten jedoch, bereits Systeme entwickelt zu haben, die Menschen in der Erkennung von Mikroausdrücken überlegen seien.10 Allerdings hängt die Zuverlässigkeit künstlicher Systeme bei der gesichtsbasierten Emotionserkennung stark davon ab, dass Laborbedingungen herrschen: Die Bilder müssen frontal aufgenommen und sehr scharf sein und dürfen keine verdeckten Gesichtsteile enthalten. Unter Bedingungen des echten Lebens schneiden künstliche Systeme entsprechend schlechter ab.
Die automatisierte gesichtsbasierte Emotionserkennung ist jedoch noch aus anderen Gründen umstritten. Ein Kritikpunkt lautet, dass sie den Kontext vollkommen ausblendet. Es ist fraglich, ob Gesichtsausdrücke notwendig oder hinreichend sind, um Emotionen zu erkennen. Das lässt sich anhand des Kuleshov-Effekts veranschaulichen: Lev Kuleshov war ein sowjetischer Filmemacher, der bereits zu Beginn des 20. Jahrhunderts anhand eines Kurzfilms die Kontextabhängigkeit der Emotionszuschreibung belegen wollte. In der Filmsequenz wird die Einstellung ein und desselben Männergesichts mit verschiedenen anderen Bildern abgewechselt (einem Suppenteller, einem aufgebahrten toten Mädchen und einer leichtbekleideten Frau auf einem Diwan). Diese Objekte wurden vom Publikum als Auslöser unterschiedlicher Emotionen verstanden. Je nachdem, welches Bild gezeigt wurde, interpretierten die Betrachter den Ausdruck des Gesichts als Hunger, Trauer oder sexuelles Verlangen.
Neuere Studien haben versucht, diesen Effekt mit den Mitteln der modernen empirischen Psychologie zu bestätigen.11 Ein Algorithmus hätte in diesem Fall wohl einen neutralen Gesichtsausdruck festgestellt. Kommt er der Sache näher als die menschliche Praxis der Emotionszuschreibung, die kontextuelle Faktoren berücksichtigt? Oder verhält es sich genau umgekehrt und muss ein künstliches System an der Emotionserkennung scheitern, weil es den Kontext nicht miteinbezieht?
Neben dem Bezugsobjekt könnte auch der soziale und kulturelle Kontext bei der Zuschreibung von Emotionen eine Rolle spielen. So besitzt ein Lächeln in der japanischen Kultur eine andere Bedeutung als in den USA oder in Europa. Für Ekman überformen kulturelle Regeln des Emotionsausdrucks lediglich die weitgehend biologisch angelegten basalen Emotionen, die sich trotzdem in Form von Mikroausdrücken ihren expressiven Weg bahnen. Emotionen sind für ihn »undichte Stellen«, an denen das ansonsten private Innenleben einer Person unfreiwillig nach außen dringt. Doch selbst wenn man ihm diesen Punkt zugesteht, sind zumindest die nicht-basalen Emotionen stark vom kulturellen Kontext abhängig, so dass die gesichtsbasierte Emotionserkennung nur einen eingeschränkten Einsatzbereich besitzt.
Problematisch ist weiterhin, dass die gesichtsbasierte Emotionserkennung rassistischen Vorurteilen unterliegt. So wurden schwarzen Basketballspielern von einschlägigen Algorithmen selbst dann deutlich mehr negative Emotionen wie Ärger oder Verachtung zugeschrieben, wenn sie lächelten.12 Eine technische Lösung für den Umgang mit solchen Vorurteilen bestünde in einer entsprechenden Erweiterung der Datenbasis sowie der Auswahl menschlicher Annotatoren, die die Zuordnung von Gesichtsausdrücken und Emotionen in den Trainingsdaten unter Diversitätsgesichtspunkten vornehmen. Manche Firmen werben deshalb mit einer diversifizierten Datenbank.
Die grundsätzliche Frage ist, ob eine rein technische Lösung befriedigen kann oder ob nicht immer gewisse Personengruppen ausgeschlossen sein werden. So sperrte Uber aufgrund von Fehlern bei der Gesichtserkennung die Accounts von Transgender-Fahrern.13
Stimmbasierte Emotionserkennung
Neben dem Gesicht kann auch der stimmliche Ausdruck zur Emotionserkennung genutzt werden. Im Vordergrund stehen hierbei nicht die Wortbedeutungen, sondern die akustischen und prosodischen Eigenschaften des Sprechens. Bereits in den 1970er und 80er Jahren gab es stimmbasierte Stresstests, die in sehr kurzen Sprachauszügen ein winziges Beben (engl. micro-tremor) mit einer Bandbreite von 8–14 Hz als unbeabsichtigtes Anzeichen psychischen Stresses erkennen sollten.14
Im Unterschied zur gesichtsbasierten Emotionserkennung verwendet die stimmbasierte Emotionserkennung zumeist ein dimensionales Ordnungssystem. Emotionen werden nicht einem bestimmten Typus zugeordnet, sondern anhand graduierbarer Merkmale in einem Koordinatensystem verortet. Zwei Hauptdimensionen einer solchen Einteilung bilden die Valenz (positiv – negativ) und der Erregungsgrad. Diese beiden Dimensionen lassen sich als orthogonale Achsen darstellen, um deren Schnittpunkt die Emotionen kreisförmig angeordnet sind.15 Jede Emotion wird durch einen bestimmten Vektor aus Valenz und Erregung dargestellt. Das Modell kann um weitere Dimensionen wie Dominanz ergänzt werden. Diese Dimension gibt an, wie viel Kontrolle oder Macht jemand in einer Situation ausübt.
Die stimmbasierte Analyse bezieht sich in erster Linie auf die Erregungsachse. Die Parameter lassen sich jedoch genauer ausdifferenzieren, etwa in Bezug auf Lautstärke, Tonhöhe oder Sprechgeschwindigkeit. So weist Ärger ein Muster mit gesteigerter Lautstärke und Tonhöhe auf, während bei Furcht die Tonhöhe und die Sprechgeschwindigkeit höher sind. Auch die Anzahl der Pausen sowie die Häufigkeit von Überschneidungen, die entstehen, wenn eine Person einer anderen ins Wort fällt, werden berücksichtigt.
Ein Anwendungsfeld der stimmbasierten Emotionsanalyse sind Call-Center. Dort sollen die Stimmen von Kunden und Call-Center-Mitarbeitern analysiert werden, um herauszufinden, wann eine Situation aus dem Ruder läuft. Mitarbeiter werden anhand solcher Aufnahmen gezielt darauf trainiert, anhand bestimmter Strategien mit diesen Situationen umzugehen und die Kunden zu einem erwünschten Verhalten zu bringen. Auch für Amazons persönlichen Assistenten Alexa gibt es seit 2019 eine stimmbasierte Emotionserkennungssoftware, die die Dimensionen Valenz, Erregung und Dominanz miteinander kombiniert.16 Ein künstliches neuronales Netz wurde hierfür mit Hilfe öffentlich zugänglicher Daten trainiert.
Einige Firmen haben Apps entwickelt, um an die entsprechenden Daten zu kommen. Eine der ersten war das Programm Moodies des israelischen Start-ups Beyond Verbal (später fusioniert zu Vocalis Health). Die für Apple- und Android-Geräte verfügbare App bringt Menschen dazu, die stimmbasierte Emotionserkennung spielerisch auszuprobieren. Dabei generieren sie Daten, um das System zu trainieren. Das Programm soll für über 25 Sprachen funktionieren, darunter Mandarin, Kantonesisch sowie Vietnamesisch. In der Coronakrise arbeitete Vocalis Health daran, anhand von Stimmanalyse Hinweise auf eine Infektion mit Covid-19 zu gewinnen.
Stimmbasierte Emotionserkennung wird zudem als Mittel für die Zuschreibung bestimmter Persönlichkeitsmerkmale eingesetzt. Die Produkte von Beyond Verbal beispielsweise sollten in der Lage sein, die Sprecher einem Persönlichkeitstyp zuzuordnen, der auf recht undurchsichtige und spekulative Art und Weise aus drei fundamentalen unbewussten Trieben und diversen neurophysiologischen Prozessen abgeleitet wurde.17 Die drei Grundtypen wurden S-, H-, und G-Typ genannt. Während der S-Typ (engl. survivalist) sich latent bedroht fühlt und stets bereit ist, auf eine existentielle Bedrohung zu reagieren, ist der H-Typ (engl. homeostatist) vorwiegend an Routine und der Aufrechterhaltung des Status quo orientiert, während der G-Typ (engl. growth) an allem Möglichen interessiert ist und sich durch ein Streben nach persönlichem Wachstum auszeichnet.
Solche Zuschreibungen sollen etwa in Bewerbungsgesprächen eingesetzt werden. Und es ist klar, welcher Typus das Rennen machen würde. Auch die klassischen Big Five aus der Persönlichkeitspsychologie wurden (unter anderem gefördert von der deutschen Telekom)