Eine Maschine bei der Arbeit … und sie funktioniert
YouTube empfiehlt Nutzern jeden einzelnen Tag hunderte Millionen von Videos in Dutzenden verschiedenen Sprachen in jedem Winkel der Welt. Seine Vorschläge machen 75 % der Zeit aus, die die Menschen auf der Seite verbringen.
Im Jahr 2012 lag die tägliche Verweildauer im Durchschnitt bei etwa hundert Millionen Stunden. Im Jahr 2019 liegt der Durchschnitt bei einer überwältigenden Milliarde Stunden pro Tag. Insgesamt konsumieren Zuschauer auf einer Website eine Milliarde Stunden Video-Content an jedem einzelnen Tag! Über diese Zeitspanne von sieben Jahren und nach tausenden, wenn nicht zehntausenden von Optimierungen und Anstößen ist die Deep-Learning-KI richtig gut darin geworden, Videos zu empfehlen, damit Viewer länger schauen. Sie wurde zu einem Experten im digitalen Gärtnern, der auf der Grundlage der Videos, an denen sie »sich geweidet« haben, weiß, welches Produkt er für die einzelnen Kunden ernten muss. Auch du kannst YouTube-Gärtnermeister werden, wenn du dich mit dem richtigen Werkzeug bewaffnest. Halte einfach deine Schaufel fest, weil wir alle noch beim ersten Spatenstich sind.
4 Die Aufschlüsselung des Algorithmus
Du hast gerade viel über die Geschichte der Systeme gelernt, die YouTube seit dem Start zum Laufen gebracht haben, und du weißt, dass diese Systeme recht gut in dem geworden sind, was sie tun. Aber was bedeutet das im wahrsten Sinne des Wortes? Wenn du auf die Website gehst, wie sehen die Systeme dann aus, während du navigierst? Um diese grundlegenden Konzepte wirklich erfassen zu können, lass uns klarstellen, was tatsächlich geschieht, wenn jemand eine Seite besucht.
Sobald ein Besucher auf YouTube.com eintrifft, wird er verfolgt. Es ist wie damals, als du noch ein kleines Kind warst und deinen Freund besucht hast, um mit ihm zu spielen, aber sein kleiner lästiger Bruder euch einfach nicht allein ließ. Doch sieh es einmal so: Anstatt lästig zu sein, beobachtet der Bruder still euer Verhalten und liest euch jeden Wunsch von den Augen ab. Ihr möchtet einen Snack. Schon läuft er in die Küche und kehrt mit einem Apfel zurück. Ihr sagt: »Nein, danke.« Also bringt er den Apfel zurück und kommt mit einer Tüte Chips zurück. Ihr esst die Chips. Dann sprecht ihr über Han Solo. Also läuft er ins Wohnzimmer und spielt für euch Das Imperium schlägt zurück. Wenn du deinen Freund das nächste Mal besuchst, überreicht er dir schon beim Betreten des Hauses einen Keks und schaltet Die Rückkehr der Jedi-Ritter ein. Seine Vorhersage, was du essen oder sehen wollen könntest, basiert auf deinem letzten Besuch und ist wahrscheinlich ein Volltreffer. Oh, und außerdem wirst du bei dieser Behandlung wahrscheinlich häufiger dort zu Besuch sein wollen. Sie wissen, was dir gefällt. (Es sei denn, er schlägt dir Die letzten Jedi oder Solo vor. In diesem Fall gehst du nächstes Mal einfach zu den Zuckerbergs, weil diese Filme Mist sind.)
Sagen wir, anstelle von Chips hättest du lieber Karottenstifte und anstelle von Star Wars möchtest du lieber Wiederholungen von The Office sehen. Bei deinem nächsten Besuch würde dir der kleine Bruder Brokkoli und Parks and Recreation anbieten. Das Konzept funktioniert unabhängig von deinen Vorlieben.
Mit folgenden Beispielen kann man YouTubes Ziele erklären:
Voraussagen, was der Viewer schauen wird.
Langfristiges Engagement und Zufriedenheit des Viewers maximieren.
Wie sie dies erreichen, lässt sich in zwei Teile herunterbrechen: Sammeln und Nutzen von Daten und Algorithmen mit einem »S«.
Teil 1: Sammeln und Nutzen von Daten
YouTube sammelt jeden Tag 80 Milliarden Datenpunkte aus dem Nutzerverhalten. Sie sammeln Daten in zwei Kernbereichen, um die Ziele der KI zu erreichen. Der erste beobachtete Bereich ist das Nutzerverhalten per Metadaten. Aufgrund des Verhaltens der Person, deren Augen auf den Bildschirm gerichtet sind und deren Finger das Klicken übernehmen, werden Dinge über ein Video ermittelt. Durch »Zufriedenheitssignale« trainiert die KI, was vorgeschlagen werden soll und was nicht. Es gibt eine ganz spezielle Liste dieser Signale:
Welche Videos schaut der Betrachter?
Welche Videos überspringt er?
Wie viel Zeit verbringt er mit Schauen?
Likes und Dislikes.
»Kein Interesse«-Feedback.
Umfragen nach Anschauen eines Videos.
Ob er zurückkehrt und sich etwas erneut anschaut oder etwas zu Ende schaut, das er noch nicht ganz gesehen hat.
Ob er es speichert und es sich später ansieht.
All diese Signale speisen die Zufriedenheits-Feedback-Schleife. Diese Schleife wird auf der Grundlage des Feedbacks erstellt, das der Algorithmus durch dein spezielles Verhalten erhält. Er »schleift« die Arten von Videos, die dir gefallen, durch die Vorschläge. So wird das Erlebnis jedes einzelnen Nutzers personalisiert.
Metadaten sammeln
Damit wir die Einzelheiten in Angriff nehmen können, folgt hier eine Erklärung, wie genau die KI Daten sammelt. Die Beobachtung der Metadaten beginnt mit dem Thumbnail (Vorschaubild). Die YouTube-KI verwendet die hochentwickelte Technik von Googles Reihe von KI-Produkten. Sie bedient sich eines Programms namens Cloud Vision (CV). CV nutzt optische Zeichenerkennung (Optical Character Recognition, kurz: OCR) und Bilderkennung (Image Recognition), um viele Dinge über ein Video aufgrund dessen festzustellen, was sie im Thumbnail findet. Sie nimmt Punkte aus jedem einzelnen Bild im Thumbnail, erkennt diese Bilder mittels Milliarden von bereits im System gespeicherten Datenpunkten und füttert den Algorithmus dann wieder mit diesen Informationen. Wird beispielsweise ein Thumbnail mit einer Nahaufnahme des Gesichts des weltberühmten Physikers Stephen Hawking als solche in CV erkannt, kann das Video in dem Vorschlagsfeed zusammen mit jedem anderen Video auf YouTube »gruppiert« werden, das mit dem Thema Stephen Hawking verschlagwortet ist. Auf diese Weise werden deine Videos gefunden und gesehen.
Des Weiteren nutzt CV ein »Sicherheits-Tool«, das aufgrund der aus den Bildern in deinem Thumbnail gesammelten Daten feststellt, ob dein Video für alle Zielgruppen geeignet ist oder ob es »Erwachsenenthemen«, Gewalt oder andere fragwürdige Inhalte zum Gegenstand hat, und gibt ihm einen »Zuverlässigkeitswert« entsprechend dieser Feststellung. Dieser Wert gibt außerdem an, wie genau der Content dem gezeigten Thumbnail entspricht. Das heißt, du kannst ein Thumbnail gestalten, mit Cloud Vision verbinden und schon, bevor du das Video vollständig hochgeladen hast, erfahren, wie das Thumbnail von dem System voraussichtlich bewertet werden wird. Die Verwendung von Cloud Vision kann helfen, etwas auszumachen, das – aus welchem Grund auch immer – an einem x-beliebigen Datenpunkt als unangemessen gekennzeichnet wird, und somit dem Creator die Gelegenheit geben, das Problem zu beheben, noch bevor das Video online ist. Das hat die Demonetarisierung und andere Probleme, mit denen Creators in der Vergangenheit zu kämpfen hatten, reduziert. Es kann ein sehr wertvolles Instrument sein und dir helfen, den Problemen immer einen Schritt voraus zu sein. CV ist keine exakte Kopie von YouTubes Sicherheitsmaßnahmen, kommt diesen aber nahe genug, dass die Creators eine gute Vorstellung davon bekommen, wie der Content von YouTube definiert wird. CV toleriert möglicherweise etwas, das YouTube nicht toleriert, aber dennoch ist es ein hinreichendes Pre-Launch-Tool.
Abbildung 4.1: Thumbnail mit Datenpunkten
Videointelligenz
Nach Prüfung des Thumbnails geht die KI jeden einzelnen Rahmen des Videos durch und erstellt Sequenzprotokolle und Bezeichnungen aufgrund dessen, was sie in dem Content des Videos selbst sieht. Wenn du beispielsweise ein