Data Science. Michael Zimmer. Читать онлайн. Newlib. NEWLIB.NET

Автор: Michael Zimmer
Издательство: Bookwire
Серия: Edition TDWI
Жанр произведения: Математика
Год издания: 0
isbn: 9783960885856
Скачать книгу
kann der Wert einer Information auch dadurch beeinflusst sein, wie häufig eine bestimmte Entscheidung getroffen wird. Entscheidungen, die einen kleinen individuellen Wert haben, dafür aber sehr oft getroffen werden müssen, können aus Anbietersicht interessanter sein als Entscheidungen, die zwar individuell sehr wertvoll sind, aber sehr selten fallen.

      Bei der Fahrzeugauswahl möchte der potenzielle Käufer zum Beispiel wissen, ob der Preis für ein Fahrzeug angemessen in Bezug auf den Zustand des Fahrzeugs ist. Objektive Informationen bezüglich des Fahrzeugzustands sind daher wertvoll.

      Aus der Analyse der Wertschöpfungskette ergeben sich Informationsbedürfnisse, die durch ein Datenprodukt gelöst werden könnten, und eine initiale Bewertung dieser Informationsbedürfnisse.

       4.4.2Value Propositions von Datenprodukten

      Im nächsten Schritt gilt es nun, ein Wertversprechen (Value Proposition) für die identifizierten Problemstellungen innerhalb der Wertschöpfungskette zu definieren. Dabei können die Wertversprechen von Datenprodukten in zwei Dimensionen beschrieben werden: als rationale und als soziale Komponente. Ein rational begründetes Wertversprechen unterstützt den Nutzer dabei, die objektiv beste Entscheidung zu treffen. Volkswirtschaftlich interpretiert man den Menschen hierbei als homo oeconomicus. Wir wissen aber aus der Verhaltensökonomie, dass Menschen auch andere Gesichtspunkte wichtig sind. Das Wertversprechen kann also auch sozial ausgelegt sein und Neugierde, soziale Interaktion oder Entertainment-Bedürfnisse ansprechen [Dorfer 2016].

      In den meisten Fällen werden die unterschiedlichen Ausrichtungen des Wertversprechens kombiniert und an verschiedene Nutzergruppen angepasst, um ein Datenprodukt zu erstellen. Zum Beispiel kann man soziale Interaktion dazu nutzen, um Feedback zu der Qualität eines Datenprodukts zu bekommen.

      Nehmen wir beispielsweise die Möglichkeit, die Verkaufsanzeige eines Fahrzeugs über einen Link an einen Freund weiterzuleiten. Diese soziale Interaktion kann dazu genutzt werden, die Fahrzeugempfehlung zu beeinflussen, wobei das Datenprodukt »Fahrzeugempfehlung« die Entscheidung für oder gegen ein Fahrzeug unterstützt und damit eher ein rational begründetes Wertversprechen hat.

      Neben dieser kategorischen Unterscheidung kann zusätzlich die zeitliche Dimension zur Beschreibung des Wertversprechens herangezogen werden. Datenprodukte können ein Bedürfnis nach Informationen

       aus der Vergangenheit,

       der Gegenwart oder

       der Zukunft

      befriedigen.

      Preisvergleichsportale bieten zum Beispiel historische Preisinformationen an oder versuchen, einen Preistrend für ein bestimmtes Produkt vorherzusagen, um daraus eine Warte- oder Kaufempfehlung abzuleiten.

      Während die Wertschöpfungskettenanalyse Hinweise darauf gibt, welche Wertversprechen einen Mehrwert liefern könnten, unterstützt die Kategorisierung der Wertversprechen die Ideenfindung einer konkreten Problemlösung. Im Zusammenspiel der Wertversprechen und der Wertschöpfungskette kann sich dann auch ergeben, an welcher Stelle der Wertschöpfungskette ein Service beginnen bzw. enden sollte, um gegebenenfalls Daten für darauffolgende Schritte zu sammeln oder Feedback über das Nutzerverhalten einzuholen. Insbesondere auf das Design der Feedbackschleife gehen wir noch in einem späteren Abschnitt detailliert ein.

       4.4.3Ziele und Messung

      Im nächsten Schritt folgt die Ableitung einer messbaren Zielerreichungsgröße für das angestrebte Wertversprechen. In der Wertschöpfungskette wurden alle Schritte bis zur Erreichung eines bestimmten Ziels aufgeschrieben. Allerdings kann es passieren, dass dieses Endziel nicht messbar ist, wie zum Beispiel Glück oder Zufriedenheit. Daher müssen Messpunkte an den einzelnen Stationen eingebaut werden, um zu bewerten, ob der Nutzer auf einem guten Weg ist, sein Ziel zu erreichen.

      Zum Beispiel kann das Ziel eines Autokaufs die räumliche Unabhängigkeit sein. Wie gut dieses Ziel durch den Kauf erreicht wird, ist sehr schwer zu messen. Während die Weiterleitung eines Links an einen Freund nur wenig über diese Zielerreichung aussagt, kann es doch ein Etappenziel darstellen, das vermuten lässt, dass ein bestimmtes Auto in die nähere Auswahl einbezogen wurde.

       4.4.4Die Erwartung an die Güte des Modells bestimmen

      Maschinelle Lernverfahren machen in der Regel Vorhersagen, die nicht in allen Fällen richtig sind. Da unterscheiden sie sich nicht von Menschen. Im Falle einer Klassifikationsaufgabe kann die Güte eines Modells beispielsweise durch die F-Measure, also die Kombination aus Precision und Recall, angegeben werden [Baeza-Yates & Ribeiro-Neto 1999]. Abhängig vom Einsatzgebiet des Datenprodukts ist es entscheidend, zu verstehen, welche Eigenschaft dem Nutzer besonders wichtig ist. Möchte er z.B. einen höheren Recall, soll also eine Klassifikation für möglichst viele Fälle angeben werden, bei entsprechender Verminderung der Precision oder sollen die Vorhersagen eher richtig sein und im Zweifelsfall nicht angezeigt werden. Damit dies richtig eingeschätzt werden kann, ist es wichtig, zu verstehen, was im schlimmsten Fall bei einem Fehler des Algorithmus passieren kann. Im Zweifelsfall müssen Fehlerquellen auch manuell während der Entwicklung abgefangen werden.

      Bei Urlaubsbildern wird man es entschuldigen können, wenn ein Kuchen als Sonnenuntergang klassifiziert wird. Wenn die IBAN auf einer Überweisung erkannt werden soll, hilft eine unscharfe Erkennung nicht, weil dann doch alle erkannten Ziffern überprüft werden müssten.

      Aus der Robotik ist das Konzept des Uncanny Valley bekannt [Mori 1970]. Die Sympathie, die einer Maschine entgegengebracht wird, steigt zunächst mit ihrer Ähnlichkeit zu menschlichem Verhalten/Aussehen. Sobald die Ähnlichkeit aber einen bestimmten Grad erreicht hat, fällt sie signifikant, bis eine absolute Übereinstimmung mit menschlichem Verhalten erreicht wurde. Etwas Ähnliches kann man sich bei der Güte von Algorithmen vorstellen. Ein Algorithmus, von dem man weiß, dass er eine gute Vorhersage liefert, ist eine gute Informationsquelle, aber der Nutzer weiß auch, dass er sich nicht zu 100% darauf verlassen kann, und denkt entsprechend selber nach. Bei einer sehr guten Vorhersage geht die Anzahl der Änderungen so stark zurück, dass der Mensch sich zu sehr auf den Algorithmus verlässt. Wie die tragischen Beispiele von Tesla zeigen, auch mit tödlichem Ausgang.

      Im Rahmen der Konzeption des Datenprodukts müssen daher die Präferenzen der Nutzer bezüglich der Güte des Modells herausgefunden werden und auch die Konsequenzen aus einer zu guten Vorhersage abgewogen werden.

       4.4.5Mit dem Datenprodukt beginnen

      Die bisher beschriebenen Schritte dienten dazu, Hypothesen bezüglich relevanter Wertversprechen und Ziele des Nutzers zu formulieren. Diese gilt es nun zu überprüfen. Entsprechend dem Lean-Startup-Vorgehensmodell sollten diese Hypothesen schrittweise validiert werden.

      Im ersten Schritt gilt es daher, herauszufinden, wie der Nutzer das definierte Problem aktuell löst, welche Entscheidungsoptionen er hat und welche Unsicherheiten damit verbunden sind. Darauf aufbauend kann ein sehr einfacher Algorithmus verwendet werden, der beispielsweise sehr wenige Datenquellen nutzt, um die aktuelle Vorgehensweise zur Problemlösung leicht zu verbessern. Es ist entscheidend, dass man zu Beginn der Entwicklung nicht die ausgefallensten Algorithmen einsetzt oder gar versucht, alle möglichen Datenquellen einzubeziehen. Dies ist in der Regel sehr aufwendig. Am Anfang muss man mit wenig Aufwand herausfinden, ob ein Kunde von einem Informationsangebot überhaupt profitiert. Außerdem dient der einfache Algorithmus oder eine Heuristik als Basis, um später die Verbesserungen durch andere Algorithmen nachweisen zu können.

      Zum Beispiel wurden die ersten Empfehlungen auf bekannten E-Commerce-Portalen zunächst nicht aufwendig berechnet, sondern sie bestanden aus einer zufälligen Auswahl von Produkten aus dem Produktkatalog. Das Ziel dieser Implementierung war