Smart Data statt Big Data. Schmidt Jutta. Читать онлайн. Newlib. NEWLIB.NET

Автор: Schmidt Jutta
Издательство: John Wiley & Sons Limited
Серия:
Жанр произведения: Зарубежная образовательная литература
Год издания: 0
isbn: 9783527692248
Скачать книгу
stelle mir vor, dass Sie ein Leser sind, der direkten Nutzen daraus zieht, mehr über Data Science zu wissen, der es aber bisher noch nicht geschafft hat, einen Fuß in die Tür zu diesen Techniken zu bekommen. Sinn dieses Buches ist es, alle Irritationen zu beseitigen, die sich um Data Science ranken (den Code, die Werkzeuge und den ganzen Rummel), und Ihnen die entsprechenden Techniken beizubringen. Dabei verwende ich Fallstudien, die jeder verstehen kann, der sich in der Schule zumindest grundsätzlich mit linearer Algebra oder Infinitesimalrechnung beschäftigt hat. Sollte das bei Ihnen nicht der Fall sein, lesen Sie einfach langsamer und greifen Sie auf Wikipedia zu.

      Nichts geht über eine Tabellenkalkulation

      Dies ist kein Buch über das Codieren. Ich bin sogar bereit, dies (mit der kleinen Ausnahme von Kapitel 10) zu garantieren. Warum?

      Ganz einfach: Ich habe kein Interesse daran, zu Beginn dieses Buches hundert Seiten damit zu vergeuden, mich mit Git abzugeben, Umgebungsvariablen einzurichten und den Spagat zwischen Emacs und Vi zu wagen.

      Vielleicht laufen bei Ihnen nur Windows und Microsoft Office. Oder Sie sind bei einer Organisation beschäftigt, die es nicht zulässt, dass Sie auf Ihrem Computer irgendwelches Open-Source-Zeugs herunterladen und installieren. Und selbst wenn Ihnen in der Schule schon Ihr Taschenrechner eine Heidenangst einjagen konnte, müssen Sie sich keine Sorgen machen.

      Sollten Sie wissen, wie Code geschrieben wird, um die meisten der hier vorgestellten Techniken in eine automatisierte, produktive Form zu bringen? Unbedingt! Auf jeden Fall müssen Sie mindestens jemanden kennen, der mit Code umgehen kann und Speichertechnologien beherrscht.

      Müssen Sie wissen, wie Code geschrieben wird, um diese Techniken zu verstehen, sie zu unterscheiden und auf sie aufbauen zu können? Natürlich nicht!

      Aus diesem Grund behandele ich jede Technik mithilfe einer Tabellenkalkulation.

      Okay, in meinen Aussagen ist eine kleine Lüge versteckt. Das letzte Kapitel dieses Buches handelt von der auf Data Science ausgerichteten Programmiersprache R. Es soll denen unter Ihnen als Sprungbrett dienen, die sich intensiver mit Dingen dieser Art beschäftigen wollen.

      Aber Tabellenkalkulationen sind doch aus der Mode!

      Tabellenkalkulationen sind nicht gerade das aufregendste Werkzeug, das man sich vorstellen kann. Letztendlich gehören sie sogar zu den langweiligsten Analysewerkzeugen auf dieser Erde. Aber sie erlauben Ihnen, die Daten zu sehen und zu berühren (oder wenigstens anzuklicken). Wenn es darum geht, die entsprechenden Techniken kennenzulernen, benötigen Sie etwas Unspektakuläres, etwas, das jeder versteht und mit dem Sie gleichzeitig parallel zu Ihrem Lernfortschritt schnell und ohne großen Aufwand weiterkommen. Und genau das geht prima mit einer Tabellenkalkulation.

      Tabellenkalkulationen sind ein erstklassiges Werkzeug, wenn es um das Entwickeln von ersten Ansätzen geht. Sie werden wohl kaum für Ihren Online-Vertrieb ein produktives KI-Modell aus Excel heraus ablaufen lassen, was aber nicht heißt, dass Sie sich in diesem Programm keine Verkaufsdaten anschauen können, nicht mit Funktionen herumspielen sollten, die das Interesse an Produkten vorhersagen können, und nicht in der Lage sind, Zielvorgaben festzulegen. Um so etwas zu tun, bietet eine Tabellenkalkulation den perfekten Rahmen.

      Verwenden Sie Excel oder LibreOffice

      Alle Beispiele, die Sie durcharbeiten, setzen in diesem Buch Excel voraus. Auf der Webseite zu diesem Buch (www.wiley-vch.de/publish/dt/books/ISBN3-527-76060-1) können Sie zu den einzelnen Kapiteln Arbeitsmappen herunterladen, die Bestandteil einer großen Demodatei sind und die Ihnen leichter machen, die Aufgaben zu verfolgen. Wenn Sie dann vielleicht die Abenteuerlust packt, können Sie in den Arbeitsblättern alles bis auf die Anfangsdaten löschen und die gesamte Übung selbstständig nachvollziehen. Das Buch ist kompatibel zu Excel 2007, 2010, 2011 für den Mac und 2013. Kapitel 1 geht genau auf die Unterschiede der einzelnen Versionen ein.

      Die meisten von Ihnen haben Zugriff auf Excel, und vielleicht nutzen Sie es schon, um auf der Arbeit Berichte zu erstellen oder Daten festzuhalten. Wenn Sie aber aus irgendeinem Grund kein Excel besitzen, sollten Sie diese Software erwerben oder auf LibreOffice(www.libreoffice.org) zugreifen.

      Hinweis

      Was ist mit Google Drive?

      Vielleicht denken einige von Ihnen darüber nach, Google Drive zu verwenden. Dies ist eine verlockende Möglichkeit, da sich Google Drive in der Cloud befindet und auch von Ihren mobilen Geräten aus erreichbar ist. Aber das, was wir hier vorhaben, funktioniert dort nicht.

      Google Drive eignet sich gut für einfache Arbeitsblätter einer Tabellenkalkulation, aber dort, wo Sie sich hinbegeben, kann Google nicht folgen. Das Hinzufügen von Zeilen und Spalten ist in Drive eine mehr als nervige Sache, die Einbindung von Solver ist haarsträubend, und die Diagramme besitzen noch nicht einmal Trendlinien. Ich wünsche mir, es wäre anders.

      Bei LibreOffice handelt es sich um kostenlose Open-Source-Software, die über fast dieselben Funktionen wie Excel verfügt. Ich bin sogar der Meinung, dass der Solver von LibreOffice dem von Excel vorzuziehen ist. Wenn Sie diesen Weg einschlagen wollen, hindert Sie nichts daran.

      Konventionen

      Damit Sie das meiste aus dem Text herausholen und den Geschehnissen auf der Spur bleiben können, verwende ich in diesem Buch einige Konventionen.

      Hinweis

      Informationen wie die gerade zu Google Drive beziehen sich in der Regel auf Themen auf der aktuellen Seite und ergänzen diese Themen.

      Warnung

      Warnungen enthalten wichtige Informationen, die Sie nicht vergessen dürfen, und die für den unmittelbar benachbarten Text von Bedeutung sind.

      Tipp

      Anmerkungen dieser Art enthalten Tipps, Hinweise, Tricks und Randbemerkungen, die zum aktuellen Thema gehören.

      Ich verweise im Text so auf Codestückchen:

      =VERKETTEN("Dies ist Text";"in Excel!")

      Neue und/oder wichtige Begriffe werden bei ihrer ersten Verwendung optisch hervorgehoben. Dateinamen, Bezeichnungen von Verzeichnissen weisen ebenfalls diese kursive Formatierung auf, während auf URLs so hingewiesen wird: www.wiley-vch.de

      Wenn es im Text um eine Formel wie =SUMME(A4:T32) oder um Funktionen oder Bezeichnungen geht, wird ebenfalls die »Formelschriftart« verwendet.

      Los geht’s

      Im ersten Kapitel möchte ich weiße Flecken bei Ihren Excel-Kenntnissen mit Leben füllen. Danach geht es sofort mit Fallstudien los. Am Ende dieses Buches kennen Sie nicht nur die folgenden Techniken, sondern Sie wissen auch, wie sie von Grund auf eingerichtet werden:

      ● Lineare und ganzzahlige Optimierung

      ● Arbeiten mit Zeitreihen, Erkennen von Trends und saisonbedingten Mustern und Erstellen von Prognosen mithilfe von exponentiellen Glättungen

      ● Der Einsatz der Monte-Carlo-Simulation für Optimierungs- und Prognoseszenarien, um Risiken zu bewerten und zu adressieren

      ● Künstliche Intelligenz, indem Sie das generelle lineare Modell, logische Verknüpfungsfunktionen, Ensemble-Methoden und naives Bayes verwenden

      ● Entfernungen zwischen Kunden berechnen, indem Kosinus-Ähnlichkeit verwendet, kNN-Diagramme erstellt, Modularität berechnet und Kunden geclustert werden

      ● Ausreißer mit Tukey-Tests in einer einzelnen Dimension oder in mehreren Dimensionen mit lokalen Ausreißerfaktoren entdecken

      ● R-Pakete verwenden und anderen Analytikern beim Durchführen der Aufgaben »turmhoch überlegen« sein

      Wenn