4. Освойте базовые термины. Особенно такие, которые до этого вы часто между собой путали. Например, «корреляцию» с «аппроксимацией». Все просто: корреляция – поиск взаимозависимостей данных. Метод корреляции весьма широко используется при так называемом data mining, или добыче данных. Хотя с ростом популярности криптовалют слово mining (майнинг) становится русскоязычной аудитории вполне понятным само по себе. Итак, data mining – это когда вы обнаруживаете с помощью компьютерных систем зависимость урожая сельскохозяйственной компании от… цен на молибден. Или влияние объемов улова тунца в южноамериканской части Тихого океана на рынок недвижимости США. Удивительно то, что впервые слово «корреляция» пригодилось при раскопках костей динозавров. То есть благодаря корреляции сегодня мы знаем практический облик леэллинозавров и квантасзавров!2
Аппроксимация. Самая простая формулировка: замена одних объектов другими, в каком-то смысле близкими к исходным, но более простыми. Вы видите на диаграмме целый рой точек, более-менее выстроенных в прямую полосу, и заменяете эту полосу на одну простую прямую линию.
«Если я работаю с набором из двухсот случайных переменных, совершенно не зависящих друг от друга, почти невозможно не обнаружить высокую корреляцию на уровне, скажем, 30%, однако эта корреляция будет абсолютно ложной. Есть методики, позволяющие контролировать избирательность (скажем, поправка Бонферрони), но даже они не останавливают злоумышленников – как регулирование не останавливает инсайдеров, которые наживаются на системе. Вот почему за двенадцать с чем-то лет с тех пор, как мы расшифровали геном человека, генетики не добились никаких существенных результатов. Я не говорю, что данные не содержат важной информации; беда в том, что искать ее – все равно что искать иголку в стогу сена».
Нассим Николас Талеб «Антихрупкость. Как извлечь выгоду из хаоса»
5. Книги.
«Factfulness: Ten Reasons We’re Wrong About the World – and Why Things Are Better Than You Think» by Hans Rosling, Anna Rosling Rönnlund, Ola Rosling
«Статистика и котики», Владимир Савельев
«Статистика. Базовый курс в комиксах», Грейди Клейн
«Неизведанная территория. Как „большие данные“ помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры», Жан-Батист Мишель, Эрец Эйден
«Голая статистика. Самая интересная книга о самой скучной науке», Чарльз Уилан
«Финансовое моделирование в Excel», Дмитрий Жаров