§ 2. Большие данные
Понятие. Большие данные (Big Data) – это крайне большой объем структурированных и неструктурированных данных произвольного типа, обрабатываемый в горизонтально масштабируемых информационных системах. Назначение систем Big Data – помогать в принятии решений и инициировать действия на основе анализа цифровой информации. При помощи систем Big Data принимаются решения о необходимости профилактики эпидемий, об изменении полётного графика воздушных судов, о пригодности деталей автомобиля для эксплуатации, о необходимости провести внеплановый ремонт на строительных объектах и многие другие.
История. Определение Big Data появилось в 2008 г. Безусловно, до этого времени существовали методологии анализа информации, однако стоимость хранения и обработки данных была столь велика, что ограничения в ресурсах либо сводили на нет полезность аналитических отчетов из-за низкой скорости их предоставления, либо качество отчетов было столь низким, что они не имели практического применения.
Вместе с тем, объемы данных росли лавинообразными темпами: пользователи социальных сетей генерировали огромные объемы информации, корпорации копили сведения о клиентах, индустриальные предприятия использовали датчики для контроля технологических процессов, в дополнение к ним в широкой эксплуатации появились домашние приборы и автоматизированных системы, которые без участия человека используют интернет, автоматически отсылают информацию о своем состоянии, получают и обрабатывают команды пользователей и тем самым также порождают огромные объемы данных.
Усиливалась и потребность в анализе этих данных – постоянно шел поиск ответа на бизнес-задачи: предсказание потребительского поведения с целью повысить эффективность маркетинговой активности; цифровое моделирование индустриальных объектов, с целью снизить затраты на дорогостоящие испытания; быстрый анализ данных с погодных датчиков для обеспечения безопасности полетов и др.
К 2008 г. технологический прорыв в области микропроцессорных технологий и в производстве систем хранения данных на порядки снизил стоимость хранения и обработки. Это упростило и удешевило доступ к вычислительным ресурсам до недостижимого прежде уровня, что сделало возможным дальнейший прогресс в развитии аналитических систем.
Важнейшей вехой в истории систем класса Big Data является развитие технологии кластеризации, реализующей горизонтальное масштабирование – объединение разрозненных единиц вычислительной техники в общую вычислительную систему с единым управлением.
Повысилась