Большие данные, цифровизация и машинное обучение для собственников и топ-менеджеров, Или как зарабатывать больше с помощью информации. Алексей Сергеевич Гуржиев. Читать онлайн. Newlib. NEWLIB.NET

Автор: Алексей Сергеевич Гуржиев
Издательство: Автор
Серия:
Жанр произведения:
Год издания: 2023
isbn:
Скачать книгу
называют «специалистом по данным». К этой категории относятся:

      • Инженеры по данным, которые создают огромные хранилища, вмещающие сотни терабайт информации. Они же пишут программы по сбору и конвертации этих данных в более удобные форматы, чтобы другие сотрудники могли ими пользоваться.

      • Аналитики данных, которые занимаются построением и анализом графиков и диаграмм по уже собранным данным, чтобы лучше понимать бизнес-процессы и увеличивать прибыль компании.

      • Специалисты по машинному обучению, которые могут создавать и обучать на собранных данных системы для предсказания каких-либо значимых для бизнеса параметров и их величин.

      Иногда в тексте вместо общего названия «программисты» вам встретится более конкретное «специалист по данным». А какое именно направление имеется в виду, вы поймете из контекста.

      Большие данные

      Английское словосочетание Big Data дословно переводится как «большие данные». По сути – это подробная информация о предмете. К примеру, большие данные для торгового центра включают в себя сведения о чеках покупателей, о количестве посетителей и даже о температуре внутри здания в течение всего дня. При этом данные не ограничиваются стенами торгового центра, в них могут быть добавлены заметки о количестве людей, пользующихся ближайшей станцией метро. Или даже информация о частоте стрижки городскими службами расположенных в радиусе ста метров от торгового центра кустов. Эти с виду бесполезные данные, скрупулезно собираемые в течение продолжительного периода времени, и называются «большими данными».

      При этом они представляют собой не только числа. Это могут быть:

      • Текстовые отзывы клиентов и их обращения в службу поддержки.

      • Комментарии в социальных сетях.

      • Записи телефонных разговоров с клиентом.

      • Фотографии – от аватаров клиентов до снимков товаров.

      • Видео с камер наблюдения.

      Вся эта информация может легко занимать десятки терабайт. И чем старше фирма, тем больше у нее накоплено данных для проведения ценных исследований: в современном мире намного дороже удалять старую информацию, чем хранить ее вечно. Это как раз тот случай, когда «своя ноша не тянет».

      Из-за непрерывно поступающих данных компании стараются минимизировать объемы хранящейся информации для снижения расходов на электронные носители. Для этого, например, аудио- и видеозаписи с помощью специальных алгоритмов переводятся в более компактный вид. Из аудиофайлов выделяют речь. Из видеозаписей, например с камер наблюдения, можно получить данные о количестве находящихся в магазине посетителей. Поэтому если преобразовывают формат, то нет нужды хранить само исходное видео или аудио. Более того, даже обычная текстовая информация, которая и так занимает немного места, отлично сжимается благодаря современным алгоритмам. Это сильно уменьшает занятый объем хранилища компании. Однако, несмотря