Большие данные, цифровизация и машинное обучение для собственников и топ-менеджеров, Или как зарабатывать больше с помощью информации. Алексей Сергеевич Гуржиев. Читать онлайн. Newlib. NEWLIB.NET

Автор: Алексей Сергеевич Гуржиев
Издательство: Автор
Серия:
Жанр произведения:
Год издания: 2023
isbn:
Скачать книгу
в общественных движениях, а иногда даже за счет обнародования некоторой закрытой информации с целью привлечения внимания партнеров и поиска клиентов-почитателей. Например, если компания собирает большие данные о своем продукте, то в публичный доступ может попасть часть уже обработанных сведений. Чтобы любители могли потренироваться в создании собственной системы для предсказаний, используя машинное обучение. Именно так и поступил «Сбербанк»[10], который выложил на соревновательную платформу Kaggle набор больших данных о недвижимости в России. Сейчас это один из самых популярных тренажеров, на котором учат будущих специалистов по данным на различных отечественных курсах по машинному обучению.

      По опубликованному набору можно сразу понять, как профессионалы в банке относятся к большим данным. Достаточно взглянуть на количество параметров, рассматриваемых для каждой квартиры:

      • Описание квартир – 14 параметров.

      • Описание ближайшей недвижимости – 24 параметра.

      • Макроэкономические факторы, касающиеся недвижимости, – 101 параметр.

      • Дополнительное описание ближайшей недвижимости – 288 параметров.

      Данные представлены в форме таблиц, где квартиры – это строчки, а их параметры – колонки. Подобный вид является обычным для больших данных. Именно такие таблицы затем передаются машине для обучения, цель которого – натренировать ее на предсказание цены квартиры в зависимости от значений параметров.

      В опубликованном наборе данных часть параметров не зависит от времени: количество комнат, географическое положение дома, расстояние от квартиры до ближайшей атомной станции, музея и университета. Таких пунктов почти триста. То есть в таблицах будет три сотни колонок, описывающих каждую квартиру.

      Стоит обратить внимание на то, что значения некоторых изменяющихся параметров могут записываться несколько раз в привязке ко времени. Например, уровень безработицы или рождаемости в стране в разные дни[11]:

      В таких временных данных тоже содержится скрытая информация. Например, если пару лет назад резко снизилась безработица, а сейчас увеличилась рождаемость, то спрос на квартиры увеличится. Обычному человеку не под силу заметить такую тонкую взаимосвязь между всеми этими цифрами и предсказать их влияние на стоимость «однушки» на окраине столицы. А машина с легкостью определяет значимость и вклад каждого параметра в цену квартиры. После обучения она сможет предсказывать эту величину самостоятельно, принимая в расчет лишь значения параметров. Человек будет в буквальном смысле спрашивать машину: «Сколько, по твоему мнению, сейчас стоит квартира в 5 минутах ходьбы от атомной станции, в 10 минутах пешком от университета, если безработица сегодня составляет 5.6 %, а коэффициент рождаемости равен 2.3?» Натренированный алгоритм – результат машинного обучения – в ответ на такой вопрос выдаст конкретную стоимость


<p>10</p>

Sberbank Russian Housing Market Dataset (https://www.kaggle.com/c/sberbank-russian-housing-market/data).

<p>11</p>

В таблице приведены вымышленные числа, они не связаны с реальными данными рождаемости и безработицы.