Нейросети. Основы. Дэвид Рид. Читать онлайн. Newlib. NEWLIB.NET

Информация о произведении:

Автор:	Дэвид Рид
Издательство:	Автор
Серия:
Жанр произведения:
Год издания:	2024
isbn:

Скачать книгу

Конвергенция: Шаги назначения и обновления повторяются до тех пор, пока изменения в позициях центроидов не станут незначительными, что означает, что центроиды стабилизировались и алгоритм достиг сходимости.

Преимущества K-means включают его простоту и эффективность при работе с большими наборами данных. Однако алгоритм чувствителен к выбору начальных центроидов и может застревать в локальных минимумах. Кроме того, он предполагает, что кластеры имеют сферическую форму и равные размеры, что не всегда соответствует реальности данных.

Иерархическая кластеризация

Иерархическая кластеризация – метод, который создает иерархию вложенных кластеров, представляемую в виде дендрограммы. Существует два основных подхода к иерархической кластеризации: агломеративный и дивизионный.

1. Агломеративная кластеризация (снизу вверх): Каждый объект начинается как отдельный кластер, и на каждом шаге алгоритм объединяет два ближайших кластера до тех пор, пока все объекты не будут объединены в один кластер.

2. Дивизионная кластеризация (сверху вниз): Все объекты начинают как один кластер, который на каждом шаге делится на два наиболее удаленных кластера, продолжая деление до тех пор, пока каждый объект не окажется в своем собственном кластере.

Иерархическая кластеризация не требует предварительного задания числа кластеров, что является ее значительным преимуществом. Пользователь может выбирать наиболее подходящий уровень иерархии в зависимости от задачи. Основным недостатком метода является его вычислительная сложность, что делает его менее подходящим для очень больших наборов данных.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

DBSCAN – алгоритм кластеризации, основанный на плотности данных. Он идентифицирует плотные регионы данных и выделяет их в кластеры, эффективно обрабатывая шумовые данные и выявляя кластеры произвольной формы. Основные параметры DBSCAN включают (epsilon) (eps), определяющий радиус соседства точки, и ( minPts ), указывающий минимальное количество точек в радиусе (epsilon) для формирования кластера.

Основные шаги алгоритма DBSCAN:

1. Плотностная связь: Для каждой точки определяется плотность, основанная на числе соседних точек в радиусе ( epsilon ).

2. Формирование кластеров: Начинается с произвольной точки. Если плотность точки выше порогового значения (minPts), она считается начальной точкой кластера, и все плотностно-связанные точки включаются в этот кластер.

3. Обработка шума: Точки, которые не могут быть включены ни в один кластер (имеющие менее ( minPts ) соседей в радиусе epsilon , считаются шумом и не относятся ни к одному кластеру.

DBSCAN особенно эффективен для выявления кластеров произвольной формы и работы с шумом. В отличие от K-means, он не требует заранее задавать число кластеров. Однако выбор параметров (epsilon) и (minPts) может быть нетривиальной задачей и требовать тщательной настройки для конкретного набора данных.

2. Снижение размерности

Снижение размерности – это метод уменьшения числа признаков в данных, что упрощает модель

Скачать книгу