ML для новичков: Глоссарий, без которого ты не разберёшься. Артем Демиденко. Читать онлайн. Newlib. NEWLIB.NET

Информация о произведении:

Автор:	Артем Демиденко
Издательство:	Автор
Серия:
Жанр произведения:
Год издания:	2025
isbn:

Скачать книгу

источником информации, на основе которой модели способны принимать решения и делать предсказания. Без качественных и хорошо структурированных данных любые алгоритмы машинного обучения могут давать неверные результаты или полностью проваливаться. В этой главе мы подробно рассмотрим, какие данные нужны для успешного обучения моделей, как правильно их обрабатывать и какие подходы использовать для создания эффективного набора данных.

Виды данных

Для начала важно понимать, какие типы данных существуют в контексте машинного обучения. Данные можно классифицировать по различным признакам:

1. Структурированные данные – это данные, которые организованы в определённом формате, например, таблицы. Они легко воспринимаются алгоритмами и чаще всего используются в задачах регрессии и классификации. Примером может служить база данных клиентов, где столбцы представляют атрибуты (возраст, пол, зарплата), а строки – записи о каждом клиенте.

2. Неструктурированные данные – это данные, которые не имеют фиксированной структуры, такие как текст, изображения или аудиофайлы. Обработка таких данных требует дополнительных шагов, таких как извлечение признаков. Например, работа с текстовыми данными может включать в себя токенизацию, стемминг и векторизацию.

3. Полуструктурированные данные – данные, которые имеют некоторую организацию, но не ведутся в строгом формате. Примеры полуструктурированных данных включают XML и JSON файлы. Эти данные часто используются в контексте API и веб-сервисов.

Сбор данных

Сбор данных – это первый и, возможно, самый критически важный шаг в процессе обучения модели. Выбор источника данных зависит от цели вашего проекта. Возможные источники включают:

– Открытые наборы данных: На таких платформах, как Kaggle или UCI Machine Learning Repository, можно найти большое количество бесплатных коллекций данных для обучения.

– Внутренние данные: Многие компании хранят свои данные о клиентах, продажах или операциях. Эти данные могут быть особенно ценными для задач, связанных с бизнес-аналитикой.

– Сбор данных через API: Сегодня многие компании предоставляют API для доступа к данным, например, Twitter для получения информации о твитах или Google Maps для географических данных.

Независимо от метода сбора данных, важно соблюдать этические нормы и правовые аспекты, особенно в отношении конфиденциальности и защиты данных.

Подготовка данных к обучению

После сбора данных этап подготовки включает в себя несколько ключевых действий, от которых зависит качество вашей модели:

1. Очистка данных: На этом этапе убираются дубликаты, заполняются пропуски и удаляются выбросы. Пример кода для удаления дубликатов в DataFrame с помощью библиотеки Pandas:

.. python

.. import pandas as pd

.. df = pd.read_csv('data.csv')

.. df_cleaned = df.drop_duplicates()

.. 2. Преобразование данных: Это может включать в себя нормализацию или стандартизацию значений.

Скачать книгу