Термины и определения
В данной книге применяются следующие термины с соответствующими определениями:
Лемматизация (англ. lemmatization) – процесс приведения словоформы к ее словарной форме.
Партиционирование (англ. partitioning) – разделение больших таблиц (исходя из количества записей) в базе данных на маленькие.
Стемминг (англ. stemming) – процесс нахождения основы слова для заданного исходного слова.
Суммаризация (англ. summarization) – процесс выделения краткого содержимого из текста.
Токенизация (англ. tokenization) – процесс разделения текста на составляющие.
Naive Estimator – наивная оценка.
Twitter Topic Fuzzy Fingerprints – нечеткие отпечатки на основе тем сообщений в сети «Twitter».
Перечень сокращений и обозначений
В данной книге применяются следующие сокращения и обозначения:
БД – база данных.
API, АПИ (англ. Application Programming Interface) – аппаратно-программный интерфейс.
DNS (англ. Domain Name System) – система доменных имен.
FOAF (англ. Friend of a Friend) – спецификация для описания пользователя в социальных сетях.
HTML (англ. Hyper Text Markup Language) – язык гипертекстовой разметки.
JSON (англ. JavaScript Object Notation) – текстовый формат обмена данными, основанный на языке программирования JavaScript.
MNA (англ. Matrix-based News Analysis) – метод матричного анализа новостей.
MLE (англ. Maximum Likelihood Estimator) – подход оценки максимального правдоподобия.
MME (англ. Moment Matching Estimator) – метод определения вероятности изменения агрегированных данных.
NLP (англ. Natural Language Processing) – обработка естественного языка.
REST (англ. Representational State Transfer) – архитектурный стиль взаимодействия компонентов распределенного приложения в сети.
RSS (англ. Rich Site Summary) – обогащенная сводка сайта.
SVM (англ. Support Vector Machine) – метод опорных векторов.
TF-IDF (англ. Term Frequency – Inverse Document Frequency) – статистическая мера, используемая для оценки важности слова в контексте документа.
URL (англ. Uniform Resource Locator) – унифицированный указатель ресурса.
XML (англ. Extensible Markup Language) – расширяемый язык разметки.
YML (англ. Yandex Market Language) – стандарт передачи данных маркетплейса компании «Яндекс».
Предисловие
В этой книге представлены три мои статьи, объединенные одной темой: агрегация контента и его обработка. Данные статьи первоначально были опубликованы на английском языке в журнале из перечня ВАК «Программные системы и вычислительные методы» и использовались мной в дальнейшем в качестве основы при написании магистерской диссертации по программной инженерии на тему «Исследование методов построения архитектур агрегаторов информации в сети Интернет».
В текущий сборник вошел перевод этих статей, выполненный мной самим. К каждому из опубликованных переводов добавлена ссылка на оригинал, а также сохранена оригинальная аннотация на русском языке.
Статьи представлены в полном объеме, без сокращений. Кроме того, в приложении представлены архитектуры систем агрегации информации, дополняющие публикуемые статьи. Для того чтобы сделать иллюстрации читаемыми в черно-белой печати, мне пришлось в статье «Масштабируемая система агрегации, предназначенная для обработки 50 000 RSS-каналов» их переработать, заменив на черно-белые, без потери смысла.
Материал, представленный в данной книге, может быть полезен для студентов ИТ-специальностей, разработчиков ПО, ИТ-менеджеров, а также для широкого круга людей, интересующихся разработкой систем агрегации информации и построением сложных распределенных информационных систем.
Гибридная категориальная экспертная система для использования в агрегации контента
Перевод с английского
Ссылка на оригинальную статью: Kiryanov D. A. Hybrid categorical expert system for use in content aggregation // Software systems and computational methods. 2021. №4. С. 1—22. DOI: 10.7256/2454—0714.2021.4.37019
Аннотация
Предметом исследования является разработка архитектуры экспертной системы для распределенной системы агрегирования контента, основное предназначение которой – категоризация агрегированных данных.
Автор подробно рассматривает такие аспекты темы, как преимущества и недостатки экспертных систем, инструментарий разработки экспертных систем, классификация экспертных систем, а также рассматривает применение экспертных систем для решения проблем категоризации данных.
Особое внимание уделяется описанию архитектуры предложенной экспертной системы, которая состоит из компонента для фильтрации спама, компонента определения главной категории для каждого из типов обрабатываемого контента, а также компонентов для определения подкатегорий, один из которых основан на правилах доменной области, а другой компонент использует методы машинного обучения, дополняя