Вернуться к описанию книги
| Оглавление Предисловие авторов | 11 |
| Data Mining и перегрузка информацией | 13 |
Глава 1. Системы поддержки принятия решений | 15 |
| 1.1. Задачи систем поддержки принятия решений | 15 |
| 1.2. Базы данных — основа СППР | 18 |
| 1.3. Неэффективность использования OLTP-систем для анализа данных | 23 |
| Выводы | 28 |
Глава 2. Хранилище данных | 29 |
| 2.1. Концепция хранилища данных | 29 |
| 2.2. Организация ХД | 36 |
| 2.3. Очистка данных | 41 |
| 2.4. Концепция хранилища данных и анализ | 47 |
| Выводы | 47 |
Глава 3. OLAP-системы | 50 |
| 3.1. Многомерная модель данных | 50 |
| 3.2. Определение OLAP-систем | 54 |
| 3.3. Концептуальное многомерное представление | 55 |
| 3.3.1. Двенадцать правил Кодда | 55 |
| 3.3.2. Дополнительные правила Кодда | 56 |
| 3.3.3. Тест FASMI | 58 |
| 3.4. Архитектура OLAP-систем | 59 |
| 3.4.1. MOLAP | 60 |
| 3.4.2. ROLAP | 63 |
| 3.4.3. HOLAP | 66 |
| Выводы | 67 |
Глава 4. Интеллектуальный анализ данных | 68 |
| 4.1. Добыча данных — Data Mining | 68 |
| 4.2. Задачи Data Mining | 69 |
| 4.2.1. Классификация задач Data Mining | 69 |
| 4.2.2. Задача классификации и регрессии | 71 |
| 4.2.3. Задача поиска ассоциативных правил | 73 |
| 4.2.4. Задача кластеризации | 75 |
| 4.3. Практическое применение Data Mining | 77 |
| 4.3.1. Интернет-технологии | 77 |
| 4.3.2. Торговля | 77 |
| 4.3.3. Телекоммуникации | 78 |
| 4.3.4. Промышленное производство | 78 |
| 4.3.5. Медицина | 79 |
| 4.3.6. Банковское дело | 80 |
| 4.3.7. Страховой бизнес | 81 |
| 4.3.8. Другие области применения | 81 |
| 4.4. Модели Data Mining | 81 |
| 4.4.1. Предсказательные модели | 81 |
| 4.4.2. Описательные модели | 82 |
| 4.5. Методы Data Mining | 84 |
| 4.5.1. Базовые методы | 84 |
| 4.5.2. Нечеткая логика | 84 |
| 4.5.3. Генетические алгоритмы | 87 |
| 4.5.4. Нейронные сети | 89 |
| 4.6. Процесс обнаружения знаний | 90 |
| 4.6.1. Основные этапы анализа | 90 |
| 4.6.2. Подготовка исходных данных | 92 |
| 4.7. Управление знаниями (Knowledge Management) | 94 |
| 4.8. Средства Data Mining | 95 |
| Выводы | 100 |
Глава 5. Классификация и регрессия | 102 |
| 5.1. Постановка задачи | 102 |
| 5.2. Представление результатов | 103 |
| 5.2.1. Правила классификации | 103 |
| 5.2.2. Деревья решений | 104 |
| 5.2.3. Математические функции | 105 |
| 5.3. Методы построения правил классификации | 106 |
| 5.3.1. Алгоритм построения 1-правил | 106 |
| 5.3.2. Метод Naive Bayes | 108 |
| 5.4. Методы построения деревьев решений | 111 |
| 5.4.1. Методика "разделяй и властвуй" | 111 |
| 5.4.2. Алгоритм покрытия | 119 |
| 5.5. Методы построения математических функций | 124 |
| 5.5.1. Общий вид | 124 |
| 5.5.2. Линейные методы. Метод наименьших квадратов | 126 |
| 5.5.3. Нелинейные методы | 127 |
| 5.5.4. Support Vector Machines (SVM) | 128 |
| 5.5.5. Регуляризационные сети (Regularization Networks) | 131 |
| 5.5.6. Дискретизации и редкие сетки | 133 |
| 5.6. Прогнозирование временных рядов | 136 |
| 5.6.1. Постановка задачи | 136 |
| 5.6.2. Методы прогнозирования временных рядов | 136 |
| Выводы | 138 |
Глава 6. Поиск ассоциативных правил | 140 |
| 6.1. Постановка задачи | 140 |
| 6.1.1. Формальная постановка задачи | 140 |
| 6.1.2. Секвенциальный анализ | 143 |
| 6.1.3. Разновидности задачи поиска ассоциативных правил | 146 |
| 6.2. Представление результатов | 148 |
| 6.3. Алгоритмы | 152 |
| 6.3.1. Алгоритм Apriori | 152 |
| 6.3.2. Разновидности алгоритма Apriori | 157 |
| Выводы | 158 |
Глава 7. Кластеризация | 159 |
| 7.1. Постановка задачи кластеризации | 159 |
| 7.1.1. Формальная постановка задачи | 161 |
| 7.1.2. Меры близости, основанные на расстояниях, используемые в алгоритмах кластеризации | 163 |
| 7.2. Представление результатов | 165 |
| 7.3. Базовые алгоритмы кластеризации | 167 |
| 7.3.1. Классификация алгоритмов | 167 |
| 7.3.2. Иерархические алгоритмы | 168 |
| 7.3.3. Неиерархические алгоритмы | 171 |
| 7.4. Адаптивные методы кластеризации | 184 |
| 7.4.1. Выбор наилучшего решения и качество кластеризации | 184 |
| 7.4.2. Использование формальных критериев качества в адаптивной кластеризации | 184 |
| 7.4.3. Пример адаптивной кластеризации | 187 |
| Выводы | 190 |
Глава 8. Визуальный анализ данных — Visual Mining | 192 |
| 8.1. Выполнение визуального анализа данных | 192 |
| 8.2. Характеристики средств визуализации данных | 194 |
| 8.3. Методы визуализации | 199 |
| 8.3.1. Методы геометрических преобразований | 199 |
| 8.3.2. Отображение иконок | 203 |
| 8.3.3. Методы, ориентированные на пикселы | 205 |
| 8.3.4. Иерархические образы | 207 |
| Выводы | 209 |
Глава 9. Анализ текстовой информации — Text Mining | 211 |
| 9.1. Задача анализа текстов | 211 |
| 9.1.1. Этапы анализа текстов | 211 |
| 9.1.2. Предварительная обработка текста | 213 |
| 9.1.3. Задачи Text Mining | 214 |
| 9.2. Извлечение ключевых понятий из текста | 215 |
| 9.2.1. Общее описание процесса извлечения понятий из текста | 215 |
| 9.2.2. Стадия локального анализа | 218 |
| 9.2.3. Стадия интеграции и вывода понятий | 221 |
| 9.3. Классификация текстовых документов | 223 |
| 9.3.1. Описание задачи классификации текстов | 223 |
| 9.3.2. Методы классификации текстовых документов | 225 |
| 9.4. Методы кластеризации текстовых документов | 226 |
| 9.4.1. Представление текстовых документов | 226 |
| 9.4.2. Иерархические методы кластеризации текстов | 228 |
| 9.4.3. Бинарные методы кластеризации текстов | 230 |
| 9.5. Задача аннотирования текстов | 230 |
| 9.5.1. Выполнение аннотирования текстов | 230 |
| 9.5.2. Методы извлечения фрагментов для аннотации | 233 |
| 9.6. Средства анализа текстовой информации | 236 |
| 9.6.1. Средства Oracle — Oracle Text | 236 |
| 9.6.2. Средства от IBM — Intelligent Miner for Text | 237 |
| 9.6.3. Средства SAS Institute — Text Miner | 238 |
| 9.6.4. Средства Мегапьютер Интеллидженс — TextAnalyst | 239 |
| Выводы | 240 |
Глава 10. Стандарты Data Mining | 242 |
| 10.1. Кратко о стандартах | 242 |
| 10.2. Стандарт CWM | 242 |
| 10.2.1. Назначение стандарта CWM | 242 |
| 10.2.2. Структура и состав CWM | 244 |
| 10.2.3. Пакет Data Mining | 247 |
| 10.3. Стандарт CRISP | 251 |
| 10.3.1. Появление стандарта CRISP | 251 |
| 10.3.2. Структура стандарта CRISP | 251 |
| 10.3.3. Фазы и задачи стандарта CRISP | 253 |
| 10.4. Стандарт PMML | 258 |
| 10.5. Другие стандарты Data Mining | 264 |
| 10.5.1. Стандарт SQL/MM | 264 |
| 10.5.2. Стандарт Microsoft Data Mining eXtensions (DMX) | 266 |
| 10.5.3. Стандарт Java Data Mining | 267 |
| Выводы | 269 |
Глава 11. Библиотека Xelopes | 271 |
| 11.1. Архитектура библиотеки | 271 |
| 11.2. Диаграмма Model | 274 |
| 11.2.1. Классы модели для Xelopes | 274 |
| 11.2.2. Методы пакета Model | 276 |
| 11.2.3. Преобразование моделей | 277 |
| 11.3. Диаграмма Settings | 278 |
| 11.3.1. Классы пакета Settings | 278 |
| 11.3.2. Методы пакета Settings | 280 |
| 11.4. Диаграмма Attribute | 280 |
| 11.4.1. Классы пакета Attribute | 280 |
| 11.4.2. Иерархические атрибуты | 281 |
| 11.5. Диаграмма Algorithms | 282 |
| 11.5.1. Общая концепция | 282 |
| 11.5.2. Класс MiningAlgorithm | 283 |
| 11.5.3. Расширение класса MiningAlgorithm | 284 |
| 11.5.4. Дополнительные классы | 286 |
| 11.5.5. Слушатели | 286 |
| 11.6. Диаграмма DataAccess | 286 |
| 11.6.1. Общая концепция | 287 |
| 11.6.2. Класс MiningInputStream | 288 |
| 11.6.3. Классы Mining-векторов | 288 |
| 11.6.4. Классы, расширяющие класс MiningInputStream | 288 |
| 11.7. Диаграмма Transformation | 289 |
| 11.8. Примеры использования библиотеки Xelopes | 291 |
| 11.8.1. Общая концепция | 291 |
| 11.8.2. Решение задачи поиска ассоциативных правил | 294 |
| 11.8.3. Решение задачи кластеризации | 296 |
| 11.8.4. Решение задачи классификации | 298 |
| Выводы | 301 |
Глава 12. Распределенный анализ данных | 303 |
| 12.1. Системы мобильных агентов | 303 |
| 12.1.1. Основные понятия | 303 |
| 12.1.2. Стандарты многоагентных систем | 304 |
| 12.1.3. Системы мобильных агентов | 307 |
| 12.1.4. Система мобильных агентов JADE | 307 |
| 12.2. Использование мобильных агентов для анализа данных | 309 |
| 12.2.1. Проблемы распределенного анализа данных | 309 |
| 12.2.2. Агенты-аналитики | 309 |
| 12.2.3. Варианты анализа распределенных данных | 311 |
| 12.3. Система анализа распределенных данных | 313 |
| 12.3.1. Общий подход к реализации системы | 313 |
| 12.3.2. Агент для сбора информации о базе данных | 314 |
| 12.3.3. Агент для сбора статистической информации о данных | 317 |
| 12.3.4. Агент для решения одной задачи интеллектуального анализа данных | 320 |
| 12.3.5. Агент для решения интегрированной задачи интеллектуального анализа данных | 323 |
| Выводы | 324 |
Глава 13. Data Mining в реальном времени (Real-Time Data Mining) | 325 |
| 13.1. Идея Data Mining в реальном времени | 325 |
| 13.1.1. Адаптация системы к общей концепции | 325 |
| 13.1.2. Адаптивная добыча данных | 326 |
| 13.1.3. Статический Data Mining и Data Mining в реальном времени | 328 |
| 13.1.4. Применение Data Mining в реальном времени | 329 |
| 13.2. Рекомендательные машины | 330 |
| 13.2.1. Классификация рекомендательных машин | 330 |
| 13.2.2. Подход на основе содержания | 331 |
| 13.2.3. Совместное фильтрование | 331 |
| 13.2.4. Анализ рыночной корзины и секвенциальный анализ | 335 |
| 13.2.5. Усиление обучения и агенты | 335 |
| 13.3. Инструменты Data Mining в реальном времени | 345 |
| 13.3.1. Инструмент Amazon.com — механизм рекомендаций | 345 |
| 13.3.2. Инструмент Prudsys — рекомендательная машина Prudsys | 345 |
| 13.3.3. Приложение с открытым кодом — SpamAssassin | 348 |
| Выводы | 349 |
Глава 14. Извлечение знаний из Web — Web Mining | 350 |
| 14.1. Web Mining | 350 |
| 14.1.1. Проблемы анализа информации из Web | 350 |
| 14.1.2. Этапы Web Mining | 351 |
| 14.1.3. Web Mining и другие интернет-технологии | 352 |
| 14.1.4. Категории Web Mining | 353 |
| 14.2. Методы извлечения Web-контента | 356 |
| 14.2.1. Извлечение Web-контента в процессе информационного поиска | 356 |
| 14.2.2. Извлечение Web-контента для формирования баз данных | 363 |
| 14.3. Извлечение Web-структур | 365 |
| 14.3.1. Представление Web-структур | 365 |
| 14.3.2. Оценка важности Web-структур | 366 |
| 14.3.3. Поиск Web-документов с учетом гиперссылок | 370 |
| 14.3.3. Кластеризация Web-структур | 371 |
| 14.4. Исследование использования Web-ресурсов | 372 |
| 14.4.1. Исследуемая информация | 372 |
| 14.4.2. Этап препроцессинга | 375 |
| 14.4.3. Этап извлечения шаблонов | 377 |
| 14.4.4. Этап анализа шаблонов и их применение | 379 |
| Выводы | 381 |
Глава 15. Средства анализа процессов — Process Mining | 382 |
| 15.1. Автоматизация выполнения бизнес-процессов | 382 |
| 15.1.1. Бизнес-процессы | 382 |
| 15.1.2. Формализация бизнес-процессов | 384 |
| 15.1.3. Workflow-системы | 386 |
| 15.1.4. Сервисно-ориентированная архитектура | 387 |
| 15.1.5. Проектирование бизнес-процессов | 389 |
| 15.2. Анализ процессов | 389 |
| 15.2.1. Технология Process Mining | 389 |
| 15.2.2. Анализ протоколов | 391 |
| 15.2.3. Стандарт записи протоколов MXML | 393 |
| 15.2.4. Задачи Process Mining | 395 |
| 15.2.5. Проблемы анализа протоколов | 396 |
| 15.3. Методы Process Mining | 398 |
| 15.3.1. Первые вероятностные методы Process Mining | 398 |
| 15.3.2. Метод построения дизъюнктивной Workflow-схемы | 404 |
| 15.3.3. ?-алгоритм | 415 |
| 15.3.4. Методы на основе генетических алгоритмов | 428 |
| 15.4. Библиотека алгоритмов Process Mining — ProM | 432 |
| 15.4.1. Архитектура ProM | 432 |
| 15.4.2. ProM Import Framework | 434 |
| Выводы | 436 |
| ПРИЛОЖЕНИЯ | 439 |
| Приложение 1. Нейронечеткие системы | 441 |
| П1.1. Способы интеграции нечетких и нейронных систем | 441 |
| П1.2. Нечеткие нейроны | 445 |
| П1.3. Обучение методами спуска | 447 |
| П1.4. Нечеткие схемы рассуждений | 448 |
| П1.5. Настройка нечетких параметров управления с помощью нейронных сетей | 454 |
| П1.6. Нейронечеткие классификаторы | 461 |
| Приложение 2. Особенности и эффективность генетических алгоритмов | 467 |
| П2.1. Методы оптимизации комбинаторных задач различной степени сложности | 467 |
| П2.2. Сущность и классификация эволюционных алгоритмов | 472 |
| П2.2.1. Базовый генетический алгоритм | 472 |
| П2.2.2. Последовательные модификации базового генетического алгоритма | 473 |
| П2.2.3. Параллельные модификации базового генетического алгоритма | 475 |
| П2.3. Классификация генетических алгоритмов | 478 |
| П2.4. Особенности генетических алгоритмов, предпосылки для адаптации | 479 |
| П2.5. Классификация адаптивных ГА | 482 |
| П2.5.1. Основа адаптации | 482 |
| П2.5.2. Область адаптации | 484 |
| П2.5.3. Основа управления адаптацией | 486 |
| П2.6. Двунаправленная интеграция ГА и нечетких алгоритмов продукционного типа | 487 |
| Приложение 3. Описание прилагаемого компакт-диска | 494 |
| Список литературы | 497 |
| Предметный указатель | 509 |
* Цены приведены для магазина "Новая техническая книга" (Санкт-Петербург, Измайловский пр., д. 29).