Использование компонентов Data Mining в продуктах Office 2007. Часть 3

Источник: spellabs
Максим Гончаров

Клиент Data Mining для Excel

Клиент Data Mining для Excel позволит вам провести полный цикл интеллектуального анализа данных посредством клиента Excel с использованием данных электронных таблиц или внешнего источника, доступного базе данных Analysis Services.

Если вы установили клиент для Data Mining, вы увидите панель инструментов Data Mining:

Рисунок 9 Панель инструментов клиента Data Mining для Excel 2007.
 

Организация слева направо и группировка кнопок на панели инструментов отражает типичный порядок выполнения задач в проекте анализа данных. Каждая секция подробно описана ниже.

Подготовка данных

Задача выбора правильных атрибутов из источника данных и представление их в правильном формате занимает высокий процент времени в процессе построения аналитических моделей. Эта секция предоставляет инструменты для основных задач подготовки данных до начала их углубленного анализа.

  1. Исследование данных - служит для построения графика распределения дискретных и непрерывных переменных, а также для добавления группировок в исходные данные.
  2. Очистка данных - служит для удаления выбросов и для изменения значений меток дискретных данных (например, если исходные данные содержат значения "M" и "F" в колонке пола, а вы предпочитаете видеть эти значения как "мужской" и "женский" для ясности презентации результатов).
  3. Секционирование данных - служит для разбиения исходных данных на обучающее и тестовое множество посредством случайных выборок исходных данных.

Ниже приведен снимок экрана, изображающий как вы можете удалить значения ниже заданного значения:

Рисунок 10 Очистка данных.

Построение моделей

Эта секция предназначена для создания и обработки моделей анализа данных. Она предоставляет мастера, которые помогают вам построить распространенные типы моделей Data Mining без необходимости разбираться в соответствующих алгоритмах и связанных с ними параметров, которые выполняются на сервере. Также, в этой секции есть возможности, позволяющие пользователю выбрать конкретный алгоритм и настроить дополнительные параметры.

Ниже приведена страница из мастера ассоциативных правил, служащая для нахождения ассоциаций в транзакционных данных:

Рисунок 11 Мастер ассоциативных правил.

Точность и проверки

Эта секция содержит вызов графиков для валидации и тестирования точности моделей анализа данных.

  1. График точности - график точности результатов модели по сравнению с тестовыми данными, представляется в виде диаграмм роста (lift chart) для моделей классификации или в виде диаграмм рассеяния (scatter plot) для регрессионных моделей.
  2. Классификационная матрица - таблица правильных и неправильных результатов классификации на основании известных результатов тестовых данных.
  3. Диаграмма прибыли - графическое моделирование прибыли для запланированных кампаний на основе заданных пользователем параметров издержек.

Ниже приведен график точности, сформированный клиентом анализа данных в Excel, изображающий типичную модель, точность прогноза которой находится между случайным выбором и идеальной моделью:

Рисунок 12 график точности, сформированный клиентом анализа данных в Excel 2007.
 
Читать часть 4
 

Страница сайта http://www.interface.ru
Оригинал находится по адресу http://www.interface.ru/home.asp?artId=20706