Поиск по сайту:

Смотри также:

Расчет резонансного усилителя. - Лабораторная.

Методика поиска неисправностей - Лабораторная.

Применение деревьев классификации в решении задач интеллектуального анализа данных (ИАД) средствами интегрированной системы Statistica - Лабораторная.

Генератор прямоугольных импульсов напряжения с постоянной составляющей - Лабораторная.

Все новинки...

Главная » Лабораторные работы » Применение деревьев классификации в решении задач интеллектуального анализа данных (ИАД) средствами интегрированной системы Statistica

Лабораторная «Применение деревьев классификации в решении задач интеллектуального анализа данных (ИАД) средствами интегрированной системы Statistica»

Где сдавалась работа	БФ НГТУ

Файл: 4 КБ

5. Вопросы к лабораторной работе

1. Для решения каких задач интеллектуального анализа данных используются деревья классификации? Приведите примеры.

- прогнозирование (регрессионного анализа и временных рядов);

- задачи кластеризации;

- задачи классификации (дисперсионный анализ).

2. Понятие дерева классификации и его свойства.

Дерево решений - это способ представления правил в иерархической, последовательной структуре.

Иерархическое строение дерева классификации - одно из наиболее важных его свойств.

Представьте, что вам нужно придумать устройство, которое отсортирует коллекцию монет по их достоинству (например, 1, 2, 3 и 5 копеек). Предположим, что какое-то из измерений монет, например - диаметр, известен и, поэтому, может быть использован для построения иерархического устройства сортировки монет. Заставим монеты катиться по узкому желобу, в котором прорезана щель размером с однокопеечную монету. Если монета провалилась в щель, то это 1 копейка; в противном случае она продолжает катиться дальше по желобу и натыкается на щель для двухкопеечной монеты; если она туда провалится, то это 2 копейки, если нет (значит это 3 или 5 копеек) - покатится дальше, и так далее.

3. Методологические этапы построения деревьев классификации.

1) выбор критерия точности прогноза;

2) выбор типа ветвления;

3) определение момента прекращения ветвления;

4) определение оптимальных размеров дерева

4. Какие показатели точности и сложности дерева классификации вы знаете?

критерий точности - минимум потерь

критерий сложности: количество вершин, листьев, глубина, длина пути

5. Понятия: цена ошибки классификации; априорная вероятность попадания объектов в класс.

Цена ошибки - плата за неверно классифицированный объект.

Априорная вероятность - задается до исследования - это вероятность попадания объекта в тот или иной класс.

Вес наблюдения - каждому наблюдению приписывается вес в зависимости от его значимости.

6. Как рассчитывается цена ошибки классификации в случае одинаковых априорных вероятностей попадания объектов в заданные классы, в случае разных?

Ошибка рассчитывается как отношение объектов, неправильно классифицированных, к общему количеству объектов набора данных.

7. Алгоритм метода CART построения дерева. Какие критерии согласия используются в этом методе? Как рассчитывается мера Джини однородности вершины?

CART - полный перебор деревьев с одномерным ветвлением. Суть CART: Проводится ветвление по каждой переменной и находится тот вариант, который дает наибольший рост критерия согласия.

В модуле Деревья классификации доступны три способа измерения критерия согласия:

- Мера Джини однородности вершины принимает нулевое значение, когда в данной вершине имеется всего один класс (если используются априорные вероятности, оцененные по размерам классов или исходя из одинаковой цены ошибок классификации, то мера Джини вычисляется как сумма всех попарных произведений относительных размеров классов, представленных в данной вершине)

- мера Хи-квадрат Бартлетта.

- мера G-квадрат measure.

8. Понятие правила останова. Какие правила останова реализованы в пакете Statistica?

Понятие останова - выбор момента, когда следует прекратить дальнейшие ветвления.

2 правила останова:

1) число неклассифицированных. Ветвление до тех пор, пока все вершины не окажутся чистыми (содержит только наблюдение 1 класса) или будет содержать не больше заданного числа объектов из других классов.

2) задается доля (%) неверно классифицированных.

9. В каких случаях используются кросс-проверка, V-кратная кросс-проверка, глобальная кросс-проверка для определения прогнозной способности дерева решений, в чем особенности каждой из этих процедур?

- Кросс-проверка на тестовой выборке. Дерево строится по обучающей выборке, а его способность к прогнозированию на тестовой.

- V-кратная кросс-проверка. Используется, когда нет отдельной тестовой выборки.

Этот вид кросс-проверки разумно использовать в случаях, когда в нашем распоряжении нет отдельной тестовой выборки, а обучающее множество слишком мало для того, чтобы из него выделять тестовую выборку. Задаваемое пользователем значение V (значение по умолчанию равно 3) определяет число случайных подвыборок - по возможности одинакового объема, - которые формируются из обучающей выборки. Дерево классификации нужного размера строится V раз, причем каждый раз поочередно одна из подвыборок не используется в его построении, но затем используется как тестовая выборка для кросс-проверки.

- Глобальная кросс-проверка. Отличие в алгоритме формирования подвыборки (они генерируются случайным образом).

10. Алгоритм работы процедуры автоматического выбора оптимального усеченного дерева решений.

Выбирается дерево из последовательности с близкой к минимальной ценой кросс-проверки, если таких деревьев несколько, то действует правило, выбирается наименьшее дерево из тех, чьи цены кросс-проверки не превосходят минимальной цены кросс-проверки плюс стандартная ошибка цены кросс-проверки для дерева с минимальной ценой кросс-проверки.

11. Как оценить эффективность работы процедуры "автоматического" выбора дерева по результатам глобальной кросс-проверки?

Если цена глобальной кросс-проверки превышает цену кросс-проверки выбранного дерева, то получено не устойчивое решение (дерево).

12. В каких случаях предпочтительнее использовать деревья классификации, в каких случаях алгоритмы линейного дискриминантного анализа?

Наглядность и простота;

Можно использовать как качественные, так и количественные параметры;

Не требует никаких априорных допущений о природе данных;

Если переменная класса и классификационные признаки не связаны линейной зависимостью, то дискриминантный анализ даст плохие результаты.

Многие классические статистические методы, при помощи которых решаются задачи классификации, могут работать только с числовыми данными, в то время как деревья решений работают и с числовыми, и с категориальными типами данных.

Многие статистические методы являются параметрическими, и пользователь должен заранее владеть определенной информацией, например, знать вид модели, иметь гипотезу о виде зависимости между переменными, предполагать, какой вид распределения имеют данные. Деревья решений, в отличие от таких методов, строят непараметрические модели. Деревья решений способны решать такие задачи, в которых отсутствует априорная информация о виде зависимости между исследуемыми данными.

13. Алгоритм решения задачи классификации на основе деревьев решений в системе Statistica.

Литература

1. Бериков В.Б. Анализ статистических данных с использованием деревьев решений: Учебное пособие. - Новосибирск. Изд-во НГТУ, 2002. - 60 с.

2. Боровиков В.П. Statistica. Искусство анализа данных на компьютере: Для профессионалов. 2-е изд. - СПб.: Питер, 2003. - 688 с.

3. Боровиков В.П., Боровиков И.П. Statistica - Статистический анализ и обработка данных в среде Windows. - М.: "Филин", 1997. - 608 с.

4. Электронный учебник StatSoft по анализу данных.