Oracle Data Mining - поиск скрытых закономерностей - Прудывус Игорь
←
→
Транскрипция содержимого страницы
Если ваш браузер не отображает страницу правильно, пожалуйста, читайте содержимое страницы ниже
Успех зависит от способности проанализировать, понять, и представить будущее развитие событий и предпринять необходимые шаги для достижения желаемой цели. Предвидение позволяет подготовить план действий, заранее выделив необходимые ресурсы. Это позволит удачно использовать момент времени, нейтрализовать угрозы и минимизировать риски. Введение БА, OLAP, РАД Данные Методологии Методы 2
План Введение БА, OLAP, РАД От чистых к полезным данным Методология РАД Методы Инструменты Oracle DM Примеры Введение БА, OLAP, РАД Данные Методологии Методы 3
Данные, данные и еще раз данные ... Текущая ситуация: – большинство предприятий накапливает большое количество информации Какова причина складирования данных? – снижение стоимости систем хранения – увеличение производительности процессоров – надежность и скорость передачи данных Введение БА, OLAP, РАД Данные Введение Методологии Методы 4
Проблема Складирование Увеличение знания большого объема данных Неспособность обрабатывать Отсутствие знания Традиционные техники анализа или Технология настоящего хранения Парадокс Чем больше данных, Введение БА, темOLAP, меньше РАД знаний Данные Введение Методологии Методы 5
Извлечение знаний Знание Бóльшая часть информации в БД (~ 80%) Очевидное Легкое извлечение средствами стандартного SQL Доступ к многомерным данным Многомерное n–мерность vs. одномерности Извлечение средствами OLAP Очень ценная, но незнакомая информация Скрытое Доступ посредством средств Data Mining Введение БА, OLAP, РАД Данные Введение Методологии Методы 6
БА, OLAP, РАД БА OLAP РАД Извлечение Итоги, тенденции, Новое знание о исторических и предсказания скрытых накопленных закономерностях данных Анализ Понимание и Информация Предсказание Какова средняя стоимость товара? Кто приобретет в зависимости от Кто приобрел товар в региона, года? товар? следующие Введение БА, OLAP, РАД Данные 3 мес.? БА,Методологии OLAP, РАД Методы 7
OLAP и РАД OLAP РАД Вид анализа управляемый управляемый пользователем системой (пользователь выдвигает (система сама выявляет связи гипотезу. Анализ ограничен между данными) ранее определенными размерностями) Тип дедуктивный индуктивный размышления (выдвижение начальное (определение данных, гипотезы с последующей ее соответствующих полученной проверкой) модели данных) Данные агрегированные индивидуальный для работы (получение общего (определение шаблонов представления о проблеме) данных для последующей Введение БА, OLAP, РАД Данные работы с ними) БА,Методологии OLAP, РАД Методы 8
Задачи, решаемые РАД Реклама и продвижение товара – Какова эффективность рекламы? Перекрестные продажи – Какие продукты покупатель готов дополнительно приобрести? Обнаружение мошенничества – Правильные ли сведения были поданы? Удержание клиента – Какие клиенты готовы разорвать договор? Управление рисками – Выдавать ли кредит данному заемщику? Сегментирование потребителей Введение – Какой «портрет»БА, OLAP, РАД потребителя, Данные счета? не оплачивающего ... БА,Методологии OLAP, РАД Методы 9
Области использования Традиционные: – финансовые организации – торговля – медицина – страхование – телекоммуникации Новые: – органы управления – спорт – СМИ – ЖКХ Введение – ... БА, OLAP, РАД Данные Методологии БА, OLAP, РАД Методы 10
Пирамида знания Инновации Знание Познание Данные Введение БА, OLAP, РАД Данные Методологии Данные Методы 11
Пирамида знания Введение 3.5 км в диаметре, 1.5БА, OLAP, км глубиной РАД 22 млн. Данные т породы 3 тыс. т алмазов Методологии Данные Методы 12
Определение Разведочный анализ данных (Data Mining) — использование подходов автоматического и полуавтоматического анализа данных для выявления ранее неизвестных закономерностей, связей, тенденций. Другое определение: Введение БА, OLAP, РАД Данные Методологии Данные Методы 13
Определение РАД Введение БА, OLAP, РАД Данные Методологии Данные Методы 14
Этапы РАД Понять доступные данные Осмысление бизнес Подготовить проблем данные Применить Построить модель модель Проверка модели Введение БА, OLAP, РАД Данные Методологии Данные Методы 15
Этапы анализа Новое качество, обоснованность выбора Использование модели Рафинирование данных Построение и проверка модели Извлечение и подготовка данных Определение бизнес-проблемы Введение БА, OLAP, РАД Данные Методологии Данные Методы 16
Извлечение и подготовка данных Новое качество, обоснованность Данные для последующего анализа выбора Преобразование Использование Очистка данных модели Визуализация Построение и проверка модели Загрузка данных Извлечение и подготовка данных Введение БА, OLAP, РАД Данные Определение бизнес- проблемы Методологии Данные Методы 17
От чистых к полезным данным Новое качество, Количество атрибутов, записей, обоснованность выбора количество уровней атрибута или его Использование модели распределение Проблемы: Построение и – редкие события — проверка модели отдельный класс или случайность? – пропуски значений — частота? зависят от других? заполнять? Извлечение и – информативность подготовка данных – интерпретация NULL – денормализация — получение функциональных зависимостей атрибутов — ложное Введение БА, OLAP, РАД Данные Определение бизнес- обнаружение скрытых «зависимостей» проблемы Методологии Данные Методы 18
Извлечение и подготовка Новое качество, данных Типы атрибутов: обоснованность выбора – числовые 1, 1.4, 34.2, 18.9, ... Разница (34.2 – 18.9 = 15.3) и Использование модели – качественные: отношение (34.2 / 8.9 = 3.8) • порядковые слабо, = сильно средне, имеют смысл – • номинальные Имеет смысл только красное, зеленое, белое Построение и проверка модели отношение: средне > слабо Создание новых атрибутов Извлечение и Группирование данных = { Нормализация, определение подготовка данных до 12 лет — дети, выбросов, замещение до 18 лет — подростки, ... Введение БА, OLAP, РАД Данные Определение бизнес- проблемы Методологии Данные Методы 19
Построение и проверка модели Новое качество, обоснованность Использование модели выбора Результат, проверка модели -7.0 -6.5 -6.0 -5.5 таблица соотв. ROC 1 pSYMPT < 0.001 AUC 1.0 + — £Agree >Agree 0.8 3 PB p = 0.012 Использование KS pcr = 0.150 0.4 0.6 Sensitivity + ++ +― £8 >8 Sens: 66.7% Node 2 (n = 113) Node 4 (n = 208) Node 5 (n = 91) Spec: 84.5% модели PV+: 63.4% PV-: 1 1 1 0.8 0.8 0.8 GINI 86.3% Variable est. (s.e.) 0.6 0.6 0.6 0.2 ― ―+ ―― (Intercept) -1.897 (0.307) 0.4 test 5.686 (1.468) 0.4 0.4 Model: pcr ~ pcr$ÏÖÐ0 -2 0.2 -1 0 0.2 1 0.2 2 0.0 Area under the curve: 0.781 0 0 0 NeverOver a Year NeverOver a Year NeverOver a Year 0.0 0.2 0.4 0.6 0.8 1.0 1-Specificity Построение и проверка модели Выбор модели тестовая обучающая Извлечение и подготовка данных Кросс- проверка Введение БА, OLAP,Данные РАДдля анализа Данные Определение бизнес- проблемы Методологии Данные Методы 20
Построение и проверка модели Модель — абстракция, отображающая реальный мир, свертка данных, лежащих в ее основе Модель — не абсолют. Продукт статистической обработки. Точность оценки Сколь привлекательной модель бы не выглядела, она бессмысленна без адекватной ее проверки и оценки корректности Модель всегда ограничена Введение БА, OLAP, РАД Данные Методологии Данные Методы 21
Построение и проверка модели Выбор модели может зависеть он анализируемого атрибута (SVM — числовые, ассоциативные связи — качественные) или поведение алгоритма может зависеть от типа атрибута (CART) Параметры модели могут включаться в саму модель (Naїve Bayes) Цель, а также характер данных определяют выбор модели Введение БА, OLAP, РАД Данные Методологии Данные Методы 22
Использование модели Новое качество, обоснованность выбора Использование модели – ? Построение и проверка модели + Извлечение и подготовка данных Интерпретация модели Введение БА, OLAP, РАД Данные Определение бизнес- проблемы Использование модели Методологии Данные Методы 23
Использование модели Модель может применяться только к данным, подобным обучающей выборке: – тот же набор атрибутов, что и в модели – то же распределение, что и в обучающей выборке Периодическая проверка соответствия Введение БА, OLAP, РАД Данные Методологии Данные Методы 24
Методологии РАД Предпосылки: – высокая цена развития проекта РАД (персонал, консультации, эксперты) – информация обычно имеет неосновательность (шум, отсутствие данных, ...) – очень высокое количество связей между данными – требование единых подходов Решение — использование структурированной методологии РАД Методологии РАД: – CRISP-DM (CRoss-Industry Standard Process for Data Mining — обобщенный стандартный процесс разведочного анализа данных) – SEMMA (Sample, Explore, Modify, Model and Assess — извлечение, исследование, преобразование, моделирование и использование) – CRITIKAL (Client-server Rule Induction Technology for Industrial Knowledge Acquisition from Large databases — технология извлечения индустриальных знаний из больших БД на основе правил) ё Введение БА, OLAP, РАД Данные Методологии МетодологияМетоды 25
Методология CRISP-DM CRISP-DM — CRoss-Industry Standard Process for Анализ Data Mining данных Анализ проблемы Подготовка данных данные Использо- Модели- вание рование Оценка Введение БА, OLAP, РАД Данные Методологии МетодологияМетоды 26
Методология SEMMA Выборка Отбор данных Визуализация Кластеры, Факторы, Изучение данных Соответствие Выбор переменных, Преобразование Изменение создание новых данных Моделирование Логистические Др. статистические Нейронные сети Деревья решений модели методы Интерпретация результата Оценка модели SEMMA — Sample, Explore, Modify, Model and Assess. Введение БА, OLAP, РАД Данные Логическая организация функциональных средств SAS Enterprise Miner для задач РАД Методологии МетодологияМетоды 27
Методология CRITIKAL Данные Результат Интер- Мони- Опреде- Иссле- Преобра- Распре- Выборка Очистка пре- ториро- ление дование зование деление тация вание CRITIKAL — Client-server Rule Induction Technology for Industrial Knowledge Acquisition from Large databases Введение БА, OLAP, РАД Данные Методологии МетодологияМетоды 28
Методы РАД Введение БА, OLAP, РАД Данные Методологии Методы Методы 29
Методы РАД «Обучение учителем» – аналитик должен определить целевые атрибуты (зависимые переменные) – алгоритмы обрабатывают данные в поисках сочетаний значений независимых переменных (предикторов), при которых происходит разделение целевых атрибутов на классы «Обучение без учителя» – пользователь не определяет целевые атрибуты – алгоритмы поиска ассоциаций и кластеров формируют результат вне зависимости от исходных Введение предпосылок БА, OLAP, РАД Данные Методологии Методы Методы 30
Алгоритмы Классификация – логистическая регрессия (GLM) – naїve Bayes – SVM – деревья решений Регрессия – множественная регрессия – SVM Значимые атрибуты – принцип минимальной длины Введение БА, OLAP, РАД Данные Методологии Методы Методы 31
Алгоритмы Определение выбросов – SVM с одним классом Кластеризация – расширенный алгоритм k-средних – O-кластер Ассоциация – Apriori Извлечение свойств – Non-negative Matrix Factorization (NFM) Введение БА, OLAP, РАД Данные Методологии Методы Методы 32
Naїв Bayes Основывается на теореме Байеса об условной вероятности Пригоден как для бинарных, так и для многоуровневых атрибутов После построения модели ее можно использовать для прогнозирования Поддержка кросс-проверки позволяет оценить точность модели Введение БА, OLAP, РАД Данные Методологии Методы Методы 33
Деревья решений Используется алгоритм классификации деревьев Результат — надежность, поддержка, условия разделения (если , то вероятность события = , поддержка = ) Введение БА, OLAP, РАД Данные Методологии Методы Методы 34
Деревья решений 1 SYMPT p < 0.001 ≤ Agree > Agree 3 PB p = 0.012 ≤8 >8 Node 2 (n = 113) Node 4 (n = 208) Node 5 (n = 91) 1 1 1 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0 0 0 Введение никогда < 1 г. БА, OLAP, никогда < 1 РАД > 1 г. г. > 1 г. Данные никогда < 1 г. > 1 г. Методологии Методы Методы 35
Деревья решений Рекомендации по оперированию астигматизма астигматизм астигматизм?? нет да возраст возраст?? миопия миопия?? < 25 > 50 6 > 25 & < 50 нет нет да нет миопия миопия?? < 1,5 > 10 > 1,5 & < 10 нет нет Введение БА, OLAP, РАД Данные да Методологии Методы Методы 36
SVM Мощный современный алгоритм со строгим математическим обоснованием Работает с очень большим количеством предикторов при относительно небольшом количестве объектов Целевые атрибуты могут быть непрерывными (регрессия), двоичными или многоуровневыми Низкие требования к памяти Введение БА, OLAP, РАД Данные Методологии Методы Методы 37
SVM x3 Определяется x гиперплоскость в r пространстве параметров r Коэффициенты w и смещение b r ⋅x w r +b b Прогнозирование: r r r rw f = sign( w ⋅ x + b = 0 ) =0 w x2 Введение xБА, OLAP, РАД Данные 1 Методологии Методы Методы 38
SVM векторá поддержки Максимальное разделение классов Многомерность Sparse solution Единый глобальный минимум Разумное время ξ нахождения решения ξ Введение БА, OLAP, РАД Данные Методологии Методы Методы 39
SVM Регрессия Определение выбросов ξ ε ξˆ ε — функция потерь Типичное — выбросы ∑ 1 Разделение известного и L p (w ) = w ⋅ w + C (ξ k + ξˆ k ) Введение2 БА, OLAP, РАД Данные выпадающего Методологии Методы Методы 40
Регрессионный анализ Реализация многоцелевой классической общей линейной модели (GLM) Бинарная логистическая регрессия и многофакторная регрессия Мощные средства оценки качества модели Оценка доверительных интервалов прогностических значений Использование сотен предикторов Введение БА, OLAP, РАД Данные Методологии Методы Методы 41
Значимые атрибуты Определение атрибутов, имеющих наибольшее влияние на целевые атрибуты Часто первичный анализ при использовании других моделей Введение БА, OLAP, РАД Данные Методологии Методы Методы 42
Кластерный анализ Методы: – Расширенный алгоритм k-средних – O-кластер Разделение БД на подмножества, так что внутри подгруппы различия между отдельными объектами меньше, чем между разными подгруппами Введение БА, OLAP, РАД Данные Методологии Методы Методы 43
Кластерный анализ Используется в маркетинге (группы населения с одними и теми же характеристиками), медицина (пациенты с тем же беспокойством), управлении персоналом и т.д. Отличается с классификацией, поскольку не используется обучение Введение БА, OLAP, РАД Данные Методологии Методы Методы 44
Ассоциативный анализ Используется в маркетинге (группы населения с одними и теми же характеристиками), медицина (пациенты с тем же беспокойством), управлении персоналом и т.д. Разделение БД на подмножества, так что внутри подгруппы различия между отдельными объектами меньше, чем между разными подгруппами Отличается от классификации, поскольку не Введение использует обучение БА, OLAP, РАД Данные Методологии Методы Методы 45
Текстовый анализ Изучение текста и извлечение из него информации без каких-либо начальных установок Определение подразумеваемого смысла Введение БА, OLAP, РАД Данные Методологии Методы Методы 46
Инструменты РАД Составные части статистических пакетов – SAS® Enterprise Miner™ – IBM SPSS Modeler (ранее Clementine®) – TIBCO Spotfire Miner (Insightful Miner) Составные части БД — Oracle® Специально созданные пакеты, инструментальные среды РАД – Portrait Software – Angoss Software – KXEN – Weka – Salford Systems CART®, MARS®, TreeNet™, LOGIT – Megaputer PolyAnalyst – Fujitsu GhostMiner Введение БА, OLAP, РАД Данные Методологии Методы Инструменты 47
Положение на рынке претенденты сильные лидеры сильное предложение слабое слабая стратегия сильная ВведениеThe ForesterБА, OLAP, Wave™: PredictiveРАД Данные Analytics and Data Mining Solutions, Q1 2010 Методологии Методы Инструменты 48
Статистические функции БД Oracle® Ранжирование Описательная статистика – rank, dense_rank, cume_dist, – среднее, стд. отклонение, дисперсия, percent_rank, ntile min, max, медиана, мода Агрегирование – DBMS_STAT_FUNCS: описательная – Avg, sum, min, max, count, variance, статистика по числовым колонкам stddev, first_value, last_value Корреляции Корреляция и регрессия – Пирсона, Спирмана, Кендалла – Correlation, linear regression family, Кросс-табуляции covariance – χ2, φ, V Крамера, коэффициента Линейная регрессия сопряженности, λ Кохена – МНК. Hypothesis Testing – COVAR_POP, COVAR_SAMP, and – тест Стьюдента, Фишера, CORR functions. биноминальный, Уилкоксона, χ2, Соответствие распределениям Манна-Уитни, Колмогорова- Смирнова, дисперсионный анализ – тесты Колмогорова-Смирнова, Андерсона-Дарлинга, хи-квадрат, Гаусса, Вейбула, экспоненциальный Введение БА, OLAP, РАД Данные Методологии Методы Oracle DM 49
Oracle Data Miner Введение БА, OLAP, РАД Данные Методологии Методы Oracle DM 50
Oracle Data Miner Введение БА, OLAP, РАД Данные Методологии Методы Oracle DM 51
Oracle Data Miner Введение БА, OLAP, РАД Данные Методологии Методы Oracle DM 52
Интеграция с приложениями Oracle РАД — естественное расширение функционала БД Oracle Перенос аналитики к данным Модели хранятся вместе с данными Надежное и защищенное хранение Для разработчиков: – PL/SQL интерфейс: • DBMS_DATA_MINING • DBMS_MINING_TRANSFORM – Java API на принципах JDM – генерирование готового Введение кода средствами БА, OLAP, РАД ДанныеOracle Data Miner Методологии Методы Oracle DM 53
Запросы с функциями статистики и РАД SELECT substr(cust_income_level,1,22) income_level, avg(decode(cust_gender,'M',amount_sold,null)) m_solded, avg(decode(cust_gender,'F',amount_sold,null)) f_solded, stats_t_test_indep(cust_gender, amount_sold, 'STATISTIC','F') t_observed, stats_t_test_indep(cust_gender, amount_sold) two_sided_p_value FROM sh.customers c, sh.sales s WHERE c.cust_id=s.cust_id GROUP BY rollup(cust_income_level) ORDER BY 1; SELECT * FROM ( SELECT cust_name, cust_contact_info, rank() over (ORDER BY PREDICTION_PROBABILITY( attrition_model, ‘attrite’ USING age, gender, zipcode, NVL(annual_income, PREDICTION(estim_income USING *)) as annual_income ) DESC ) as cust_rank FROM customers) Введение БА, OLAP, РАД Данные WHERE cust_rank < 11; Методологии Методы Oracle DM 54
Примеры Правительство – В 2002 г. ФБР заявило о начале анализ данных, относящиеся к привычкам и предпочтениям потребителей, с целью поиска лиц, «имеющих террористический потенциал» с использованием средств РАД. – Начальные вложения на расширение БД, развитие безопасности сети, создание программного обеспечения для анализа и визуализации составляют ~ 70 млн. долларов. Введение БА, OLAP, РАД Данные Методологии Методы Примеры 55
Примеры Размер телевизионной аудитории – BBC использует систему, для предсказания ожидаемого размера телевизионной аудитории предложенной программы, а также оптимального времени вставки – Система использует нейронные сети и деревья решения. Точность прогноза соответствует экспертным. Однако система более легко и быстро адаптируется к изменяющейся ситуации, поскольку постоянно использует накопленные в БД сведения. Введение БА, OLAP, РАД Данные Методологии Методы Примеры 56
Примеры Космос – Проект SKYCAT. За 6 лет в Second Palomar Observatory собрали 3 ТБ изображений примерно о 2 млн. объектов в небе. – Используя кластеризацию и деревья решений объекты были систематизированы. Результаты помогли астрономам открыть 16 новых квазаров, определение которых связано с большими сложностями. Введение БА, OLAP, РАД Данные Методологии Методы Примеры 57
Примеры Спорт – Футбольный клуб Милана использует нейронные сети, чтобы предотвращать травмы у спортсмен и оптимизировать их подготовку. Система позволяет получить индивидуальное предписание для игрока, предупреждает врача команды о возможной травме. – Клуб использует такие данные для принятия решения о заключении договоров с игроками, имеющими высокие риски травмирования и, следовательно, получающие значительные выплаты Введение БА, OLAP, РАД Данные Методологии Методы Примеры 58
Примеры Спорт – РАД используют в NBA для анализа эффективности игроков на поле, разработки новых стратегий игры Введение БА, OLAP, РАД Данные Методологии Методы Примеры 59
Примеры Интересные факты: – Клиенты банка с короткими именами склонны к тому, чтобы вначале положить большую сумму денег, а потом забрать их – Клиенты, которые покупают пеленки, склоняются к тому, чтобы купить пиво – Те, кто покупает красные машины во Франции, склоняются к тому, чтобы не оплачивать ссуду на машину Введение БА, OLAP, РАД Данные Методологии Методы Примеры 60
Введение БА, OLAP, РАД Данные Методологии Методы Примеры 61
Контактная информация СОВМЕСТНОЕ ЗАКРЫТОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО «КОМПИТ ТЕХНОЛОДЖИС» 220007 г.Минск, ул.Московская, д.20, к. 504 Тел./факс (017) 256-08-70, E-mail: oracle@compit.by Более подробную информацию можно получить: тел.: +375 17 256 0870 +375 29 570 1025 e-mail: igor@compit.by Введение БА, OLAP, РАД Данные Методологии Методы 62
Вы также можете почитать