Oracle Data Mining - поиск скрытых закономерностей - Прудывус Игорь

Страница создана Радислав Рудаков
 
ПРОДОЛЖИТЬ ЧТЕНИЕ
Oracle Data Mining - поиск скрытых закономерностей - Прудывус Игорь
Oracle Data Mining —
          поиск скрытых
         закономерностей
Прудывус Игорь
igor@compit.by
Oracle Data Mining - поиск скрытых закономерностей - Прудывус Игорь
ƒ Успех зависит от способности проанализировать,
  понять, и представить будущее развитие событий
  и предпринять необходимые шаги для
  достижения желаемой цели.
ƒ Предвидение позволяет подготовить план
  действий, заранее выделив необходимые
  ресурсы. Это позволит удачно использовать
  момент времени, нейтрализовать угрозы и
  минимизировать риски.
ƒ Введение      БА, OLAP, РАД Данные
     Методологии      Методы                       2
Oracle Data Mining - поиск скрытых закономерностей - Прудывус Игорь
План
ƒ Введение
ƒ БА, OLAP, РАД
ƒ От чистых к полезным данным
ƒ Методология РАД
ƒ Методы
ƒ Инструменты
ƒ Oracle DM
ƒ Примеры
ƒ Введение      БА, OLAP, РАД Данные
    Методологии    Методы              3
Oracle Data Mining - поиск скрытых закономерностей - Прудывус Игорь
Данные, данные и еще раз
                  данные ...
ƒ Текущая ситуация:
     – большинство предприятий накапливает большое
       количество информации
ƒ Какова причина складирования данных?
     – снижение стоимости систем хранения
     – увеличение производительности процессоров
     – надежность и скорость передачи данных

ƒ Введение           БА, OLAP, РАД Данные
Введение   Методологии    Методы                     4
Oracle Data Mining - поиск скрытых закономерностей - Прудывус Игорь
Проблема
           Складирование
                                               Увеличение знания
           большого объема данных

                          Неспособность обрабатывать         Отсутствие знания

                         Традиционные техники анализа
                                      или
                        Технология настоящего хранения

                                    Парадокс
                           Чем больше данных,
ƒ Введение                БА,
                           темOLAP,
                               меньше РАД
                                      знаний        Данные
Введение   Методологии              Методы                                       5
Oracle Data Mining - поиск скрытых закономерностей - Прудывус Игорь
Извлечение знаний
             Знание

                         Бóльшая часть информации в БД (~ 80%)
           Очевидное     Легкое извлечение средствами стандартного SQL

                         Доступ к многомерным данным
           Многомерное   n–мерность vs. одномерности
                         Извлечение средствами OLAP
                         Очень ценная, но незнакомая информация
            Скрытое      Доступ посредством средств Data Mining
ƒ Введение           БА, OLAP, РАД Данные
Введение   Методологии    Методы                                         6
Oracle Data Mining - поиск скрытых закономерностей - Прудывус Игорь
БА, OLAP, РАД
     БА                     OLAP             РАД
Извлечение         Итоги, тенденции,    Новое знание о
исторических и     предсказания         скрытых
накопленных                             закономерностях
данных             Анализ
                                        Понимание и
Информация                              Предсказание
                   Какова средняя
                   стоимость товара?    Кто приобретет
                   в зависимости от
Кто приобрел                            товар в
                   региона, года?
товар?                                  следующие
ƒ Введение        БА, OLAP, РАД        Данные
                                        3 мес.?
    БА,Методологии
        OLAP, РАД      Методы                             7
Oracle Data Mining - поиск скрытых закономерностей - Прудывус Игорь
OLAP и РАД
                       OLAP                         РАД
Вид анализа   управляемый                  управляемый
              пользователем                системой
              (пользователь выдвигает      (система сама выявляет связи
              гипотезу. Анализ ограничен   между данными)
              ранее определенными
              размерностями)
Тип         дедуктивный                    индуктивный
размышления (выдвижение начальное          (определение данных,
              гипотезы с последующей ее    соответствующих полученной
              проверкой)                   модели данных)
Данные        агрегированные               индивидуальный
для работы    (получение общего            (определение шаблонов
              представления о проблеме)    данных для последующей
ƒ Введение         БА, OLAP, РАД Данные    работы с ними)
     БА,Методологии
         OLAP, РАД      Методы                                            8
Oracle Data Mining - поиск скрытых закономерностей - Прудывус Игорь
Задачи, решаемые РАД
ƒ Реклама и продвижение товара
   – Какова эффективность рекламы?
ƒ Перекрестные продажи
   – Какие продукты покупатель готов дополнительно приобрести?
ƒ Обнаружение мошенничества
   – Правильные ли сведения были поданы?
ƒ Удержание клиента
   – Какие клиенты готовы разорвать договор?
ƒ Управление рисками
   – Выдавать ли кредит данному заемщику?
ƒ Сегментирование потребителей
ƒ Введение
   – Какой «портрет»БА, OLAP, РАД
                    потребителя,         Данные счета?
                                 не оплачивающего
ƒ ... БА,Методологии
          OLAP, РАД       Методы                                 9
Oracle Data Mining - поиск скрытых закономерностей - Прудывус Игорь
Области использования
ƒ Традиционные:
     –   финансовые организации
     –   торговля
     –   медицина
     –   страхование
     –   телекоммуникации
ƒ Новые:
     – органы управления
     – спорт
     – СМИ
     – ЖКХ
ƒ   Введение
     – ...          БА, OLAP, РАД   Данные
          Методологии
         БА, OLAP, РАД    Методы             10
Пирамида знания
                   Инновации

                    Знание

                   Познание

                    Данные

ƒ Введение       БА, OLAP, РАД Данные
    Методологии
          Данные      Методы            11
Пирамида знания

ƒ Введение
    3.5 км в диаметре, 1.5БА,   OLAP,
                           км глубиной   РАД
                                     22 млн.        Данные
                                             т породы 3 тыс. т алмазов

        Методологии
              Данные              Методы                                 12
Определение
ƒ Разведочный анализ данных (Data Mining) —
  использование подходов автоматического и
  полуавтоматического анализа данных для
  выявления ранее неизвестных закономерностей,
  связей, тенденций.
ƒ Другое определение:

ƒ Введение       БА, OLAP, РАД Данные
    Методологии
          Данные      Методы                     13
Определение РАД

ƒ Введение       БА, OLAP, РАД Данные
    Методологии
          Данные      Методы            14
Этапы РАД

                           Понять
                          доступные
                           данные
             Осмысление
               бизнес                 Подготовить
              проблем                   данные

             Применить                Построить
              модель                   модель

                          Проверка
                           модели
ƒ Введение       БА, OLAP, РАД Данные
    Методологии
          Данные      Методы                        15
Этапы анализа
                                       Новое качество,
                                    обоснованность выбора

                                      Использование модели
Рафинирование данных

                                   Построение и проверка модели

                                  Извлечение и подготовка данных

                                 Определение бизнес-проблемы
ƒ Введение                          БА, OLAP, РАД Данные
                       Методологии
                             Данные      Методы                    16
Извлечение и подготовка
                    данных
 Новое качество,
 обоснованность      Данные для последующего анализа
     выбора

                                Преобразование
 Использование                                             Очистка данных
    модели

                                            Визуализация
   Построение и
 проверка модели

                                                           Загрузка данных
  Извлечение и
подготовка данных

ƒ Введение               БА, OLAP, РАД Данные
  Определение
    бизнес-
   проблемы

            Методологии
                  Данные      Методы                                         17
От чистых к полезным данным
 Новое качество,

                    ƒ Количество атрибутов, записей,
 обоснованность
     выбора

                      количество уровней атрибута или его
 Использование
    модели
                      распределение
                    ƒ Проблемы:
   Построение и
                      – редкие события —
 проверка модели        отдельный класс или случайность?
                      – пропуски значений —
                        частота? зависят от других? заполнять?
  Извлечение и        – информативность
подготовка данных
                      – интерпретация NULL
                      – денормализация —
                        получение функциональных зависимостей атрибутов — ложное
ƒ Введение               БА, OLAP, РАД Данные
  Определение
    бизнес-             обнаружение скрытых «зависимостей»
   проблемы

            Методологии
                  Данные      Методы                                               18
Извлечение и подготовка
 Новое качество,
                    данных
                    ƒ Типы атрибутов:
 обоснованность
     выбора

                       – числовые            1, 1.4, 34.2, 18.9, ...
                                             Разница (34.2 – 18.9 = 15.3) и
 Использование
    модели             – качественные:       отношение (34.2 / 8.9 = 3.8)
                          • порядковые       
                                             слабо,       = сильно
                                                     средне,
                                             имеют смысл
                                                           –
                          • номинальные      Имеет   смысл   только
                                             красное, зеленое,     белое
                                                          
   Построение и
 проверка модели                             отношение: средне > слабо
                    ƒ Создание новых атрибутов
  Извлечение и
                    ƒ Группирование данных
                                         = {
                    ƒ Нормализация, определение
подготовка данных

                                             до 12 лет — дети,
            выбросов, замещение до 18 лет — подростки,
                                  ...
ƒ Введение        БА, OLAP, РАД Данные
  Определение
    бизнес-
   проблемы

     Методологии
           Данные      Методы                                                 19
Построение и проверка модели
 Новое качество,
 обоснованность     Использование модели
     выбора                                                                                                          Результат, проверка модели

                                                                                          -7.0 -6.5 -6.0 -5.5
                        таблица соотв.                       ROC                                                                         1
                                                                                                                                      pSYMPT
                                                                                                                                        < 0.001

                    AUC

                                          1.0
                             + —                                                                                                     £Agree       >Agree

                                          0.8
                                                                                                                                                              3
                                                                                                                                                             PB
                                                                                                                                                           p = 0.012
 Использование      KS                         pcr = 0.150

                                     0.4 0.6
                                     Sensitivity
                          + ++ +―
                                                                                                                                                       £8        >8
                                                        Sens: 66.7%                                                        Node 2 (n = 113)   Node 4 (n = 208) Node 5 (n = 91)
                                                        Spec: 84.5%
    модели                                              PV+: 63.4%
                                                        PV-:                                                          1                    1                  1
                                                                                                                     0.8                  0.8                0.8
                    GINI
                                                        86.3%
                                                                Variable est. (s.e.)                                 0.6                  0.6                0.6

                                          0.2
                           ― ―+ ――
                                                           (Intercept) -1.897 (0.307)                                                                        0.4
                                                                   test 5.686 (1.468)                                0.4                  0.4
                                                                Model: pcr ~ pcr$ÏÖÐ0                           -2   0.2   -1          0  0.2       1        0.2 2

                                          0.0
                                                           Area under the curve: 0.781
                                                                                                                      0                    0                  0
                                                                                                                           NeverOver a Year NeverOver a Year NeverOver a Year
                                               0.0    0.2    0.4    0.6      0.8    1.0
                                                             1-Specificity

   Построение и
 проверка модели
                                                                                                                                                                Выбор модели
                    тестовая обучающая

  Извлечение и
подготовка данных
                    Кросс-
                    проверка

ƒ Введение               БА, OLAP,Данные
                                    РАДдля анализа
                                            Данные
  Определение
    бизнес-
   проблемы

            Методологии
                  Данные      Методы                                                                                                                                             20
Построение и проверка модели
ƒ Модель — абстракция, отображающая реальный
  мир, свертка данных, лежащих в ее основе
ƒ Модель — не абсолют. Продукт статистической
  обработки. Точность оценки
ƒ Сколь привлекательной модель бы не
  выглядела, она бессмысленна без
  адекватной ее проверки и оценки корректности
ƒ Модель всегда ограничена
ƒ Введение       БА, OLAP, РАД Данные
    Методологии
          Данные      Методы                     21
Построение и проверка модели
ƒ Выбор модели может зависеть он
  анализируемого атрибута (SVM — числовые,
  ассоциативные связи — качественные) или
  поведение алгоритма может зависеть от типа
  атрибута (CART)
ƒ Параметры модели могут включаться в саму
  модель (Naїve Bayes)
ƒ Цель, а также характер данных определяют
  выбор модели
ƒ Введение         БА, OLAP, РАД Данные
     Методологии
            Данные      Методы                 22
Использование модели
 Новое качество,
 обоснованность
     выбора

 Использование
    модели

                                                                     –
                                                             ?
   Построение и
 проверка модели                                                 +

  Извлечение и
подготовка данных

                                      Интерпретация модели

ƒ Введение               БА, OLAP, РАД     Данные
  Определение
    бизнес-
   проблемы                        Использование модели
            Методологии
                  Данные      Методы                                     23
Использование модели
ƒ Модель может применяться только к данным,
  подобным обучающей выборке:
  – тот же набор атрибутов, что и в модели
  – то же распределение, что и в обучающей выборке
ƒ Периодическая проверка соответствия

ƒ Введение       БА, OLAP, РАД Данные
    Методологии
          Данные      Методы                         24
Методологии РАД
ƒ Предпосылки:
   –   высокая цена развития проекта РАД (персонал, консультации, эксперты)
   –   информация обычно имеет неосновательность (шум, отсутствие данных, ...)
   –   очень высокое количество связей между данными
   –   требование единых подходов
ƒ Решение — использование структурированной методологии РАД
ƒ Методологии РАД:
   – CRISP-DM (CRoss-Industry Standard Process for Data Mining — обобщенный
     стандартный процесс разведочного анализа данных)
   – SEMMA (Sample, Explore, Modify, Model and Assess —
     извлечение, исследование, преобразование, моделирование и
     использование)
   – CRITIKAL (Client-server Rule Induction Technology for
     Industrial Knowledge Acquisition from Large databases — технология
     извлечения индустриальных знаний из больших БД на основе правил) ё
ƒ Введение       БА, OLAP, РАД Данные
       Методологии
                МетодологияМетоды                                                25
Методология CRISP-DM
CRISP-DM —
CRoss-Industry
Standard Process for                   Анализ
Data Mining                            данных

                         Анализ
                        проблемы                Подготовка
                                                 данных

                                   данные

                       Использо-                 Модели-
                         вание                   рование

                                   Оценка

ƒ Введение         БА, OLAP, РАД Данные
         Методологии
                  МетодологияМетоды                          26
Методология SEMMA
Выборка                          Отбор данных

                Визуализация                     Кластеры, Факторы,
Изучение
                   данных                          Соответствие

            Выбор переменных,                      Преобразование
Изменение
             создание новых                            данных
Моделирование
                                          Логистические    Др. статистические
   Нейронные сети      Деревья решений
                                             модели              методы

Интерпретация результата         Оценка модели

SEMMA — Sample, Explore, Modify, Model and Assess.
ƒ Введение           БА, OLAP, РАД Данные
Логическая организация функциональных средств SAS Enterprise Miner для задач РАД
           Методологии
                    МетодологияМетоды                                              27
Методология CRITIKAL

                     Данные                          Результат

                                                Интер-              Мони-
 Опреде-                      Иссле- Преобра-            Распре-
         Выборка   Очистка                         пре-            ториро-
  ление                      дование зование            деление
                                                 тация               вание

        CRITIKAL — Client-server Rule Induction Technology for
        Industrial Knowledge Acquisition from Large databases

ƒ Введение      БА, OLAP, РАД Данные
      Методологии
               МетодологияМетоды                                             28
Методы РАД

ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы
                    Методы           29
Методы РАД
ƒ «Обучение учителем»
              – аналитик должен определить целевые атрибуты
                (зависимые переменные)
              – алгоритмы обрабатывают данные в поисках
                сочетаний значений независимых переменных
                (предикторов), при которых происходит разделение
                целевых атрибутов на классы
ƒ «Обучение без учителя»
           – пользователь не определяет целевые атрибуты
           – алгоритмы поиска ассоциаций и кластеров
             формируют результат вне зависимости от исходных
ƒ   Введение предпосылок
                  БА, OLAP, РАД Данные
        Методологии         Методы
                            Методы                                 30
Алгоритмы
             ƒ Классификация
               –   логистическая регрессия (GLM)
               –   naїve Bayes
               –   SVM
               –   деревья решений
             ƒ Регрессия
               – множественная регрессия
               – SVM
             ƒ Значимые атрибуты
               – принцип минимальной длины
ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы
                    Методы                         31
Алгоритмы
             ƒ Определение выбросов
               – SVM с одним классом
             ƒ Кластеризация
               – расширенный алгоритм k-средних
               – O-кластер
             ƒ Ассоциация
               – Apriori
             ƒ Извлечение свойств
               – Non-negative Matrix Factorization (NFM)
ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы
                    Методы                                 32
Naїв Bayes
ƒ Основывается на теореме Байеса об условной
  вероятности
ƒ Пригоден как для бинарных, так и для
  многоуровневых атрибутов
ƒ После построения модели ее можно
  использовать для прогнозирования
ƒ Поддержка кросс-проверки позволяет оценить
  точность модели

ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы
                    Методы                     33
Деревья решений
ƒ Используется алгоритм классификации деревьев
ƒ Результат — надежность, поддержка, условия
  разделения (если , то вероятность
  события = , поддержка =
  )

ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы
                    Методы                       34
Деревья решений
                                         1
                                   SYMPT
                                   p < 0.001
                         ≤ Agree                     > Agree
                                                                3
                                                               PB
                                                            p = 0.012
                                                      ≤8                      >8
      Node 2 (n = 113)                       Node 4 (n = 208)                   Node 5 (n = 91)
 1                                   1                                   1

0.8                                0.8                                  0.8

0.6                                0.6                                  0.6

0.4                                0.4                                  0.4

0.2                                0.2                                  0.2

 0                                   0                                   0
ƒ Введение
      никогда < 1 г. БА, OLAP,
                         никогда < 1 РАД
                       > 1 г.        г. > 1 г. Данные
                                                    никогда < 1 г.                                > 1 г.

           Методологии     Методы
                             Методы                                                                        35
Деревья решений
                                     Рекомендации по оперированию астигматизма

                               астигматизм
                               астигматизм??
                      нет                             да

             возраст
             возраст??                                миопия
                                                      миопия??

   < 25                       > 50              6
             > 25 & < 50

  нет                           нет              да               нет
             миопия
             миопия??

     < 1,5                   > 10
              > 1,5 & < 10

     нет                     нет
ƒ Введение        БА, OLAP, РАД Данные
                 да

        Методологии    Методы
                        Методы                                                   36
SVM
ƒ Мощный современный алгоритм со строгим
  математическим обоснованием
ƒ Работает с очень большим количеством
  предикторов при относительно небольшом
  количестве объектов
ƒ Целевые атрибуты могут быть непрерывными
  (регрессия), двоичными или многоуровневыми
ƒ Низкие требования к памяти
ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы
                    Методы                     37
SVM
   x3                           ƒ Определяется
                   x              гиперплоскость в
          r
                                  пространстве параметров
                                                     r
                                ƒ Коэффициенты w и
                                  смещение b
                r ⋅x
                 w
                   r +b

          b
                                ƒ Прогнозирование:
                                            r r
         r rw                     f = sign( w ⋅ x + b = 0 )
                        =0

         w
                                x2

ƒ Введение             xБА,
                    OLAP, РАД Данные
                        1

        Методологии  Методы
                      Методы                                  38
SVM
 векторá поддержки
                       ƒ Максимальное
                           разделение классов
                       ƒ   Многомерность
                       ƒ   Sparse solution
                       ƒ   Единый глобальный
                           минимум
                       ƒ   Разумное время
             ξ             нахождения решения
  ξ

ƒ Введение      БА, OLAP, РАД Данные
      Методологии    Методы
                      Методы                    39
SVM
            Регрессия                       Определение выбросов

            ξ          ε

       ξˆ

ε — функция потерь                         ƒ Типичное — выбросы
                       ∑
          1                                ƒ Разделение известного и
L p (w ) = w ⋅ w + C       (ξ k + ξˆ k )
ƒ Введение2      БА, OLAP, РАД    Данные
                              выпадающего
       Методологии    Методы
                       Методы                                          40
Регрессионный анализ
ƒ Реализация многоцелевой классической общей
    линейной модели (GLM)
ƒ   Бинарная логистическая регрессия и
    многофакторная регрессия
ƒ   Мощные средства оценки качества модели
ƒ   Оценка доверительных интервалов
    прогностических значений
ƒ   Использование сотен предикторов
ƒ Введение      БА, OLAP, РАД Данные
      Методологии    Методы
                      Методы                   41
Значимые атрибуты
ƒ Определение атрибутов, имеющих наибольшее
  влияние на целевые атрибуты
ƒ Часто первичный анализ при использовании
  других моделей

ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы
                    Методы                    42
Кластерный анализ
ƒ Методы:
  – Расширенный алгоритм k-средних
  – O-кластер
ƒ Разделение БД на подмножества, так что внутри
  подгруппы различия между отдельными
  объектами меньше, чем между разными
  подгруппами

ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы
                    Методы                        43
Кластерный анализ
ƒ Используется в маркетинге (группы населения с
  одними и теми же характеристиками), медицина
  (пациенты с тем же беспокойством), управлении
  персоналом и т.д.
ƒ Отличается с классификацией, поскольку не
  используется обучение

ƒ Введение     БА, OLAP, РАД Данные
     Методологии    Методы
                     Методы                       44
Ассоциативный анализ
ƒ Используется в маркетинге (группы населения с
  одними и теми же характеристиками), медицина
  (пациенты с тем же беспокойством), управлении
  персоналом и т.д.
ƒ Разделение БД на подмножества, так что внутри
  подгруппы различия между отдельными
  объектами меньше, чем между разными
  подгруппами
ƒ Отличается от классификации, поскольку не
ƒ Введение
  использует обучение
                БА, OLAP, РАД Данные
     Методологии      Методы
                      Методы                      45
Текстовый анализ
ƒ Изучение текста и извлечение из него
  информации без каких-либо начальных
  установок
ƒ Определение подразумеваемого смысла

ƒ Введение     БА, OLAP, РАД Данные
     Методологии    Методы
                     Методы              46
Инструменты РАД
ƒ Составные части статистических пакетов
   – SAS® Enterprise Miner™
   – IBM SPSS Modeler (ранее Clementine®)
   – TIBCO Spotfire Miner (Insightful Miner)
ƒ Составные части БД — Oracle®
ƒ Специально созданные пакеты, инструментальные среды РАД
   –   Portrait Software
   –   Angoss Software
   –   KXEN
   –   Weka
   –   Salford Systems CART®, MARS®, TreeNet™, LOGIT
   –   Megaputer PolyAnalyst
   –   Fujitsu GhostMiner

ƒ Введение       БА, OLAP, РАД Данные
       Методологии    Методы
                           Инструменты                      47
Положение на рынке
                                 претенденты сильные     лидеры

                  сильное
                 предложение
                  слабое

                               слабая        стратегия       сильная
ƒ ВведениеThe ForesterБА,  OLAP,
                       Wave™: PredictiveРАД         Данные
                                        Analytics and Data Mining Solutions, Q1 2010
         Методологии                       Методы
                                               Инструменты                             48
Статистические функции БД
             Oracle®
ƒ Ранжирование                                 ƒ Описательная статистика
    – rank, dense_rank, cume_dist,                 – среднее, стд. отклонение, дисперсия,
      percent_rank, ntile                            min, max, медиана, мода
ƒ Агрегирование                                    – DBMS_STAT_FUNCS: описательная
    – Avg, sum, min, max, count, variance,           статистика по числовым колонкам
      stddev, first_value, last_value          ƒ Корреляции
ƒ Корреляция и регрессия                           – Пирсона, Спирмана, Кендалла
    – Correlation, linear regression family,   ƒ Кросс-табуляции
      covariance                                   – χ2, φ, V Крамера, коэффициента
ƒ Линейная регрессия                                 сопряженности, λ Кохена
    – МНК.                                     ƒ Hypothesis Testing
    – COVAR_POP, COVAR_SAMP, and                   – тест Стьюдента, Фишера,
      CORR functions.                                биноминальный, Уилкоксона, χ2,
ƒ Соответствие распределениям                        Манна-Уитни, Колмогорова-
                                                     Смирнова, дисперсионный анализ
    – тесты Колмогорова-Смирнова,
      Андерсона-Дарлинга, хи-квадрат,
      Гаусса, Вейбула,
      экспоненциальный
ƒ Введение        БА, OLAP, РАД Данные
        Методологии    Методы Oracle DM                                                     49
Oracle Data Miner

ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы Oracle DM   50
Oracle Data Miner

ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы Oracle DM   51
Oracle Data Miner

ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы Oracle DM   52
Интеграция с приложениями
ƒ Oracle РАД — естественное расширение
    функционала БД Oracle
ƒ   Перенос аналитики к данным
ƒ   Модели хранятся вместе с данными
ƒ   Надежное и защищенное хранение
ƒ   Для разработчиков:
     – PL/SQL интерфейс:
         • DBMS_DATA_MINING
         • DBMS_MINING_TRANSFORM
     – Java API на принципах JDM
ƒ    – генерирование готового
    Введение                  кода средствами
                       БА, OLAP,    РАД ДанныеOracle Data Miner

        Методологии           Методы        Oracle DM             53
Запросы с функциями статистики
             и РАД
SELECT substr(cust_income_level,1,22) income_level,
  avg(decode(cust_gender,'M',amount_sold,null)) m_solded,
  avg(decode(cust_gender,'F',amount_sold,null)) f_solded,
  stats_t_test_indep(cust_gender, amount_sold, 'STATISTIC','F') t_observed,
  stats_t_test_indep(cust_gender, amount_sold) two_sided_p_value
  FROM sh.customers c, sh.sales s
  WHERE c.cust_id=s.cust_id
  GROUP BY rollup(cust_income_level)
  ORDER BY 1;

SELECT * FROM (
  SELECT cust_name, cust_contact_info, rank() over
    (ORDER BY PREDICTION_PROBABILITY( attrition_model, ‘attrite’
                                      USING age, gender, zipcode,
                                      NVL(annual_income,
                                      PREDICTION(estim_income USING *))
                                        as annual_income
                                      ) DESC
     ) as cust_rank
  FROM customers)

ƒ Введение       БА, OLAP, РАД Данные
  WHERE cust_rank < 11;

       Методологии    Методы Oracle DM                                        54
Примеры
ƒ Правительство
  – В 2002 г. ФБР заявило о начале анализ данных,
    относящиеся к привычкам и предпочтениям
    потребителей, с целью поиска лиц, «имеющих
    террористический потенциал» с использованием
    средств РАД.
  – Начальные вложения на расширение БД, развитие
    безопасности сети, создание программного
    обеспечения для анализа и визуализации составляют
    ~ 70 млн. долларов.
ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы       Примеры                 55
Примеры
ƒ Размер телевизионной аудитории
  – BBC использует систему, для предсказания
    ожидаемого размера телевизионной аудитории
    предложенной программы, а также оптимального
    времени вставки
  – Система использует нейронные сети и деревья
    решения. Точность прогноза соответствует
    экспертным. Однако система более легко и быстро
    адаптируется к изменяющейся ситуации, поскольку
    постоянно использует накопленные в БД сведения.
ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы       Примеры               56
Примеры
ƒ Космос
  – Проект SKYCAT. За 6 лет в Second Palomar
    Observatory собрали 3 ТБ изображений примерно о 2
    млн. объектов в небе.
  – Используя кластеризацию и деревья решений
    объекты были систематизированы. Результаты
    помогли астрономам открыть 16 новых квазаров,
    определение которых связано с большими
    сложностями.

ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы       Примеры                 57
Примеры
ƒ Спорт
  – Футбольный клуб Милана использует нейронные
    сети, чтобы предотвращать травмы у спортсмен и
    оптимизировать их подготовку. Система позволяет
    получить индивидуальное предписание для игрока,
    предупреждает врача команды о возможной травме.
  – Клуб использует такие данные для принятия решения
    о заключении договоров с игроками, имеющими
    высокие риски травмирования и, следовательно,
    получающие значительные выплаты
ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы       Примеры                 58
Примеры
ƒ Спорт
  – РАД используют в NBA для анализа эффективности
    игроков на поле, разработки новых стратегий игры

ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы       Примеры                59
Примеры
ƒ Интересные факты:
  – Клиенты банка с короткими именами склонны к тому, чтобы
    вначале положить большую сумму денег, а потом забрать их
  – Клиенты, которые покупают пеленки, склоняются к тому,
    чтобы купить пиво
  – Те, кто покупает красные машины во Франции, склоняются к
    тому, чтобы не оплачивать ссуду на машину

ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы       Примеры                        60
ƒ Введение    БА, OLAP, РАД Данные
    Методологии    Методы       Примеры   61
Контактная информация
               СОВМЕСТНОЕ ЗАКРЫТОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО
                                    «КОМПИТ ТЕХНОЛОДЖИС»

                               220007 г.Минск, ул.Московская, д.20, к. 504
                       Тел./факс (017) 256-08-70, E-mail: oracle@compit.by

Более подробную информацию можно получить:
тел.: +375 17 256 0870
        +375 29 570 1025
e-mail: igor@compit.by

ƒ Введение       БА, OLAP, РАД Данные
       Методологии    Методы                                                 62
Вы также можете почитать