Поиск и анализ по источникам текстовой информации - Дмитрий Лактионов Руководитель направления IBM ECM

Страница создана Яромир Шилов
 
ПРОДОЛЖИТЬ ЧТЕНИЕ
Поиск и анализ по источникам текстовой информации - Дмитрий Лактионов Руководитель направления IBM ECM
Поиск и анализ по источникам текстовой
информации

Дмитрий Лактионов
Руководитель направления IBM ECM,
Поиск и анализ по источникам текстовой информации - Дмитрий Лактионов Руководитель направления IBM ECM
Enterprise Content Management

    Многообразие и объемы
    неструктурированной информации …

2                                      © 2013 IBM Corporation
Поиск и анализ по источникам текстовой информации - Дмитрий Лактионов Руководитель направления IBM ECM
Enterprise Content Management

IBM Content Analytics
     Преобразует необработанную
      текстовую информацию в ценный
      ресурс без необходимости                       Rapidly Derived
      выстраивания сложных систем.                       Insight
     Обеспечивает возможность
      осуществления анализа
                                                          Search
      практически в реальном времени                    and Explore
     Дает удобные средства
      визуализации и представления
                                                         Analyze
      информации                                       and Visualize
     Обладает открытым
      инструментарием по
      наращиванию аналитического                         Aggregate
                                                        and Extract
      функционала

                                       External and Internal Content (and Data) Sources
                                               including Social Media and More
3                                                                            © 2013 IBM Corporation
Поиск и анализ по источникам текстовой информации - Дмитрий Лактионов Руководитель направления IBM ECM
Задачи по работе с текстовой информацией

1. Сквозной поиск по источникам

2.   Выявление закономерностей на
     основании анализа текстовых данных

3. Извлечение ключевых фактов из
   неструктурированных текстов

                                           4
Поиск и анализ по источникам текстовой информации - Дмитрий Лактионов Руководитель направления IBM ECM
Сквозной поиск по различным информационным системам

       Lotus   Lotus Connections   WebSphere   SharePoint   IBM   File Systems,
                                                                             5 and
      Domino                         Portal                 ECM          more
5
Поиск и анализ по источникам текстовой информации - Дмитрий Лактионов Руководитель направления IBM ECM
Работа с системой Content Analytics

•      Система реализует полный цикл анализа текстов
      1.   Сбор данных
      2.   Обработка текстов на естественном языке
      3.   Отображение выявленных тенденций, зависимостей, аномалий и т.п.

•      Архитектура системы открыта и результаты работы каждого из этапов могут
       быть экспортированы в специализированные системы прогнозирования,
       моделирования и визуализации

                        Внутренние
      Интернет
                          данные

           Сбор данных                 Анализ             Визуализация
                 1                        2                      3
                                                    Индекс
    IBM Content Analytics                                                    6
Поиск и анализ по источникам текстовой информации - Дмитрий Лактионов Руководитель направления IBM ECM
Работа системы Content Analytics

•       Суть обработки текста состоит в переходе от информации, содержащейся в
        тексте в свободной форме, к структурированным данным, на основе
        словарей и структурного анализа текста:

http://rnd.cnews.ru/tech/news/top/index
_science.shtml?2012/05/12/489249

    Версия для КПК | Распечатать                  Источник: CNews
         Авиация и космос
                                                  Дата: 12.05.2012
       12.05.12, Сб, 16:28, Мск
                                                  Компании: ATK
Компания ATK объявила о                           Технологии: композитные
разработке капсулы космического                   материалы
корабля для ракеты-носителя                       Область применения: космос
Liberty (LV), выполненной из
композитных материалов. Она
станет дешевым средством
доставки астронавтов на борт
МКС.
                                                                             7
Поиск и анализ по источникам текстовой информации - Дмитрий Лактионов Руководитель направления IBM ECM
Работа с системой Content Analytics

•      Система реализует полный цикл анализа текстов
      1.   Сбор данных
      2.   Обработка текстов на естественном языке
      3.   Отображение выявленных тенденций, зависимостей, аномалий и т.п.

•      Архитектура системы открыта и результаты работы каждого из этапов могут
       быть экспортированы в специализированные системы прогнозирования,
       моделирования и визуализации

                        Внутренние
      Интернет
                          данные

           Сбор данных                 Анализ             Визуализация
                 1                        2                      3
                                                    Индекс
    IBM Content Analytics                                                    8
Поиск и анализ по источникам текстовой информации - Дмитрий Лактионов Руководитель направления IBM ECM
Работа системы Content Analytics

•       Суть обработки текста состоит в переходе от информации, содержащейся в
        тексте в свободной форме, к структурированным данным, на основе
        словарей и структурного анализа текста:

http://rnd.cnews.ru/tech/news/top/index
_science.shtml?2012/05/12/489249

    Версия для КПК | Распечатать                  Источник: CNews
         Авиация и космос
                                                  Дата: 12.05.2012
       12.05.12, Сб, 16:28, Мск
                                                  Компании: ATK
Компания ATK объявила о                           Технологии: композитные
разработке капсулы космического                   материалы
корабля для ракеты-носителя                       Область применения: космос
Liberty (LV), выполненной из
композитных материалов. Она
станет дешевым средством
доставки астронавтов на борт
МКС.
                                                                             9
Поиск и анализ по источникам текстовой информации - Дмитрий Лактионов Руководитель направления IBM ECM
Аналитические срезы
•   В системе Content Analytics настраиваются
    аналитические срезы (фасеты), по сути
    представляющие из себя фильтры.

•   Налагая различные фильтры и их
    комбинации на большой массив
    документов, аналитик может выделять те
    или иные явления и их взаимосвязь.

•   Фильтры являются интелектуальными,
    под каждым из них могут быть скрыты
    словари, правила обработки текста или
    функционал модуля классификации

•   На последующих слайдах приводятся
    примеры аналитических срезов,
    настроенных в целях демонстрации
    возможностей системы

                                                10
Источники данных
                   В качестве источников данных
                       использовались сайты
                   Интерфакс, РИА Новости и BBC

                                                  11
Срез по источникам данных

                      Систему реагирует на сигнатуру
                      страниц с того или иного сайта и
                           определяет источник

                                                     12
Срез по странам, упоминающимся в тексте

                      Система реагирует на ключевые
                       слова: упоминания названий
                          стран в текстах статей

                                                      13
Срез по годам, упоминающимся в тексте

                       Для выделения года из текста
                      использовался анализ текста: «в
                         2013 году», «к 2010 году» ...

                                                     14
Срез по областям применения

                           Область применения
                       определяется по характерной
                      лексике: пациент, врач, раскопки,
                               пушка, ракета ...

                                                      15
Ядерные разработки

                      Во вложенный срез можно
                         выделить объекты,
                     представляющие особенный
                      интерес среди всей группы

                                                  16
Источники электричества

                      Вложенные аналитические срезы
                         позволяют строить дерево
                           концепций в сложной
                            предметной области

                                                  17
Технологии сгруппированы в направления

                        Все множество технологий
                       можно сгруппировать в более
                             общие категории

                                                     18
Результат работы модуля классификации

База знаний была обучена на двух массивах документов: «про ракеты» и
«про реки». Если документ не подпадает ни под одну их этих категорий,
система возвращает значение «неизвестная».

                                     Документов «про реки» найдено
                                               не было.

                                                                        19
Классификация + полнотекстовый поиск

 Комбинация категорий и
поиска позволяет из всего
   массива документов
    выделить нужные

                                       20
Потенциал для функционала ГИС

                   Архитектура системы открытая,
                   на рисунке как пример показана
                      интеграция с Google Maps      21
Выделение корреляций между срезами
После настройки срезов система вычисляет взаимосвязь между ними
и подсвечивает значимые с ее точки зрения сочетания

                                                            22
Отображение взаимосвязей в виде графа

                                        23
Многоязычный аналитический срез

                      Аналитические срезы могут
                       объединять концепции из
                     документов на разных языках   24
Пример извлечения фактов из текста

Исходная страница: http://www.compromat.ru/page_32755.htm   25
Пример извлечения фактов из текста

                                     26
Спасибо за внимание!

 Дмитрий Лактионов
 e-mail: r90777@ru.ibm.com

                             27
Вы также можете почитать