Поиск и анализ по источникам текстовой информации - Дмитрий Лактионов Руководитель направления IBM ECM
←
→
Транскрипция содержимого страницы
Если ваш браузер не отображает страницу правильно, пожалуйста, читайте содержимое страницы ниже
Поиск и анализ по источникам текстовой информации Дмитрий Лактионов Руководитель направления IBM ECM,
Enterprise Content Management Многообразие и объемы неструктурированной информации … 2 © 2013 IBM Corporation
Enterprise Content Management IBM Content Analytics Преобразует необработанную текстовую информацию в ценный ресурс без необходимости Rapidly Derived выстраивания сложных систем. Insight Обеспечивает возможность осуществления анализа Search практически в реальном времени and Explore Дает удобные средства визуализации и представления Analyze информации and Visualize Обладает открытым инструментарием по наращиванию аналитического Aggregate and Extract функционала External and Internal Content (and Data) Sources including Social Media and More 3 © 2013 IBM Corporation
Задачи по работе с текстовой информацией 1. Сквозной поиск по источникам 2. Выявление закономерностей на основании анализа текстовых данных 3. Извлечение ключевых фактов из неструктурированных текстов 4
Сквозной поиск по различным информационным системам Lotus Lotus Connections WebSphere SharePoint IBM File Systems, 5 and Domino Portal ECM more 5
Работа с системой Content Analytics • Система реализует полный цикл анализа текстов 1. Сбор данных 2. Обработка текстов на естественном языке 3. Отображение выявленных тенденций, зависимостей, аномалий и т.п. • Архитектура системы открыта и результаты работы каждого из этапов могут быть экспортированы в специализированные системы прогнозирования, моделирования и визуализации Внутренние Интернет данные Сбор данных Анализ Визуализация 1 2 3 Индекс IBM Content Analytics 6
Работа системы Content Analytics • Суть обработки текста состоит в переходе от информации, содержащейся в тексте в свободной форме, к структурированным данным, на основе словарей и структурного анализа текста: http://rnd.cnews.ru/tech/news/top/index _science.shtml?2012/05/12/489249 Версия для КПК | Распечатать Источник: CNews Авиация и космос Дата: 12.05.2012 12.05.12, Сб, 16:28, Мск Компании: ATK Компания ATK объявила о Технологии: композитные разработке капсулы космического материалы корабля для ракеты-носителя Область применения: космос Liberty (LV), выполненной из композитных материалов. Она станет дешевым средством доставки астронавтов на борт МКС. 7
Работа с системой Content Analytics • Система реализует полный цикл анализа текстов 1. Сбор данных 2. Обработка текстов на естественном языке 3. Отображение выявленных тенденций, зависимостей, аномалий и т.п. • Архитектура системы открыта и результаты работы каждого из этапов могут быть экспортированы в специализированные системы прогнозирования, моделирования и визуализации Внутренние Интернет данные Сбор данных Анализ Визуализация 1 2 3 Индекс IBM Content Analytics 8
Работа системы Content Analytics • Суть обработки текста состоит в переходе от информации, содержащейся в тексте в свободной форме, к структурированным данным, на основе словарей и структурного анализа текста: http://rnd.cnews.ru/tech/news/top/index _science.shtml?2012/05/12/489249 Версия для КПК | Распечатать Источник: CNews Авиация и космос Дата: 12.05.2012 12.05.12, Сб, 16:28, Мск Компании: ATK Компания ATK объявила о Технологии: композитные разработке капсулы космического материалы корабля для ракеты-носителя Область применения: космос Liberty (LV), выполненной из композитных материалов. Она станет дешевым средством доставки астронавтов на борт МКС. 9
Аналитические срезы • В системе Content Analytics настраиваются аналитические срезы (фасеты), по сути представляющие из себя фильтры. • Налагая различные фильтры и их комбинации на большой массив документов, аналитик может выделять те или иные явления и их взаимосвязь. • Фильтры являются интелектуальными, под каждым из них могут быть скрыты словари, правила обработки текста или функционал модуля классификации • На последующих слайдах приводятся примеры аналитических срезов, настроенных в целях демонстрации возможностей системы 10
Источники данных В качестве источников данных использовались сайты Интерфакс, РИА Новости и BBC 11
Срез по источникам данных Систему реагирует на сигнатуру страниц с того или иного сайта и определяет источник 12
Срез по странам, упоминающимся в тексте Система реагирует на ключевые слова: упоминания названий стран в текстах статей 13
Срез по годам, упоминающимся в тексте Для выделения года из текста использовался анализ текста: «в 2013 году», «к 2010 году» ... 14
Срез по областям применения Область применения определяется по характерной лексике: пациент, врач, раскопки, пушка, ракета ... 15
Ядерные разработки Во вложенный срез можно выделить объекты, представляющие особенный интерес среди всей группы 16
Источники электричества Вложенные аналитические срезы позволяют строить дерево концепций в сложной предметной области 17
Технологии сгруппированы в направления Все множество технологий можно сгруппировать в более общие категории 18
Результат работы модуля классификации База знаний была обучена на двух массивах документов: «про ракеты» и «про реки». Если документ не подпадает ни под одну их этих категорий, система возвращает значение «неизвестная». Документов «про реки» найдено не было. 19
Классификация + полнотекстовый поиск Комбинация категорий и поиска позволяет из всего массива документов выделить нужные 20
Потенциал для функционала ГИС Архитектура системы открытая, на рисунке как пример показана интеграция с Google Maps 21
Выделение корреляций между срезами После настройки срезов система вычисляет взаимосвязь между ними и подсвечивает значимые с ее точки зрения сочетания 22
Отображение взаимосвязей в виде графа 23
Многоязычный аналитический срез Аналитические срезы могут объединять концепции из документов на разных языках 24
Пример извлечения фактов из текста Исходная страница: http://www.compromat.ru/page_32755.htm 25
Пример извлечения фактов из текста 26
Спасибо за внимание! Дмитрий Лактионов e-mail: r90777@ru.ibm.com 27
Вы также можете почитать