ПОИСК ТЕКСТОВОЙ ИНФОРМАЦИИ С ПОМОЩЬЮ ВЕКТОРНЫХ ПРЕДСТАВЛЕНИЙ

Страница создана Владимир Макеев
 
ПРОДОЛЖИТЬ ЧТЕНИЕ
Інформаційні системи
      УДК 004.912 + 004.738.52

      И.С. Мисуно, Д.А. Рачковский, С.В. Слипченко, А.М. Соколов

      ПОИСК ТЕКСТОВОЙ ИНФОРМАЦИИ С ПОМОЩЬЮ
      ВЕКТОРНЫХ ПРЕДСТАВЛЕНИЙ
      Рассматриваются векторные представления текстовой информации на основе частот встречаемости
      слов и их последовательности, а также распределенные векторные представления, учитывающие се-
      мантическую близость слов. Представлены архитектура программной системы, разработанной для экс-
      периментального исследования алгоритмов поиска с помощью векторных представлений, и прототип
      системы поиска на базе веб-серверного подхода. Приводятся результаты сравнительного тестирования.

                 Введение                            дам распределенного представления ин-
                                                     формации, развиваемым нами в рамках па-
       Интеллектуализация систем поиска
                                                     радигмы ассоциативно-проективных ней-
текстовой информации требует учета ее
                                                     ронных сетей (АПНС) [7]. Получение рас-
смыслового содержания. Классические про-
                                                     пределенных семантических представлений
блемы поиска документов – это синонимия
                                                     текстовой информации, разработка систем и
(одно и то же понятие может быть выра-
                                                     сравнительное исследование таких пред-
жено с использованием разных терминов –
                                                     ставлений в задаче поиска текстовых доку-
синонимов) и полисемия (один и тот же тер-
                                                     ментов позволят расширить спектр приме-
мин может иметь различные значения в раз-
                                                     нений АПНС и создать более эффективные
личных контекстах). Традиционно эти
                                                     поисковые системы вследствие учета се-
проблемы решают путем расширения за-
                                                     мантики.
проса семантически близкими словами из
тезаурусов или из документов, возвращен-
                                                         1. Векторные и распределенные
ных системой в ответ на запрос и помечен-
                                                      представления текстовой информации
ных пользователем как релевантные [1].
       Ручное конструирование лингвисти-                    1.1. Векторные представления. Со-
ческих ресурсов типа тезаурусов и онтоло-            временные методы векторного представле-
гий (например, WordNet [2]) очень трудо-             ния текстовой информации являются разви-
емко. Поэтому привлекательны автоматиче-             тием моделей векторных пространств VSM
ские методы получения и представления се-            (Vector Space Models), предложенных в [8].
мантической информации. Ряд таких ме-                В этих моделях компоненты текстов, такие
тодов основан на использовании векторных             как слова, словосочетания, фрагменты тек-
моделей [3 – 6], где информация о совмест-           стов, целые документы, представлены мно-
ной встречаемости слов извлекается из                гомерными векторами. Элементы векторов
больших коллекций (корпусов) текстов и               есть значения некоторой функции от час-
фиксируется в так называемых семантиче-              тоты совместной встречаемости компонен-
ских или контекстных векторах. Сходство              тов текстов и их контекстов. Степень сход-
контекстных векторов, вычисляемое как                ства между компонентами текстов q и d оп-
скалярное произведение или расстояние,               ределяется величиной сходства между их
принимают за меру семантической близости             векторами q и d. Обычно используется не-
слов. Из контекстных векторов формиру-               которая монотонная функция угла между
ются представления документов и запросов,            векторами, например косинус cos(q,d), ко-
которые отражают не только набор состав-             торый для нормированных векторов совпа-
ляющих их слов, но и их семантику                    дает со скалярным произведением (q,d).
(смысл). Сходство таких представлений                       Рассмотрим в качестве компонентов
позволяет системе найти документы, кото-             текста слова, а в качестве контекстов – до-
рые могут и не содержать слов запроса, но            кументы. Введем следующие обозначения:
соответствуют запрашиваемой теме.                    w – количество уникальных слов в коллек-
       Векторные подходы близки к мето-              ции документов;

                              © И.С. Мисуно, Д.А. Рачковский, С.В. Слипченко, А.М. Соколов, 2005
50                                         ISSN 1727-4907. Проблеми програмування. 2005. № 4
Інформаційні системи
t – общее количество документов в коллек-         – латентное семантическое индексирование
ции;                                              [3]) полагается, что пространство с умень-
tfij – частота встречаемости слова wi в доку-     шенной размерностью, содержащее наибо-
менте dj;                                         лее значимые линейные комбинации изме-
dfi – количество документов, содержащих           рений первоначального пространства, дает
слово wi;                                         лучший базис для представления содержа-
idfi = log(t/dfi) – обратная частота докумен-     ния документов. В основе LSI лежит проце-
тов, содержащих слово wi.                         дура SVD (singular value decomposition – де-
         Построим матрицу A (размерностью         композиция по сингулярным значениям),
w×t) встречаемости слов в документах кол-         которая позволяет представить A как
лекции. Элементы матрицы aij – "веса" слов                        A = UDVT,                    (0)
в документах. Часто полагают aij=tfij·idfi.       где D=diag(σ1,...,σr) – диагональная матрица
         Ряд векторных представлений ком-         сингулярных значений, U=(u1,...,ur) и
понентов текстов (документов и запросов)          V=(v1,...,vr) – матрицы w×r и t×r с ортонор-
можно рассматривать как проекции (транс-          мированными столбцами левых и правых
формацию) векторов документов d или век-          сингулярных векторов соответственно.
торов запросов q в другое пространство.                   В LSI в качестве нового базиса для
Трансформация осуществляется с помощью            редуцированного векторного пространства
некоторой матрицы P, а сходство векторов в        выбираются k столбцов Uk (ортогональных
новом пространстве также определяется как         сингулярных векторов), соответствующих k
скалярное произведение                            наибольшим        сингулярным        значениям.
    simP (d,q) = (PTd)(PTq) = dT PPT q.     (0)   Столбцы Uk являются линейными комбина-
         Оригинальная модель VSM [1, 8] ос-       циями документов. В [3] представлениями
нована на предположении, что смысл всего          слов предлагается считать соответствующие
документа выражается смыслом используе-           строки матрицы UΣk. Сходство компонентов
мых в нем слов. Документы представлены            текста находится после их проецирования в
векторами – столбцами матрицы A, запросы          k-мерное пространство векторов-столбцов
– векторами, составленными из слов за-            матрицы Uk ≡ IkUT (P = UIk,) как
проса. Таким образом, для VSM модели                  simLSI (d, q) = (IkUTd) (IkUTq) =
P=I, а сходство вычисляется как                                                               (0)
                                                          = dTUIk2UTq = dTUIkUTq.
simVSM(d,q) = (ITd)(ITq) = dTIIT q = dTq.   (0)
         Критика VSM (например, [4]) осно-               1.2. Распределенные    представле-
вывается на том, что в качестве ортогональ-       ния. Для больших коллекций документов
ного базиса векторного пространства ис-           полноразмерная матрица А оказывается
пользуются слова, которые на самом деле           слишком большой для обработки и даже
часто семантически зависимы. Для преодо-          хранения в оперативной памяти компью-
ления этого недостатка была предложена            тера. Один из подходов к решению этой
альтернатива в виде метода GVSM (Gener-           проблемы основан на применении распре-
alized Vector Space Model – обобщенной мо-        деленных представлений. В отличие от ло-
дели векторного пространства [9]. Она ос-         кальных представлений, где каждый ин-
нована на том, что A рассматривается не           формационный компонент данных пред-
только как представление документов с по-         ставлен элементом кодвектора, т.е. одним из
мощью слов, как в VSM, но и как представ-         ортогональных измерений входного про-
ление слов с помощью документов. Каждая           странства, в распределенных представле-
строка A отражает распределение слов по           ниях каждому компоненту данных соответ-
документам. Два слова считают семантиче-          ствует N-мерный вектор со случайно сгене-
ски связанными друг с другом, если похожи         рированными элементами (см. [7]). В мно-
их распределения по документам. Сходство          гомерном пространстве «почти ортогональ-
запроса и документа в методе GVSM можно           ных» измерений гораздо больше, чем орто-
представить как (P = A)                           гональных. Для ряда распределений эле-
  simGVSM(d,q) = (ATd)(ATq) = dTAATq.       (0)   ментов случайные векторы близки к орто-
         В схеме LSI (Latent Semantic Indexing    гональным и достаточно хорошо аппрокси-

51
Інформаційні системи
мируют исходный базис. Если в качестве            ковыми для всех элементов вектора (напри-
текстовых компонентов рассматривать до-           мер, 0 при тернаризации c нулевым порогом
кументы и N θ+ ≥ 0;                         2. Прототип поисковой системы
         y = –1, если x
Інформаційні системи
лять, модифицировать и сравнивать различ-     странства для хранения. Однако создание
ные варианты алгоритмов. На основе объ-       такой матрицы и организация эффективного
ектно-ориентированного подхода разрабо-       доступа к ее строкам позволяют значи-
таны библиотека классов С++ и набор мо-       тельно ускорить последующий процесс по-
дулей, выполняющих последовательность         иска.
обработки текстовой информации.
        Система состоит из модулей форми-
рования контекстных векторов и собственно
модуля поиска. Обобщенная архитектура
приведена на рис. 1.
        Процесс формирования контекстных
векторов можно разбить на 4 этапа: (I) ин-
дексирование корпуса, (II) формирование
матриц слова×документы и/или слова×сло-
ва, (III) формирование контекстных векто-
ров слов и матрицы скалярных произведе-
ний контекстных векторов слов. По сфор-
мированной матрице производится поиск
либо в режиме тестирования (IV), либо в ре-
жиме он-лайн поиска.
        Индексирование корпуса включает
формирование словаря и индексированного
файла корпуса, в котором слова заменены
на их индексы. Словарь может быть под-
вергнут фильтрации: удалению малоинфор-
мативных слов или слишком редких/частых
слов (and, or, …); обрезке слов по длине
(основой слова считаются первые 4,6,8…
букв) или выделению основ (например, биб-
лиотекой morph А. Курсина).
        На основе словаря и индексирован-
ного корпуса формируются матрицы слова×
документы и/или слова×слова, которые в
последующем используются для формиро-            Рис. 1. Архитектура поисковой системы
вания контекстных векторов слов (см. разд.
1.2). Из контекстных векторов слов, с ис-     Реализован также прототип системы поиска
пользованием матрицы слова×документы          документов в режиме взаимодействия с
взвешенным суммированием и нормирова-         пользователем (режим он-лайн). Эта систе-
нием строятся векторы документов.             ма выполняет поиск по предварительно
        Несмотря на то что векторы доку-      проиндексированным коллекциям докумен-
ментов в большинстве случаев разрежен-        тов. Система работает под управлением веб-
ные, нахождение сходства вектора запроса с    сервера MS IIS (Internet Information Ser-
векторами всех документов является трудо-     vices), интерфейс пользователя реализован
емкой задачей (t>>w). Для ускорения пред-     на Dynamic HTML с отображением в веб-
варительно вычисляется матрица скалярных      браузере.
произведений каждого слова с каждым до-               Работа с контекстными векторами на
кументом. Тогда сходство запроса с каждым     серверной стороне осуществляется с помо-
из документов можно получить как сумму        щью технологии программирования ASP
ее строк, соответствующих словам запроса      (Active Server Pages) и JScript, а также СО-
(с выбранным взвешиванием и нормирова-        М-объектов, реализованных на С++. СОМ-
нием). Матрица не является разреженной и      объекты осуществляют чтение словаря, ин-
требует большого объема дискового про-        дексированный поиск вектора по слову, вы-

53
Інформаційні системи
                    Пользо-    Сервер            СОМ-объект    Ранжиро-
                    ватель    IIS, ASP             поиска       вание

                         запрос
                                         результаты

                          вывод

                   Рис. 2. Диаграмма последовательности вызовов при
                                 работе системы поиска

числение контекстного вектора нескольких                 3.1. Коллекции документов. В экс-
слов и коэффициента сходства между двумя          периментах по поиску использовались кол-
текстовыми фрагментами, поиск наиболее            лекции MEDLARS, Cranfield, Time Maga-
близких запросу документов, произвольный          zine [17], которые предназначены для ис-
доступ к документам в коллекции. Диаграм-         следования поисковых систем и имеют
ма последовательности вызовов, осуще-             сформированные экспертами списки запро-
ствляемых при взаимодействии пользовате-          сов и документов, соответствующих каж-
ля с системой поиска, приведена на рис. 2.        дому запросу. Это позволяет численно оце-
       Пользователь вводит запрос в окно          нивать качество поиска по стандартным ме-
веб-браузера, который обращается к веб-           рам полнота-точность (см. разд. 3.2).
серверу MS IIS. Сервер выполняет про-                    MEDLARS (Medical Literature Analy-
грамму на языке ASP/JScript, обрабаты-            sis and Retrieval System) – коллекция анно-
вающую запрос с помощью вызовов COM-              таций к статьям биомедицинской направ-
объектов. Результаты поиска в виде HTML           ленности. Содержит 1033 документа сред-
передаются пользователю, который про-             ней длиной порядка 50 слов. Объем словаря
сматривает их в браузере. Внешний вид             составляет порядка 12 тыс. слов. Заданы 30
окна веб-браузера при работе с системой           поисковых запросов, содержащих в среднем
поиска представлен на рис. 3.                     по 10 слов, каждому запросу в среднем со-
   3. Экспериментальное исследование              ответствуют около 20 документов.

                Рис. 3. Пример работы макета программы поиска текстов

                                                                                          54
Інформаційні системи
         Cranfield (Cranfield University UK) –   нотой. Это и есть результирующая 11-то-
коллекция аннотаций к статьям по аэроди-         чечная характеристика системы поиска;
намике. Содержит порядка 1400 документов         (v) усреднить все 11 значений и получить
и 225 запросов.                                  число "11-pt average precision".
         Time Magazine – коллекция статей из             3.3. Поиск текстовой информации.
«Time Magazine». Содержит 425 документов         Ниже приведены примеры поиска с учетом
и 83 запроса.                                    семантики слов, выполненного на коллек-
         Кроме того, использовалась коллек-      ции TASA.
ция TASA (Touchstone Applied Sciences Asso-      Пример 1. Запрос: «hiroshima». Возвращен-
ciation) [18] – тексты по литературе, биоло-     ные в результате VSM-поиска документы
гии, экономике, промышленности, науке,           содержат искомое слово, в то время как тек-
искусству, социологии и бизнесу, рекомен-        сты, возвращенные другими методами, не
дованные для чтения в колледжах США. Бо-         содержат слова “hiroshima”, хотя в них речь
лее чем 37 600 текстов, каждый из которых        идет об атомной бомбардировке Хиросимы
состоит примерно из 166 слов из словаря в        и Нагасаки 1945 года и их последствиях.
94 000 слов, в сумме содержат более чем 10       Пример 2. Запрос: «vessel» (судно, посу-
млн слов. Для этой коллекции нет списка          дина, кровеносный сосуд). Возвращенные в
запросов с ответами.                             результате поиска по методам GVSM, RI и
         3.2. Методика оценки результатов        RL тексты используют это слово в разных
поиска. Для численной оценки качества ра-        значениях. Некоторые возвращенные тек-
боты систем поиска применялась средняя           сты не содержат «vessel», но в них гово-
(интерполированная) точность (11-pt aver-        рится о кровеносной системе и давлении
age precision) [8]. Определим полноту            крови.
recall=d/d1, точность precision=d/d2, где d –    Пример 3. Запрос: "america". Результаты
количество найденных релевантных запросу         поиска содержат несколько текстов, в кото-
документов; d1 – количество релевантных          рых это слово не встречается, но речь идет о
запросу документов; d2 – общее количество        гражданской войне в Америке 1830 г., упо-
возвращенных по запросу документов. Ме-          минается Thomas Jefferson и т.д.
тодика вычисления 11-pt average precision                Приведенные примеры показывают,
включает в себя следующие этапы:                 что поиск при учете семантической связи
(i) для каждого запроса получить ранжиро-        слов посредством использования контекст-
ванный список документов и для каждого           ных векторов позволяет найти тексты на
J=1,..., d2 из этого списка вычислить значе-     тему запроса, не содержащие слов запроса.
ние точности и полноты;                          В ряде случаев это также улучшает качество
(ii) в каждом из 10 интервалов полноты ме-       поиска.
жду 0%,10%,…,100% выбрать наибольшее                     Средняя точность (см. разд. 3.2) по-
значение точности в качестве репрезента-         иска в разных коллекциях приведена в
тивного значения левой границы интервала.        табл. 1, а зависимость средней точности от
Для полноты 100% репрезентативной точ-           полноты для разных методов на коллекции
ностью будет либо точное значение, если          Medlars – на рис. 4. Применялись норми-
оно существует, либо ближайшее имею-             ровки матрицы частот A в позиционной но-
щееся. Если интервал пуст, «репрезентатив-       тации SMART [8]: l означает логарифмиро-
ная» точность равна нулю;                        вание частоты (1+log tf); t – умножение на
(iii) выполнить интерполяцию – в каждом          idf; с – нормирование векторов документов
интервале в качестве репрезентативной точ-       (строк матрицы A) к L2; n – отсутствие со-
ки выбрать максимальное значение точ-            ответствующего взвешивания или норми-
ности в данном интервале или в интервале с       ровки. Например, nnn означает, что никаких
большим значением полноты;                       действий ни с матрицей, ни с векторами не
(iv) построить (в соответствии с пп. i,ii,iii)   осуществлялось; ltc – использованы все три
индивидуальные характеристики для всех           процедуры. В экспериментах применялся
запросов, после чего усреднить репрезента-       единственный способ морфологической об-
тивные значения в точках с одинаковой пол-       работки – выделение первых 8 букв слова в

55
Інформаційні системи
 Таблица 1. Средняя точность поиска в коллекциях MED, TIME, CRAN
                MED                      TIME                     CRAN
       VSM GVSM CONTEXT VSM GVSM CONTEXT VSM GVSM CONTEXT
  tr=8 dotp dotp dotp L1 L2 dotp dotp dotp L1 L2 dotp dotp dotp L1 L2
  nnn 0.45 0.54 0.23 0.55 0.54 0.42 0.39 0.14 0.36 0.48 0.26 0.21 0.03 0.27 0.28
   ntn 0.51 0.68 0.36 0.66 0.67 0.58 0.62 0.20 0.55 0.64 0.35  — 0.08 — 0.42
   lnn 0.50 0.53 0.20 0.56 0.56 0.51 0.46 0.10 0.49 0.53 0.34 0.25 0.03 0.28 0.29
   ltn 0.54 0.69 0.32 0.66 0.68 0.62 0.67 0.16 0.67 0.69 0.40 0.42 0.06 0.44 0.46
  nnc 0.50 0.55 0.26 0.57 0.55 0.57 0.43 0.14 0.47 0.52 0.37 0.23 0.04 0.27 0.28
   ntc 0.54 0.69 0.42 0.67 0.67 0.68 0.66 0.25 0.63 0.67 0.41 0.41 0.08 0.41 0.43
   lnc 0.53 0.54 0.23 0.56 0.56 0.64 0.45 0.11 0.52 0.55 0.40 0.26 0.03 0.29 0.29
   ltc 0.55 0.70 0.37 0.67 0.69 0.68 0.66 0.18 0.65 0.69 0.42 0.42 0.06 0.44 0.45

качестве базовой словоформы (tr=8).                                  ных векторов, дает результаты на уровне
       Контекстные векторы RI формирова-                             GVSM (или на несколько процентов выше)
лись по (0) при N=2000, количестве ненуле-                           на всех трех коллекциях. Применение кон-
вых элементов в индексных векторах n=p=5                             текстных представлений с дискретными
(p и n, соответственно плюс и минус еди-                             элементами дает результаты, сравнимые с
ниц), а векторы документов – суммирова-                              контекстными представлениями с действи-
нием полученных контекстных векторов.                                тельными элементами, но обеспечивает
Результаты по VSM/GVSM получены нахо-                                большие возможности повышения эффек-
ждением сходства запроса и документа ска-                            тивности обработки вследствие сокращения
лярным произведением их векторов (dotp), а                           объема памяти и упрощения применяемых
по контекстным векторам (CONTEXT) –                                  операций.
скалярным произведением (dotp) с возмож-                                    Кривые средней точности поиска по
ным нормированием контекстных векторов                               методам GVSM-ltc и RI-ltc с действитель-
по L1, L2. Нотация lt2, lt3 означает, что к                          ными векторами находятся рядом и выше
контекстным векторам слов применялась,                               кривых других методов. Кривая средней
соответственно, бинаризация и тернариза-                             точности поиска по контекстным векторам
ция (0). Результаты с дискретизацией                                 RI с дискретизацией проходит немного
контекстных векторов приведены в табл 2.                             ниже, но также над кривыми других мето-
Поиск по GVSM превосходит VSM (улуч-                                 дов при полноте больше 15%.
шение до 20%) для коллекции MED, пока-                                      Исследовался также поиск с исполь-
зывая сравнимые результаты на TIME и                                 зованием q-граммного представления тек-
CRAN. Применение представлений, учиты-                               стовой информации. При таком представле-
вающих семантику посредством контекст-                               нии в качестве признаков используются по-

                                     1
                                    0,9

                                    0,8

                                    0,7
                     Ср. точность

                                    0,6
                                                  VSM nnn
                                    0,5           VSM ltc
                                                  GVSM nnn
                                    0,4           GVSM ltc
                                                  RI2000p5n5 ltc L2
                                    0,3           RI2000p5n5 lt3c L2
                                                  VSM ql6 nnn
                                    0,2
                                          0   1      2    3   4      5    6   7   8   9   10
                                                                  Полнота

           Рис. 4. Зависимость средней точности поиска от полноты для Medlars

                                                                                                            56
Інформаційні системи
     Таблица 2. Средняя точность поиска с дискретными контекстными векторами
                              MED           TIME           CRAN
                           CONTEXT        CONTEXT        CONTEXT
                    tr=8 dotp L1 L2 dotp L1 L2 dotp L1 L2
                    lt2n 0.05 0.60 0.61 0.07 0.61 0.70 0.02 0.25 0.43
                    lt2c 0.08 0.52 0.61 0.08 0.63 0.64 0.02 0.31 0.41
                    lt3n 0.21 0.61 0.63 0.09 0.65 0.70 0.03 0.38 0.40
                    lt3c 0.32 0.61 0.63 0.13 0.66 0.66 0.07 0.44 0.45

следовательности из q элементов алфавита.       всех коллекций).
В отличие от обсуждавшихся выше методов
поиска VSM, GVSM, RI это позволяет                             Заключение
учесть не только наличие, но и последова-              Проведено исследование векторных
тельность признаков (например, слов в тек-      и распределенных представлений слов в за-
стах).                                          даче поиска текстовых документов. Исполь-
         При использовании в качестве эле-      зовались как "традиционные" представле-
ментов алфавита слов, при q=1 q-граммное        ния (векторы, составленные из слов тексто-
представление является аналогом представ-       вого фрагмента – запроса или документа),
ления bag-of-words (традиционный VSM).          так и представления, отражающие семанти-
Использовались комбинированные q-грамм-         ческую близость слов и текстов (основан-
ные представления текстов, где вектор при-      ные на контекстных векторах).
знаков содержал q-граммы длиной от 1 до                Исследования показали, что приме-
qmax с разными весами. Для схемы 1 взвеши-      нение распределенных представлений по-
вание не применялось, для схемы 2 q-грам-       зволяет сократить размерность контекстных
мы длиной q∈{1, qmax} входили с весом           векторов и обойти сложности конструиро-
wq=qmax–q+1, а для схемы 3 – с весом wq=q. В    вания и обработки полной матрицы слова-
табл 3 приведены результаты VSM-поиска в        контексты, размер которой может быть
трех коллекциях по ненормированным (nnn)        очень велик для больших текстовых масси-
q-граммным векторам, полученным для             вов. Использование бинарных и тернарных
tr=8.                                           контекстных векторов позволяет значи-
        Результаты показывают, что добав-       тельно сократить затраты памяти и вычис-
ление в представления текстов последова-        лительных ресурсов на их хранение и обра-
тельностей слов позволяет несколько улуч-       ботку на обычных компьютерах. Такие рас-
шить результаты поиска (на 6–15% при            пределенные представления совместимы с
qmax=2,3) по сравнению с VSM-nnn без учета      форматом данных в ассоциативно-проек-
последовательности. Наилучший результат         тивных нейронных сетях [7]. Это позволяет
наблюдается, когда последовательности           использовать методы, предложенные для
большей длины имеют больший вес в век-          обработки таких представлений в АПНС,
торных представлениях (столбцы qwc3 для
  Таблица 3. Средняя точность поиска по q-грамным векторам
                  MED                        TIME                       CRAN
   qmax словарь qwc1 qwc2 qwc3 словарь qwc1 qwc2 qwc3 словарь qwc1 qwc2 qwc3
     1 10144 0,449 0,449 0,449 18247 0,417 0,417 0,417 6715 0,261 0,261 0,261
     2 77329 0,466 0,454 0,477 129186 0,435 0,421 0,447 81883 0,296 0,272 0,306
     3 157895 0,465 0,460 0,460 252613 0,437 0,425 0,460 194665 0,300 0,278 0,280
     4 241687 0,461 0,461 0,445 378283 0,436 0,432 0,459 320562 0,298 0,285 0,242
     5 327049 0,461 0,461 0,430 504914 0,436 0,433 0,449 452472 0,295 0,289 0,210
     6 413618 0,459 0,461 0,429 632157 0,436 0,433 0,437 588197 0,289 0,291 0,198
     7 501279 0,456 0,459 0,429 759907 0,436 0,433 0,435 726833 0,285 0,291 0,184
    10 770557 0,450 0,457 0,431 1145820 0,436 0,433 0,434 1156554 0,275 0,292 0,176
    15 1240027 0,446 —        — 1797585 0,441 —          — 1908175 0,256 —          —

57
Інформаційні системи
пополнить арсенал АПНС семантическими        кость разработанной архитектуры по-
представлениями, а также обеспечить эф-      зволяют в дальнейшем перейти к более глу-
фективную аппаратную поддержку в виде        бокому смысловому анализу в процессе по-
специализированных вычислителей и ней-       иска (см. [20]).
рокомпьютеров [19].                                 Таким образом, проведенные иссле-
       Разреженные варианты представле-      дования и полученные результаты создают
ний с малым количеством ненулевых эле-       предпосылки и открывают перспективы для
ментов являются нейробиологически реле-      создания новых информационных техноло-
вантными и дают возможность дальнейшего      гий и прикладных систем поиска информа-
повышения эффективности обработки (на-       ции с элементами учета семантики. По-
пример, путем использования процедур, по-    строение такого рода систем предполагается
строенных на обратном индексе). Рост эф-     осуществлять на основании компонентно-о-
фективности сильно зависит от формы          риентированного подхода [21].
представления информации, применяемых
алгоритмов и аппаратных средств. Для         1. Grossman D., Frieder O. Information Retrieval: Algo-
                                             rithms and Heuristics. – Boston: Kluwer, 1998. – 255 p.
обычных компьютеров экономия памяти и
                                             2. Miller G. Wordnet: a lexical database for english //
повышение быстродействия достигается за      Communications of the ACM. – 1995. – № 11. – P. 39-
счет использования 1–2 бит памяти для хра-   41.
нения содержимого элемента дискретного       3. Indexing by latent semantic analisys / S. Deerwester,
вектора вместо 64 бит для действительного.   S. Dumais, G. Furnas, T. Landauer, R. Harshman. – J. of
При эффективной реализации специализи-       American Society for Information Sciences. – 1990. – №
                                             1(6). – P. 391-407.
рованными аппаратными средствами логи-       4. Translingual information retrieval: learning from bi-
ческих битовых операций, требующихся для     lingual corpora / Y. Yang, J. Carbonell, R. Brown,
дискретных векторов, возможно дополни-       R. Frederking. – Artificial Intelligence. – 1998. – № 103.
тельное повышение быстродействия по          – P. 323-345.
сравнению с арифметическими операциями       5. Kanerva P., Kristoferson J., Holst A. Random index-
                                             ing of text samples for Latent Semantic Analysis // 22nd
с плавающей точкой, требующихся для дей-     Ann. Conf. of the Cognitive Science Society. – U Penn-
ствительных векторов.                        sylvania: Erlbaum, 2000. – P. 1036.
       Разработан и реализован ряд прото-    6. Karlgren J., Sahlgren, M. From Words to Under-
типов систем формирования векторных          standing // Foundations of Real-World Intelligence /
представлений текстовой информации, а        Y. Uesaka, P. Kanerva, H. Asoh (eds.) – Stanford: CSLI
                                             Publications, 2001. – P. 294-308.
также поисковых систем, основанных на        7. Куссуль Э.М. Ассоциативные нейроподобные
них. Результаты, полученные с помощью        структуры. – Киев: Наук. думка, 1991. – 144 с.
распределенных представлений, находятся      8. Salton G. Automatic Text Processing: The Transfor-
на уровне результатов локальных представ-    mation, Analisys, and Retrieval of Information by Com-
                                             puter. – Addison-Wesley, Reading, MA. – 1989. – 530
лений, но превосходят их по эффективности    p.
и масштабируемости. Использование разра-     9. Wong S., Ziarko W., Raghavan V., Wong P. On mod-
ботанных представлений текстовой инфор-      eling of information retrieval concepts in vector space //
мации показало улучшение результатов до      ACM Transactions of Database Systems. – 1987. – № 2.
20% по сравнению с обычным VSM-поис-         – P. 299-321.
                                             10. Kaski S. Dimensionality Reduction by Random Map-
ком по словам запроса вследствие примене-    ping: Fast Similarity Computation for Clustering //
ния контекстных векторов слов и докумен-     IJCNN'98, Intern. J. Conf. on Neural Networks. – Pis-
тов.                                         cataway, NJ. – 1998. – 1. – P. 413-418.
       В описанных схемах учитывалась        11. Johnson W., Lindenstrauss J. Extensions of Lipshitz
                                             mapping into Hilbert space // Contemporary Mathemat-
информация об относительном расположе-
                                             ics. – 1984. – № 26. – P. 189-206.
нии слов. Это лишь малая часть структур-     12. Indyk P. Algorithmic Applications of Geometric Em-
ной информации, доступной в больших кол-     beddings // FOCS-01. IEEE. – 2001.– P.10-35.
лекциях текстов. Для более полного вы-       13. Charikar M. Similarity estimation techniques from
явления семантики текста важно использо-     rounding algorithms // ACM Symp. on Theory of Com-
вать и другие структурные отношения, при-    puting. – 2002. – P. 380-388.
                                             14. Burgess C., Lund K. The dynamics of meaning in
сущие естественному языку. Выбранный         memory // Cognitive Dynamics / E. Dietrich, A.B. Mark-
метод построения поисковой системы и гиб-    man (eds.). – Mahwah, NJ: Lawrence Erlbaum Associ-

                                                                                                    58
Інформаційні системи
ates. – 2000. – P. 117-156.
15. Caid W., Dumais S., Gallant S. Learned vector-space   Рачковский Дмитрий Андреевич,
models for document retrieval // Information Processing
and Management. – 1995. – 31(3). – P. 419-429.
                                                                канд. техн. наук, ст. научн. сотр.
16. Процедура связывания для бинарного распреде-
ленного представления данных / Д.А. Рачковский,           Мисуно Иван Семенович,
С.В. Слипченко, Э.М. Куссуль, Т.Н. Байдык. – Ки-                 вед. инж.-программист
бернетика и системный анализ. – 2005. – № 3 –
С. 3-18.                                                  Слипченко Сергей Витальевич,
17. Cornell University SMART text collections. –
ftp://ftp.cs.cornell.edu/pub/smart/
                                                                 вед. инж.-программист
18.          TASA          text      collection.      –
http://lsa.colorado.edu/spaces.html                       Соколов Артем Михайлович,
19. Нейрокомпьютеры и интеллектуальные роботы /                  мл. науч. сотр.
Н. Амосов, Т. Байдык, А. Гольцев, А. Касаткин,
Л. Касаткина, Э. Куссуль, Д. Рачковский. – Киев:          Место работы авторов:
Наук. думка, 1991. – 272 p.                               Международный научно-учебный центр ин-
20. Гладун В., Величко В. Конспектирование естест-
                                                          формационных технологий и систем НАН Ук-
венноязыковых текстов // 10 Intern. Conf, "Knowledge
– Dialogue – Solution" KDS'05. – 2005. – № 2. –           раины и МОН Украины
C.344-347.                                                Просп. Акад. Глушкова, 40, Киев, Украина
21. Грищенко В.Н., Лаврищева Е.М. Компонентно-о-          Тел. +38 (044) 502 6341
риентированное программирование. Состояние,               E-mail: dar@infrm.kiev.ua
направления и перспективы развития // Пробл. про-                 i.misuno@longbow.kiev.ua
граммирования. – 2002. – № 1-2. – P. 80-90.                       slipchenko_serg@ukr.net
                                                                 sokolov@ukr.net

Об авторах

59
Вы также можете почитать