Быстрословарь: предсказание морфологии русских слов с использованием больших лингвистических ресурсов Bystroslovar': morphological prediction of ...

Страница создана Кирилл Сухов

Разное

Русский

Лайк
Поделиться
Встроить
На весь экран
Слайды
Скачать HTML
Скачать PDF
Жалоба

←

ПРОДОЛЖИТЬ ЧТЕНИЕ

→

Транскрипция содержимого страницы

Если ваш браузер не отображает страницу правильно, пожалуйста, читайте содержимое страницы ниже

Быстрословарь: предсказание морфологии
                           русских слов с использованием больших
                           лингвистических ресурсов
                           Bystroslovar’: morphological prediction of new
                           Russian words using very large corpora

                           Сокирко А. В. (sokirko@yandex-team.ru)
                           ООО «Яндекс», Москва, Россия

                           Рассматривается система предсказания морфологических признаков и полной
                           парадигмы слова, разработанная для поиска по веб-страницам на русском языке.
                           Система использует 12 факторов предсказания, размеченный корпус примеров,
                           на котором тренируется модель машинного обучения. Описаны факторы, на кото-
                           рых строится обучение, делается попытка оценить значимость каждого фактора
                           для решения поставленной задачи. Приводится сравнение построенной модели
                           по точности и полноте с моделью, построенной на одном факторе.

               1. Постановка задачи                                этот словарь должен включать все слова, найденные
                                                                   в рунете и не вошедшие в основной словарь.
                    Роль крупных Интернет-порталов, предоставля-        Данная публикация описывает новый алго-
               ющих пользователям возможность поиска по вебу,      ритм построения быстрословаря. Основным досто-
               растет с каждым годом. Ранжирование веб-страниц     инством этой версии мы считаем:
               по релевантности пользовательскому запросу не ре-        1. Учет многих факторов морфологического
               шается без установления того, что слова из поль-              предсказания внутри одной системы ма-
               зовательского запроса равны по значению словам,               шинного обучения, что для русского языка
               взятым с веб-страницы. Самое частое преобразова-              не является разработанным приемом.
               ние слов при поиске в рунете — морфологическое.          2. Получение информации из агрегирован-
               Традиционно большая часть морфологической ин-                 ных пользовательских запросов и из тек-
               формации записывается в словаре, это удобно, по-              стов веб-страниц.
               скольку морфология языка достаточно статична.
               Для каждого входного слова в этом словаре даются
               морфологические характеристики и парадигма сло-
               воизменения. Формально для поиска нужна толь-       2. Обзор литературы
               ко парадигма словоизменения, но в реальности
               определение, например, части речи может помочь           Системы морфологического анализа — одна
               установлению всех форм слова. Кроме статичного      из самых разработанных областей компьютерной
               основного словаря, во многих системах строится      лингвистики. Морфологические системы для русско-
               специальный модуль предсказания новых слов, ко-     го языка традиционно основываются на граммати-
               торых нет в основном словаре. Поскольку веб-поиск   ческом словаре А. А. Зализняка[1]. Алгоритмы пред-
               в каждый момент времени имеет дело с фиксирован-    сказания обобщают морфологические схемы, пред-
               ным («замороженным») корпусом, представляется       ложенные в этом или родственном ему словарях, и/
               целесообразным спроектировать словарь, функцио-     или учитывают распространенность этих схем в сло-
               нально равный основному морфологическому сло-       варе и в обучающем корпусе. Один из первых алго-
               варю, но построенный автоматически по пользова-     ритмов морфологического предсказания для русско-
               тельским запросам и веб-страницам. Такой словарь    го языка был предложен в работах Г. Г. Белоногова
               мы будем называть «быстрословарем», поскольку       [2, 3]. Главным в этом алгоритме предсказания был
               строится быстрее ручного словаря и поскольку        принцип «корреляции между грамматическими
               он должен обновляться достаточно часто. В идеале    признаками слов и буквенным составом их кон-

Dialog'2010.indb 450                                                                                               11.05.2010 16:58:01

Быстрословарь: предсказание морфологии русских слов                                                 451

               цов». Дальнейшее развитие алгоритмов, описанное,               возможность задать «исключения» (след-
               в частности, в работах Гельбуха[4], включало более             ствие «устаревших» законов) списком, это
               детальную проработку правил композиции морфем                  достаточно.
               и учет статистики морфем в корпусе текстов.               2.   Проблемы алгоритмической эффективно-
                         В 80-е и 90-e годы на факультете ВМК МГУ             сти определения новых слов (нас интере-
               активно разрабатывалась система TULIPS-2, которая              сует исключительно качество найденного,
               включала морфологический компонент[5], эта си-                 но не скорость работы программы).
               стема использовала для предсказания словарь основ
               и словарь флексий, учитывались чередования.
                    Развитие корпусной лингвистики подстегнуло
               рост интереса к системам, которые в качестве решаю-   3. Общая схема предсказания
               щего фактора используют частотность тех или иных
               морфологических схем в текстовом корпусе. Напри-           Итак, главная задача — построить автомати-
               мер, в работе Wicentowski[8] исследуется система,     ческий словарь («быстрословарь») по образу основ-
               которая построена на трех простых факторах:           ного словаря. Основной словарь — это словарь
                    1. Расстояние Левенштейна, модифицирован-        Mystem[12]. Для нашей задачи можно считать, что
                       ное под поиск морфологических вариантов       это просто модифицированная версия грамматиче-
                    2. Контекстная близость по соседним словам       ского словаря Зализняка. Каждое слово описывается
                       в корпусе                                     набором форм и морфологическими характеристи-
                    3. Близость по частоте форм в одинаковых мо-     ками, которые приписаны этой форме. Например,
                       делях словоизменения. Показывается, что       для слова «мама»:
                       система дает точность лемматизации поряд-
                       ка 80 % на 30 различных языках.                   мама S,од,жен,ед, им,
                    В работе Ножова [9] предлагается взвешивание         мамы S, од, жен,ед, род
               гипотез морфологического предсказания с исполь-           маме S,од,жен,ед, дат
               зованием метод корреляции. Матрицы корреляции             маму S, од,жен,ед,вин
               строятся для основ и значений классифицирующих            мамой S, од, жен, ед,твор
               грамматических категорий. Гипотезы, имеющие               маме S,од,жен,ед,пр
               максимальную корреляцию объявляются наиболее              мамы S,од,жен, мн,им
               правдоподобными.                                          ....
                    В работе Ляшевской и др.[10] был предложен
               метод взвешивания морфологического предсказа-              В каждой такой парадигме можно выделить
               ния, основанный на следующем утверждении.             псевдооснову (неизменяемую левую часть), в дан-
                    Если некоторое слово открытого (словоизме-       ном случае мам-, можно выделить StemGrammar
               нительного) класса встретилось в тексте в форме X,    (словообразовательные пометы, в данном случае
               то скорее всего оно встретится в тексте в форме Y,    «S,од,жен») и FlexGrammar (словоизменительные
               отличной от первой. Из этого можно сделать предпо-    пометы). Можно записать данную парадигму в виде
               ложение, что парадигмы новых слов тем лучше, чем      тройки , где модель окончаний — это набор пар вида
               пусе. В этой работе строились парадигмы для слов      , например:
               из Национального корпуса русского языка (НКРЯ).
                    В последних работах Goldsmith[11], одного             мама = ,
               из самых увлеченных исследователей в этой обла-       где F = , ..
               сти, исследуется принцип минимального описания,
               который гласит, что морфологическая теория, ко-            В текущей версии словаря используются око-
               торая описывает тот или иной корпус, должна быть      ло 3000 моделей. Некоторые из них уникальны,
               минимальной по длине. Например, если в корпусе        например, есть специальная модель для слова
               можно выделить N основ и K флексий, тогда такая       Комсомольск-на-амуре, там выделяются окончания
               теория лучше, чем теория, которая выделяет N+1        -а-на-амуре, -ом-на-амуре и т. д.
               основ или K+1 флексий.                                     Предполагается, что в быстрословаре не будет
                    Хочется отметить, что многие работы в этой об-   отличных от основного словаря наборов окончаний
               ласти затрагивают два аспекта, которые нас совер-     или StemGrammar, предполагается даже, что самые
               шенно не интересуют:                                  редкие модели окончаний или StemGrammar будут
                    1. Теоретическая морфология, когда авторы        убраны из рассмотрения.
                          пытаются смоделировать очень глубокие           Кроме основного словаря, используется еще два
                          законы, которые на сегодняшний день        источника. Это веб-страницы рунета (около 4 мил-
                          уже не являются продуктивными или рас-     лиардов русских страниц без спама, только html)
                          пространенными. Мы считаем, если есть      и лог частотных пользовательских запросов, где для

Dialog'2010.indb 451                                                                                                 11.05.2010 16:58:01

452                                                                                                                   Сокирко А. В.

               каждого запроса указана частота за месяц. Топ этого                              обучения, он равен ‘+’ только для верной гипотезы
               списка (всего 400 млн. запросов) выглядит так:                                   («S, жен, неод», ModelId=7). На самом деле в реаль-
                                                                                                ной модели целевой фактор является не булевским,
                        одноклассники                    3 308 624                              а некой шкалой, поскольку нас интересует не точное
                        в контакте                       1 457 124                              попадание в единственно верную модель оконча-
                        порно                            1 129 705                              ний, а хотя бы приблизительное. В обучающую вы-
                        mail.ru                          1 063 249                              борку было взято 4972 слова, по ним было построе-
                        вконтакте                        690 068                                но 124 677 гипотез. Тестовая выборка состояла уже
                        контакт                          558 708                                из несловарных слов морфотеста (998 слов), по ним
                        погода                           458 272                                было построено 24 923 гипотезы. Здесь может воз-
                        зайцев нет                       441 107                                никнуть вопрос: почему обучающая выборка состо-
                        однокласники                     391 875                                ит из словарных слов, а тестовая из несловарных?
                        работа                           356 324                                Очевидно, что выборки различны (см. об этом более
                        vkontakte                        350 099                                подробно в работе Клышинского[13]). К сожале-
                        из рук                           в руки 325 295                         нию, нам приходится мириться с этим, поскольку
                        гороскоп                         309 147                                выборка по несловарным словам слишком мала для
                        википедия                        307 352                                выделения из нее обучающей части.
                        рамблер                          303 245                                         Дальше на обучающей выборке строится
                                                                                                модель машинного обучения, которая может пред-
                    По вебу и по запросам составлены частотные сло-                             сказать StemGrammar и ModelId. На тестовой выбор-
               вари, где указана уже статистика для отдельных слов.                             ке проверяется качество модели. После этого мы бе-
                    Кроме входных данных, есть еще корпус разме-                                рем топ самых частых несловарных слов из запросов
               ченных запросов (т. н. «морфотест»), в котором для                               (около 1,5 млн), строим для них все гипотезы, модель
               каждого слова запроса указана вся парадигма сло-                                 машинного обучения предсказывает StemGrammar
               ва. Корпус содержит 10 тысяч запросов и размечен                                 и ModelId, по самым лучшим предсказаниям стро-
               вручную.                                                                         ятся парадигмы слов, если парадигмы сильно пере-
                    Общая схема построения словаря выглядит                                     секаются друг с другом или со словарными словами,
               так. Мы берем все словарные слова из морфотеста,                                 происходит отсев худших гипотез. Полученное мно-
               кроме стоп-слов и самых частых слова. Для каждого                                жество парадигм и есть новый быстрословарь.
               слова строятся все возможные морфологические ин-
               терпретации, хотя известно, что только одна из них
               верная. Для всех интерпретаций строятся значения
               всех факторов предсказания, и все вместе это со-                                 4. Факторы предсказания
               ставляет обучающую выборку.
                    Например, для слова мама строятся варианты                                          Отдельный фактор должен голосовать
               (гипотезы):                                                                      за ту или иную гипотезу морфологического пред-
                                                                                                сказания. Гипотеза морфологического предсказа-
                                           StemGrammar

                                                                                                ния (как сказано выше) — это модель окончаний
                                                                           ModelFreq

                                                                                                (ModelId) и словообразующие характеристики
                       Example

                                 ModelId

                                                                                                (StemGrammar). Нет необходимости понимать, как
                                                               FlexLen

                                                                                       IsGood

                                                                                                отдельный фактор участвует в формуле предсказа-
                                                                                                ния, достаточно знания, что значение этого фактора
                  рома   7  S,имя,муж,од                       1           212         –        влияет на выбор морфологической интерпретации.
                  Дюма 1135   S,од,фам                         0           234         –        Оценка влияния фактора (importance, важность)
                 Фатима  7  S,жен,имя,од                       1          2754         –        возникает позже, после автоматического подбора
                 Айова  23 S,муж,неод,гео                      1         13 908        –        формулы. Конечно, оценка Importance может только
                 ведьма  7    S,жен,од                         1          1000         +        приблизительно показать значимость фактора, и она
                   …                                                                            очень сильно зависит от выбранной модели машин-
                                                                                                ного обучения. В нашем случае Importance дается
                       Столбец Example — это пример, по кото-                                   по модели RandomForest[14], построенной на 30 ре-
               рому была построена данная гипотеза. ModelId —                                   шающих деревьях (реализация пакета R[15]).
               номер модели окончаний (по нему строятся все
               формы слова). FlexLen — длина псевдоокончания,
               ModelFreq — частота модели окончаний с данным
               StemGrammar в основном словаре. Столбцы FlexLen                                  5. Факторы внутреннего состава слова
               и ModelFreq даны как примеры факторов предсказа-
               ния, по которым происходит обучение (подробнее                                           Исторически самые используемые факторы
               ниже). Столбец IsGood содержит целевой фактор                                    для русского языка были связаны с окончанием сло-

Dialog'2010.indb 452                                                                                                                              11.05.2010 16:58:01

Быстрословарь: предсказание морфологии русских слов                                                 453

               ва (=псевдоокончание или постфикс). В нашей ра-       6. Контекстные факторы
               боты рассматриваются постфиксы длиной от 1 до 6
               символов. По входному слову и гипотезе предсказа-          Следующие два фактора используют данные про
               ния строится, соответственно, не больше 6 постфик-    контексты слов, взятые с web-страниц. Под обработ-
               сов, каждый из которых оценивается с помощью          ку контекстов была специально адаптирована модель
               следующих параметров: Fp(p) — сколько раз пост-       Trigram[16], построенная на полных тегах и обучен-
               фикс p был использован для данной модели оконча-      ная на Национальном корпусе русского языка. Для
               ний во всем словаре, Fg(p) — сколько раз постфикс     каждого контекста входного несловарного слова стро-
               p был использован с данным StemGrammar во всем        ятся вероятности того, что этому слову может быть
               словаре, Fa(p) — сколько раз постфикс p был ис-       приписана данная морфологическая интерпретация
               пользован во всех словах словаря. С помощью этих      (StemGrammar и FlexGrammar). При использовании
               частот строятся следующие факторы:                    этих факторов возможны следующие осложнения.
                                                                     Во-первых, тексты НКРЯ не равны текстам рунета
                       Sufﬁx_g — сумма всех Fg(p)/Fa(p) для всех     по жанрам и среднему количеству ошибок, хотя это
                       постфиксов слов предсказываемой парадигмы.    не так критично, ведь модель Trigram основывается
                       BadSufﬁx_g — количество всех постфиксов,      на тройках морфологических интерпретаций, типа
                       для которых Fg(p)=0 для всей предсказывае-
                       мой парадигмы.                                «A,ед,муж,им»,
                                                                     «A,ед,муж,им»,
                    Sufﬁx_p, BadSufﬁx_p — аналогично Sufﬁx_g         «S,ед,муж,им» // красивый красный шар
               и BadSufﬁx_p, но вместо функции Fg используется                     // новый желтый стол
               Fp. Получается, что Sufﬁx_g и BadSufﬁx_g оцени-
               вают, насколько слово подходит предсказываемому           Такие триграммы широко распространены как
               StemGrammar, а Sufﬁx_p, BadSufﬁx_p — предсказы-       в НКРЯ, так и в рунете.
               ваемой модели окончаний.                                  Во-вторых, некоторые контексты в рунете столь
                    Важность этих факторов для предсказания          неоднозначны, что опираться на них не стоит. Учи-
               StemGrammar высока:                                   тывая это, мы пропускаем те контексты, в которых
                                                                     уровень морфологической неоднозначности пре-
                                Предсказание     Предсказание        вышает некий порог. В-третьих, не все тексты оди-
                Фактор
                                StemGrammar        ModelId           наково хороши, некоторые сайты содержат много
                Sufﬁx_g            20,21 %          7,09 %           мусора. Оценить значимость сайта можно с помо-
                Sufﬁx_p            2,54 %           6,40 %           щью т. н. тематического индекса цитирования[17],
                BadSufﬁx_g          8,07 %          2,84 %           но пока этого не сделано.
                BadSufﬁx_p          3,12 %          3,11 %               В текущую модель включено два контекстных
                                                                     фактора:
                    Суммарная важность этих факторов равна 33 %
               для предсказания StemGrammar и 20 % для предска-        • weight_context_exact — количество контек-
               зания МоdelId.                                            стов рунета, которые проголосовали за морфо-
                   Кроме этого, еще использовались другие факто-         логическую интерпретацию входного слова;
               ры, описывающие внутренний состав слова:                • weight_context_sum — считаем weight_con-
                                                                         text_exact для каждой формы парадигмы и нор-
                  • FlexLen — длина псевдоокончания для пред-            мируем на число форм в парадигме.
                    сказываемой формы внутри предсказываемой
                    парадигмы.                                           Суммарная важность этих двух факторов нахо-
                  • Haspreﬁx — в словаре найдено другое слово        дится в районе 12 %.
                    W той же модели окончания, такое что входное
                    слово делится на две части P и W, где P — про-
                    дуктивный префикс типа «квази», «экс» и т. д.
                  • lemma_leven — в словаре найдено другое сло-      7. Факторы частот
                    во W той же модели окончания такое, что рас-
                    стояние Левенштейна между входным словом              Следующая группа факторов связана с частотны-
                    и словом W не больше некоторого порога.          ми словарями рунета и пользовательских запросов:
                  • AbbrLike — отношение числа согласных букв         • QF — частота входного слова в пользователь-
                    слова к общему количеству букв слова.                 ских запросах;
                                                                      • TF — частота входного слова в рунете;
                   Каждый из этих пяти факторов имеет важность        • PROP — отношение числа раз, когда слово
               не больше 2 %. На данном этапе не очень понятно,           было записано в рунете с большой буквы, к зна-
               почему их вклад такой незначительный.                      чению TF;

Dialog'2010.indb 453                                                                                                  11.05.2010 16:58:01

454                                                                                      Сокирко А. В.

                  • QF1 — частота слова в однословных запросах;        Сравнение по качеству производилось по двум
                  • PrdFreqModel — среднее квадратичное откло-     метрикам:
                    нение относительных частот форм этой моде-         1. Точность определения StemGrammar;
                    ли окончания. Например, в парадигме слова          2. Точность и полнота определения форм па-
                    «мама» (ModelId=7), относительная частота              радигмы.
                    словоформы мама — 30 % , а словоформы              Последние определялись как средние точность
                    маме — 10 % и т. д. Если в этой модели (Mod-   и полнота для каждого слова запроса:
                    elId=7) средние относительные частоты совсем
                    другие — тогда штрафуем эту гипотезу.                          Точность: P = C/V,
                  • paradigm_found_pure — число форм парадиг-
                    мы, найденных в рунете, поделенное на число                   Полнота: R = C/Q,
                    форм парадигмы.
                  • lemma_query_freq — число вхождений пред-       где C — сумма частот(в рунете) правильно пред-
                    сказываемой леммы парадигмы в лог пользова-    сказанных форм парадигмы, V — сумма частот всех
                    тельских запросов.                             предсказанных форм парадигмы, Q — общая сумма
                                                                   частот всех правильных форм парадигмы.
                   Суммарная важность этих факторов для
               StemGrammar — 25 %, а для ModelId — 35 %. Имен-               F-Measure: Fm = 2*P*R/ (P+ R)
               но по этим группам факторов происходит основное
               расхождение между словарными и несловарными              Для сравнения была использована предыдущая
               словами, поскольку, например, словарные в сред-     версия быстрословаря, которая по большей части
               нем используются в рунете на порядок чаще, чем      базировалась на работе[10]. Ниже приведены пока-
               несловарные.                                        затели качества:

                                                                                    Точность    Полнота      F-measure
                                                                   StemGrammar,
                                                                                     0,6716
                                                                   old
               8. Остальные факторы
                                                                   StemGrammar,
                                                                                     0,7517
                                                                   new
                    Поскольку среди морфологических помет есть
                                                                   Формы, old        0,9295      0,9372       0,9354
               несколько, которые не относятся непосредственно
                                                                   Формы, new        0,9282       0,96        0,9439
               к морфологическим (гео, имя, фам), нам пришлось
               подключить два источника:
                    1. Тезаурус географических названий Ян-             Прирост точности по StemGrammar достаточно
                         декс.Карт.                                большой (с 67 % до 75 %), это вполне соответствует
                    2. Частотные словари сервиса МойКруг для       нашим ожиданиям, ведь мы перешли от довольно
                         фамилий и имен.                           простой модели (которая включена в нашу модель
                    На основе этих перечней мы построили фактор    в виде одного из фактора частот) к многофакторной
               SemFeat, который, например, поднимает гипоте-       модели, учитывающей многие аспекты использова-
               зы с пометой «фам», если это слово часто встреча-   ния слова.
               ется на сервисе MoйКруг. Важность этого факто-           Показатели по формам не столь оптимистич-
               ра не оказалась высокой даже для предсказания       ны. Общая F-measure выросла на процент, однако
               StemGrammar (1 %).                                  точность немного снизилась (это не мешает нам
                    Кроме этого, мы использовали еще два допол-    говорить о том, что модель в целом лучше предыду-
               нительных технических фактора:                      щей). Почему точность снизилась? Ниже приведен
                 • ModelFreq — частота модели окончаний            список самых грубых ошибок нового быстрословаря
                    в основном словаре (важность — 2 %).           на текущей версии морфотеста:
                 • FormsCount — число форм в предсказываемой
                                                                   Дробо      Предсказано как краткое прилагатель-
                    парадигме (важность — 20 %).
                                                                              ное, должно быть фамилией
                                                                   пожаро     Должно быть в основном словаре
                                                                   стил       Должно быть неизм. фам, а стало изм.,
                                                                              мешают формы стиле
               9. Анализ результатов
                                                                   руссо      Стало изменяемым, формы мешаются
                                                                              с фамилией Русс
                   Построение всех факторов занимает порядка
                                                                   Мега       Иногда изм, иногда нет
               20 часов на кластере в 200 компьютеров (каждый
               компьютер — 8 процессоров, 20 ГБ ОЗУ, 5 ТБ диск).   Дони       предсказалось как имя Доня, а в запро-
               Основное время уходит на подсчет контекстных                   се это часть детской считалки
               факторов.                                           Волошко    не стало фамилией

Dialog'2010.indb 454                                                                                                   11.05.2010 16:58:01

Быстрословарь: предсказание морфологии русских слов                                             455

                Куинджи   Предсказано как изменяемая фамилия              который используется для этого, — это
                Макроу-   предсказалось как отчество по Арту-             PrdFreqModel. Возможно, нужно вводить
                ровне     ровне                                           еще факторы, например, сколько раз раз-
                Рогово    Предсказалось как прилагательное                ные формы слов одной парадигмы встреча-
                Судоку    Предсказалось как изменяемое                    лись на одной веб-странице.
                                                                      4. По всей видимости, любые контекстные
                   Даже этот короткий список примеров может               факторы требуют домножения на оценку
               определить направления будущей работы:                     качества самой веб-страницы.
                   1. Проблемы с «Пожаро». Основной словарь            Кроме тактических соображений, еще пред-
                       требует доработки, не расширения, а упо-   стоит начать переоценку масштабов заимствования
                       рядочивания. Например, мы последова-       и скорости освоения новых слов рунета.
                       тельно должны включать композитные
                       формы в парадигмы прилагательных.
                   2. Многие формы в интернете (судоку, куин-
                       джи) становятся изменяемыми. Например,     Благодарности
                       таковым стало слово «вконтакте» (вкон-
                       такту, «вконтактом»…). Провести грани-          Я выражаю благодарность всем сотрудникам
                       цу между совсем уже редким или полушу-     отдела лингвистических технологий компании «Ян-
                       точным использованием или привычным        декс» за помощь в проведении этого исследования,
                       освоением этого слова трудно, но нужно.    а особенно:
                   3. Пересечение слов со словарными и пред-           1. Евгению Соловьеву (машинное обучение);
                       сказанными парадигмами (стил, руссо),           2. Николаю и Светлане Григорьевым (разра-
                       особенно для коротких слов, требует от-            ботка системы оценки качества);
                       дельной проработки. Фактически почти            3. Елене Грунтовой (общее руководство и идея
                       все предложенные факторы — это факто-              исследования);
                       ры для жадного захвата форм в парадиг-          4. Вере Цукановой (основной морфологиче-
                       мы, но должны существовать факторы,                ский словарь);
                       которые препятствуют объединению несо-          5. Андрею Кондратьеву (предыдущая версия
                       вместимых форм. Единственный фактор,               быстрословаря).

Dialog'2010.indb 455                                                                                             11.05.2010 16:58:02

456                                                                                              Сокирко А. В.

               Литература                                                  10. Ляшевская О. Н., Сичинава Д. В., Кобрицов Б. П.
                                                                               Автоматизация построения словаря на матери-
               1.      Зализняк А. А. Грамматический словарь рус-              але массива несловарных словоформ // Брас-
                       ского языка. Словоизменение. — М.: Русский              лавский П. И. (отв. ред.), Интернет-матема-
                       язык, 1977.                                             тика — 2007: сб. работ участников конкурса
               2.      Белоногов Г. Г. Об использовании метода анало-          науч. проектов по информ. поиску. Екатерин-
                       гии при автоматической обработке текстовой              бург: Изд-во Урал. ун-та. С. 118–125.
                       информации // Проблемы кибернетики. — М.:           11. Goldsmith, J. 2001. The unsupervised learning
                       1974, вып. 28.                                          of natural language morphology. Computational
               3.      Белоногов Г. Г., Зеленков Ю. Г. Алгоритм морфо-         Linguistics 27(2): 153–198.
                       логического анализа русских слов // Вопросы         12. Сегалович И., Маслов М. Русский морфологи-
                       информационной теории и практики. № 53.                 ческий анализ и синтез с генерацией моделей
                       Автоматическая словарная служба. Автомати-              словоизменения для не описанных в словаре
                       ческое индексирование документов. М., 1985.             слов // Труды международной семинара Диа-
                       С. 62–93.                                               лог’98 по компьютерной лингвистике и ее при-
               4.      Гельбух А. Ф. Эффективно реализуемая модель             ложениям. Казань, 1998. Т. 2. С. 547–552.
                       морфологии флективного естественного язы-           13. Клышинский Э. С. Некоторые сложности авто-
                       ка: Автореф.дис… к. ф. н. / АНРФ., ВИНИТИ. —            матизированной лемматизации несловарных
                       М.,1994.                                                словоформ [Текст] [Электронный ресурс] /
               5.      Мальковский М. Г., Волкова И. А. Анализатор си-         Э. С. Клышинский // Материалы международ-
                       стемы TULIPS-2. Морфологический уровень //              ной конференции «Диалог 2009». — М.: РГГУ,
                       Вестн. Моск. Ун-та, сер. 15, 1981, N 1, с. 70–76.       2009
               6.      Шереметьева С. О., Ниренбург С. 1996 Эмпири-        14. Breiman, L. Random forests. Machine Learning,
                       ческое моделирование вычислительной мор-                45(1): 5–32, 2001. 18
                       фологии. //НТИ, №7, 1996.                           15. Liaw, A., Wiener, M. Classiﬁcation and regression
               7.      Goldsmith, J. Unsupervised Learning of the Mor-         by randomForest. Rnews 2002, 2:18–22.
                       phology of a Natural Language. //University         16. Сокирко А. В., Толдова С. Ю. Сравнение эффек-
                       of Chicago, 1998.                                       тивности двух методик снятия лексической
               8.      Wicentowski, R. Modeling and Learning Multilin-         и морфологической неоднозначности для рус-
                       gual Inﬂectional Morphology in a Minimally Su-          ского языка // Интернет-математика-2005.
                       pervised Framework, 2002.                           17. Что такое тИЦ? Электронная публикация.
               9.      Ножов И. М. Реализация автоматической син-              http://help.yandex.ru/catalogue/?id=873431
                       таксической сегментации русского предложе-          18. Toutanova, K., Cherry, C. 2009:A global model for
                       ния. Дисс… канд. тех. наук. — М.: РГГУ, 2003.           joint lemmatization and part-of-speech prediction

Dialog'2010.indb 456                                                                                                          11.05.2010 16:58:02

Вы также можете почитать