СТАТИСТИЧЕСКИЕ И ГИБРИДНЫЕ МЕТОДЫ ПЕРЕВОДА В ТЕХНОЛОГИЯХ КОМПАНИИ PROMT

Страница создана Алла Маркова
 
ПРОДОЛЖИТЬ ЧТЕНИЕ
СТАТИСТИЧЕСКИЕ И ГИБРИДНЫЕ МЕТОДЫ ПЕРЕВОДА В ТЕХНОЛОГИЯХ КОМПАНИИ PROMT
СТАТИСТИЧЕСКИЕ
И ГИБРИДНЫЕ МЕТОДЫ
ПЕРЕВОДА
В ТЕХНОЛОГИЯХ
КОМПАНИИ PROMT
АЛЕКСАНДР МОЛЧАНОВ
Alexander.Molchanov@promt.ru

Машинный перевод, существующий уже
несколько десятилетий, в последние годы
переживает бурный рост, главным образом
за счет использования статистических
технологий. Чем различаются системы
машинного перевода и какие процессы
характерны для них в настоящее время,
показано в данной статье.

                               #4 (46), 2013 CONTROL ENGINEERING РОССИЯ
СТАТИСТИЧЕСКИЕ И ГИБРИДНЫЕ МЕТОДЫ ПЕРЕВОДА В ТЕХНОЛОГИЯХ КОМПАНИИ PROMT
ПРОГРАМНЫЕ ИННОВАЦИИ I 69

ОСНОВНЫЕ ТИПЫ СИСТЕМ                   •  новостной контент;                       В основе систем-интерлингв
МАШИННОГО ПЕРЕВОДА                     •  каталоги интернет-магазинов;          лежит теория о том, что любое
   История машинного перево-           •  личная и деловая переписка.           предложение любого языка мож-
да начинается с так называемого          К основным сферам применения           но преобразовать в его смысловое
«Джорджтаунского эксперимента».        машинного перевода относятся:            представление на так называемом
В январе 1954 г. в Нью-Йорке состо-    • локализация (ускорение и уде-          универсальном метаязыке. А из полу-
ялась первая публичная демонстра-         шевление перевода больших             ченного смыслового представления
ция системы машинного перевода            объемов текста, например доку-        можно синтезировать предложение
с русского языка на английский,           ментации к ПО);                       на языке перевода. Иными словами,
разработанной компанией IBM            • оптимизация работы перевод-            с помощью определенного набора
совместно с Джорджтаунским уни-           чиков и переводческих бюро            правил и словаря с семантическими
верситетом. Система по современ-          (результат машинного перевода         характеристиками можно преобра-
ным меркам была примитивной               редактируется переводчиками);         зовывать текст в смысл и наоборот.
и включала в себя словарь объемом      • Интернет (электронная торгов-          Интерлингвы требуют очень долгой
250 слов и грамматику из шести пра-       ля, новостные и образователь-         разработки и создания огромных баз
вил. Эксперимент получил широкий          ные сайты).                           знаний о языке.
резонанс, и исследования в области       В настоящее время существует              Системы, основанные на прави-
разработки систем машинного пере-      два основных типа систем машин-          лах, обладают рядом общих характе-
вода начались по всему миру, в том     ного перевода: основанные на пра-        ристик. С точки зрения устройства,
числе и в СССР.                        вилах (rule-based machine translation,   они включают в себя словари и фор-
   В 1966 г. созданная правитель-      RBMT) и статистические.                  мальные грамматики, т. е. наборы
ством США комиссия ALPAC                                                        правил морфологического, семан-
(Automatic Language Processing         СИСТЕМЫ, ОСНОВАННЫЕ                      тического и синтаксического ана-
Advisory Committee) опублико-          НА ПРАВИЛАХ                              лиза языка. С точки зрения раз-
вала печально известный доклад,           В системах, основанных на прави-      работки и эксплуатации, такие
согласно которому разработка           лах, можно выделить два основных         системы обладают рядом преиму-
систем машинного перевода была         подтипа: трансферные и системы-          ществ и недостатков.
признана нерентабельной. Это фак-      интерлингвы.                                Достоинства: высокое качество,
тически привело к повсеместному           Трансферные системы машин-            стабильность и предсказуемость
прекращению работ над система-         ного перевода распространены             машинного перевода.
ми машинного перевода. Однако          более широко, чем системы-                  Недостатки: высокая стоимость
благодаря постоянному прогрессу        интерлингвы. Они работают                разработки и поддержки лингви-
вычислительной техники исследо-        по следующим принципам: прово-           стических алгоритмов и словарей,
вания в этой области вновь воз-        дится морфологический, лексиче-          а также большое количество време-
обновились в 70-е годы, а в конце      ский и семантико-синтаксический          ни, необходимое для лексической
80-х начинается разработка первых      анализ предложения на языке              настройки системы для отдельно-
статистических систем.                 оригинала, создается синтактико-         го клиента или новой предметной
   Уже в 1980-е сложился рынок         семантическое дерево разбора вход-       области. Кроме того, при высокой
коммерческих разработок систем         ного предложения, затем произво-         точности основанный на правилах
машинного перевода. По данным          дится так называемый «трансфер»,         перевод обладает определенным
агентства WinterGreen Research,        т. е. преобразование структуры           «машинным» акцентом, т. е. часто
в 2012 г. мировой рынок машин-         входного предложения в соответ-          выглядит неестественно.
ного перевода составлял $1,6 млрд,     ствии с формальными требовани-              Современные RBMT-системы
а к 2019 г., как ожидается, достиг-    ями языка перевода. На заключи-          обычно включают в себя обще-
нет $6,9 млрд. В настоящее время       тельном этапе синтеза формируется        тематические словари (объемом
существует множество компаний,         конечное предложение на языке            от нескольких десятков до несколь-
которые занимаются коммерче-           перевода. Основанная на правилах         ких сотен тысяч статей) и специали-
ской разработкой систем машин-         система перевода PROMT является          зированные словари по отдельным
ного перевода: SYSTRAN, PROMT,         классическим примером трансфер-          тематикам (объемом до несколь-
Linguatec, Asia Online, Safaba и др.   ных систем.                              к и х де с я т ко в т ы с я ч с т а т е й ) .
   Целью использования машинно-
го перевода может быть как полу-
                                       ТАБЛИЦА 1. ОБЪЕМЫ ОБЩЕТЕМАТИЧЕСКИХ СЛОВАРЕЙ
чение перевода высокого качества,
                                       RBMTСИСТЕМЫ PROMT ДЛЯ ОСНОВНЫХ
так и простая передача смысла
                                       НАПРАВЛЕНИЙ ПЕРЕВОДА
исходного текста (так называемый
«джистинг»). Машинный перевод                    Направление                    Объем словаря (тыс. статей)
применяется для перевода следую-                 Англо-русское                             220
щих типов текста:                              Англо-французское                            67
• пользовательский контент                      Англо-немецкое                              81
    (отзывы, комментарии и т. д.);
                                               Англо-итальянское                            61
• документация (техническая, экс-
    плуатационная, юридическая                Англо-португальское                           70
    и т. д.);                                   Англо-испанское                             82

CONTROL ENGINEERING РОССИЯ #4 (46), 2013
СТАТИСТИЧЕСКИЕ И ГИБРИДНЫЕ МЕТОДЫ ПЕРЕВОДА В ТЕХНОЛОГИЯХ КОМПАНИИ PROMT
70 I ПРОГРАМНЫЕ ИННОВАЦИИ

В таблице 1 приведены статистиче-     ных корпусов большого объема         и гибридных систем машинного
ские данные по объему общетема-       для настройки системы. Кроме         перевода с 2008 г. Основной моти-
тических словарей RBMT-системы        того, статистический перевод         вацией для такой работы послужи-
PROMT.                                часто содержит большое коли-         ло, с одной стороны, стремление
   Производительность RBMT-           чество грамматических ошибок         преодолеть недостатки RBMT-
систем машинного перевода зави-       (особенно когда речь идет о языках   системы за счет создания гибрид-
сит от различных параметров           с богатой морфологией, таких как,    ной системы перевода, а с другой
(среди которых количество и слож-     например, русский или немецкий)      стороны — создание статистиче-
ность грамматических правил,          и в целом отличается нестабиль-      ских систем для тех языковых пар,
объем и количество используемых       ностью и непредсказуемостью          которых нет в базовой системе
словарей) и обычно варьируется        (к примеру, одна и та же конструк-   PROMT. Так, компания занима-
от нескольких слов до несколь-        ция может переводиться совершен-     ется разработкой статистического
ких сотен слов в секунду. Напри-      но по-разному в разных контекстах,   перевода для казахского, финского,
мер, производительность RBMT-         в переводе могут пропадать слова     китайского, японского и скандинав-
системы PROMT для англо-русского      и т. д.).                            ских языков.
направления составляет примерно          Производительность современ-
150–200 слов в секунду при переводе   ных статистических систем может      ПРИНЦИПЫ РАБОТЫ
в один поток на компьютере с про-     широко варьироваться и зависит,      ГИБРИДНОЙ СИСТЕМЫ
цессором Intel® Core™ i7-2600K        в первую очередь, от трех факто-     PROMT
CPU с частотой 3,40 ГГц.              ров:                                    Гибридное решение PROMT
                                      • объем модели перевода;             доступно для всех языков базовой
СТАТИСТИЧЕСКИЕ                        • объем языковой модели;             системы, которые включают в себя
СИСТЕМЫ                               • объем выделяемой оперативной       русский и основные европейские
   В основе любой системы стати-         памяти.                           языки. В основе гибридной систе-
стического машинного перевода            Производительность статистиче-    мы PROMT лежит идея о том, что
лежит использование массивов          ской системы PROMT для модели        с помощью параллельного корпуса
текстов, представленных одновре-      перевода объемом около 100 млн.      текстов и специального статисти-
менно на языке оригинала и языке      словоупотреблений составляет         ческого модуля можно, во-первых,
перевода. Такие массивы данных        15–20 слов в секунду при переводе    быстро и качественно настроить
называются параллельными кор-         в один поток на компьютере с про-    перевод для определенной пред-
пусами текстов. Сначала стати-        цессором Intel® Core™ i7-2600K       метной области, а во-вторых,
стическая система проходит этап       CPU с частотой 3,40 ГГц и объемом    исправить недостатки, ошибки
обучения, на котором извлекаются      оперативной памяти 16 Гбайт.         и шероховатости перевода, осно-
статистические данные о переводе                                           ванного на правилах. Такой спе-
отдельных слов и фраз с исходного     ИСПОЛЬЗОВАНИЕ                        циальный модуль называется
языка на язык перевода. В процес-     СТАТИСТИЧЕСКИХ                       модулем статистического постре-
се перевода такая система вычис-      МЕТОДОВ В СИСТЕМЕ                    дактирования.
                                                                                                                РИС. 1.
ляет наиболее вероятный перевод       PROMT                                   Гибридная система, так же как     Схема обучения
исходного предложения на основе         Компания PROMT занимает-           и статистическая, проходит процесс   гибридной системы
данных, полученных при обу-           ся разработкой статистических        обучения на параллельных данных.     перевода
чении. Помимо параллельного
корпуса текстов, статистические
системы используют корпусы тек-
стов на языке перевода. На основе
такого корпуса строится стати-
стическая модель языка перевода,
которая используется при оценке
того, насколько вариант перевода
предложения адекватен и «гладок»
с точки зрения норм и правил язы-
ка перевода.
   Достоинства: быстрая настрой-
ка (по сравнению с системами,
основанными на правилах), само-
обучаемость (участие эксперта
при настройке системы можно
свести к минимуму), а также высо-
кая «гладкость» перевода (пере-
вод очень похож на человеческий
и в нем практически отсутствуют
шероховатости).
   Недостатки: необходимость
наличия качественных параллель-

                                                                                        #4 (46), 2013 CONTROL ENGINEERING РОССИЯ
СТАТИСТИЧЕСКИЕ И ГИБРИДНЫЕ МЕТОДЫ ПЕРЕВОДА В ТЕХНОЛОГИЯХ КОМПАНИИ PROMT
ПРОГРАМНЫЕ ИННОВАЦИИ I 71

          РИС. 2.
      Процесс перевода
предложения гибридной
              системой

                         Обучение можно разделить на три         Rule-Based Translation System отме-   ной на текстах PayPal. Кроме того,
                         стадии:                                 чают, что их гибридная система        в сравнение был включен статисти-
                         1. осуществляется перевод исход-        перевода с модулем постредак-         ческий перевод с онлайн-сервиса
                             ной части параллельного кор-        тирования превосходит базовую         Google Translate.
                             пуса на языке оригинала базо-       RBMT-систему.                            Метрика BLEU была разработа-
                             вым RBMT-модулем перевода;             Специалисты компании PROMT         на сотрудниками компании IBM
                         2. настраивается статистическая         провели серию экспериментов           и является одной из самых про-
                             модель перевода с «машинно-         по сравнению RBMT-, статистиче-       стых и популярных метрик оценки
                             го» языка на человеческий;          ской и гибридной системами для        машинного перевода. Алгоритм
                         3. настраивается статистическая         англо-русского направления пере-      BLEU оценивает качество перевода
                             модель на основе корпуса языка      вода. Эксперименты проводились        по шкале от 0 до 100 на основании
                             перевода.                           на текстах компании PayPal, кото-     сравнения машинного перевода
                            Схема обучения гибридной систе-      рая является клиентом компании        с человеческим и поиска общих
                         мы представлена на рис. 1.              PROMT. Тексты представляют            слов и фраз. Основная идея разра-
                            Гибридная система PROMT              собой английское руководство          ботчиков метрики состоит в том,
                         содержит два основных компонен-         по использованию сервисов PayPal      что чем лучше машинный перевод,
                         та: базовый RBMT-модуль перевода        и его локализованную русскую вер-     тем больше он должен быть похож
                         и модуль статистического постре-        сию.                                  на человеческий. Результаты авто-
                         дактирования, который исполь-              Объем корпуса для обучения         матической оценки представлены
                         зует данные, полученные на этапе        гибридной и статистической систем     в таблице 2.
                         обучения (статистическая модель         составил примерно 1 млн слово-           Также была проведена экспертная
                         перевода, статистическая модель         употреблений. Тестирование систем     оценка. Перевод гибридной системы
                         выходного языка). В процессе пере-      проводилось на выборочной сово-       попарно сравнивался с переводами
                         вода сначала исходное предложение       купности из ста случайным образом     других систем в терминах «лучше»
                         переводится базовым модулем,            отобранных из обучающего корпу-       (один из переводов явно превос-
                         затем полученный перевод обра-          са предложений. При тестировании      ходит другой по качеству) и «экви-
                         батывается статистическим ком-          использовалась экспертная лингви-     валентно» (два перевода принципи-
                         понентом, т. е. фактически на этом      стическая и автоматическая оценки     ально не отличаются друг от друга
                         этапе осуществляется перевод            на основе метрики BLEU (Bilingual     по качеству). При оценке учитыва-
                         с «машинного» языка на человече-        Evaluation Understudy). Гибридная     лись грамматическая и лексическая
                         ский по правилам статистического        система сравнивалась с RBMT-          правильность, адекватность (пра-
                         машинного перевода. Схема про-          системой, а также со статистиче-      вильная передача смысла исходно-
                         цесса перевода гибридной системой       ской системой PROMT, настроен-        го текста) и гладкость перевода.
                         представлена на рис. 2.

                         ОЦЕНКА КАЧЕСТВА                         ТАБЛИЦА 2. РЕЗУЛЬТАТЫ АВТОМАТИЧЕСКОЙ
                         ПЕРЕВОДА ГИБРИДНОЙ                      ОЦЕНКИ МАШИННОГО ПЕРЕВОДА ВЫБОРОЧНОЙ
                         СИСТЕМЫ PROMT                           СОВОКУПНОСТИ ИЗ КОРПУСА PAYPAL ДЛЯ РАЗЛИЧНЫХ
                           Многие исследователи говорят          СИСТЕМ С ПОМОЩЬЮ МЕТРИКИ BLEU
                         о способности гибридных систем                Система перевода                      Значение BLEU
                         опережать по качеству перевода             Гибридная система PROMT                       29,2
                         как RBMT-системы, так и стати-               RBMT-система PROMT                          16,7
                         стические. К примеру, разработ-
                                                                  Статистическая система PROMT                    27,3
                         чики компании SYSTRAN в статье
                         Statistical Post-Editing on SYSTRAN’s           Google Translate                         15,2

CONTROL ENGINEERING РОССИЯ #4 (46), 2013
СТАТИСТИЧЕСКИЕ И ГИБРИДНЫЕ МЕТОДЫ ПЕРЕВОДА В ТЕХНОЛОГИЯХ КОМПАНИИ PROMT
72 I ПРОГРАМНЫЕ ИННОВАЦИИ

Результаты экспертной оценки пред-                                                                                  РИС. 3.
ставлены в виде графика на рис. 3.                                                                                  Результаты экспертной
  Результаты экспериментов пока-                                                                                    оценки машинного
                                                                                                                    перевода выборочной
зывают, что гибридная система пре-                                                                                  совокупности из корпуса
восходит RBMT- и статистическую                                                                                     PayPal для различных
систему согласно как автоматиче-                                                                                    систем
ской, так и экспертной оценке.

ПРОБЛЕМЫ ПРИ
ИСПОЛЬЗОВАНИИ
СТАТИСТИЧЕСКИХ
ТЕХНОЛОГИЙ В СИСТЕМЕ
МАШИННОГО ПЕРЕВОДА
  Использование статистических
технологий сопряжено с рядом
сложностей. Они касаются как вну-
тренних (ухудшение качества и ста-
бильности перевода), так и внеш-
них факторов (поиск данных для
обучения систем).
                                        ной системы и на порядок больше       вольный перевод на русский или
СТАБИЛЬНОСТЬ                            для статистической). И здесь разра-   вообще не иметь его). Такие дан-
И КАЧЕСТВО ПЕРЕВОДА                     ботчики сталкиваются с проблемой:     ные необходимо выравнивать,
   В ходе разработки гибридной          где брать эти данные? Для настрой-    т. е. выделять среди большого объ-
системы машинного перевода спе-         ки системы перевода для клиента       ема данных действительно парал-
циалисты столкнулись с тем, что         используются параллельные тексты,     лельные предложения на разных
статистический компонент в неко-        накопленные им в ходе экспертного     языках. Компания PROMT успеш-
торых случаях может привносить          перевода клиентских данных пере-      но использует технологии автома-
в базовый перевод не только улучше-     водческими агентствами.               тической обработки и выравнива-
ния, но и ухудшения. Прежде всего,        Какие же данные использовать для    ния условно-параллельных данных
это касается перевода именованных       настройки универсальных систем        из интернет-источников для созда-
сущностей, т. е. специальных типо-      перевода? Существуют параллель-       ния параллельных корпусов для раз-
вых языковых конструкций (даты,         ные корпусы в открытом доступе.       личных предметных областей.
адреса, имена, названия организаций,    В качестве примера можно привести
числовые последовательности и т. п.).   корпус протоколов заседаний Евро-     ПЕРСПЕКТИВЫ
Перевод таких конструкций чрезвы-       парламента (доступен на двадцати         Несмотря на существенное
чайно важен для клиентов компании.      языках, объем корпуса от десяти       улучшение качества при пере-
К примеру, сумма и адрес юридиче-       до пятидесяти миллионов слово-        ходе от RBMT-системы перевода
ского лица, прописанные в контракте,    употреблений для каждого языка),      к гибридной, ряд важных проблем
должны остаться такими же и в пере-     корпус протоколов заседаний ООН       остаются нерешенными. Так, пере-
воде этого контракта. Для решения       (семь официальных языков ООН,         вод с использованием статистиче-
этой проблемы статистический ком-       объем корпуса в среднем от ста        ского компонента может содержать
понент гибридной системы PROMT          до двухсот миллионов словоупотре-     грамматические ошибки, которых
использует метаинформацию, кото-        блений для каждого языка), корпус     нет в RBMT-переводе. Лингвисти-
рую он получает из базового компо-      субтитров к различным кинофиль-       ческий отдел компании PROMT
нента. Все специальные конструкции      мам (тридцать языков). Однако         занимается поиском решения этой
на этапе перевода базовым модулем       такие корпусы относятся к очень       проблемы. Одним из возможных
резервируются, т. е. помечаются         специфичной предметной области        подходов является использова-
специальными тегами. Статистиче-        и подходят фактически только для      ние дополнительной информации
ский компонент использует данную        перевода подобных текстов. Други-     из RBMT-компонента и постобра-
метаинформацию и оставляет такие        ми словами, среднестатистический      ботка гибридного перевода пар-
конструкции без изменений.              посетитель онлайн-сервиса пере-       серами PROMT для выявления
                                        вода вряд ли станет переводить        и исправления ошибок.
ДАННЫЕ ДЛЯ ОБУЧЕНИЯ                     протоколы заседаний какого-либо          Также в скором времени пла-
СТАТИСТИЧЕСКИХ                          международного правового или          нируется внедрить использова-
И ГИБРИДНЫХ СИСТЕМ                      законодательного органа.              ние статистических технологий
ПЕРЕВОДА                                  Другой источник параллельных        на онлайн-сервисе перевода ком-
  Для настройки гибридной или           данных — открытые многоязычные        пании www.translate.ru.
статистической системы машинного        интернет-ресурсы, например новост-
перевода необходимы параллельные        ные порталы. В этом случае мы име-       Данная статья основана на докла-
корпусы текстов достаточно боль-        ем дело с условно-параллельными       де автора, прозвучавшем на конфе-
шого объема (около одного миллио-       данными (к примеру, новость           ренции AINL в Санкт-Петербурге
на словоупотреблений для гибрид-        на английском языке может иметь       18 мая 2013 г.

                                                                                            #4 (46), 2013 CONTROL ENGINEERING РОССИЯ
Вы также можете почитать