СТАТИСТИЧЕСКИЕ И ГИБРИДНЫЕ МЕТОДЫ ПЕРЕВОДА В ТЕХНОЛОГИЯХ КОМПАНИИ PROMT
←
→
Транскрипция содержимого страницы
Если ваш браузер не отображает страницу правильно, пожалуйста, читайте содержимое страницы ниже
СТАТИСТИЧЕСКИЕ И ГИБРИДНЫЕ МЕТОДЫ ПЕРЕВОДА В ТЕХНОЛОГИЯХ КОМПАНИИ PROMT АЛЕКСАНДР МОЛЧАНОВ Alexander.Molchanov@promt.ru Машинный перевод, существующий уже несколько десятилетий, в последние годы переживает бурный рост, главным образом за счет использования статистических технологий. Чем различаются системы машинного перевода и какие процессы характерны для них в настоящее время, показано в данной статье. #4 (46), 2013 CONTROL ENGINEERING РОССИЯ
ПРОГРАМНЫЕ ИННОВАЦИИ I 69 ОСНОВНЫЕ ТИПЫ СИСТЕМ • новостной контент; В основе систем-интерлингв МАШИННОГО ПЕРЕВОДА • каталоги интернет-магазинов; лежит теория о том, что любое История машинного перево- • личная и деловая переписка. предложение любого языка мож- да начинается с так называемого К основным сферам применения но преобразовать в его смысловое «Джорджтаунского эксперимента». машинного перевода относятся: представление на так называемом В январе 1954 г. в Нью-Йорке состо- • локализация (ускорение и уде- универсальном метаязыке. А из полу- ялась первая публичная демонстра- шевление перевода больших ченного смыслового представления ция системы машинного перевода объемов текста, например доку- можно синтезировать предложение с русского языка на английский, ментации к ПО); на языке перевода. Иными словами, разработанной компанией IBM • оптимизация работы перевод- с помощью определенного набора совместно с Джорджтаунским уни- чиков и переводческих бюро правил и словаря с семантическими верситетом. Система по современ- (результат машинного перевода характеристиками можно преобра- ным меркам была примитивной редактируется переводчиками); зовывать текст в смысл и наоборот. и включала в себя словарь объемом • Интернет (электронная торгов- Интерлингвы требуют очень долгой 250 слов и грамматику из шести пра- ля, новостные и образователь- разработки и создания огромных баз вил. Эксперимент получил широкий ные сайты). знаний о языке. резонанс, и исследования в области В настоящее время существует Системы, основанные на прави- разработки систем машинного пере- два основных типа систем машин- лах, обладают рядом общих характе- вода начались по всему миру, в том ного перевода: основанные на пра- ристик. С точки зрения устройства, числе и в СССР. вилах (rule-based machine translation, они включают в себя словари и фор- В 1966 г. созданная правитель- RBMT) и статистические. мальные грамматики, т. е. наборы ством США комиссия ALPAC правил морфологического, семан- (Automatic Language Processing СИСТЕМЫ, ОСНОВАННЫЕ тического и синтаксического ана- Advisory Committee) опублико- НА ПРАВИЛАХ лиза языка. С точки зрения раз- вала печально известный доклад, В системах, основанных на прави- работки и эксплуатации, такие согласно которому разработка лах, можно выделить два основных системы обладают рядом преиму- систем машинного перевода была подтипа: трансферные и системы- ществ и недостатков. признана нерентабельной. Это фак- интерлингвы. Достоинства: высокое качество, тически привело к повсеместному Трансферные системы машин- стабильность и предсказуемость прекращению работ над система- ного перевода распространены машинного перевода. ми машинного перевода. Однако более широко, чем системы- Недостатки: высокая стоимость благодаря постоянному прогрессу интерлингвы. Они работают разработки и поддержки лингви- вычислительной техники исследо- по следующим принципам: прово- стических алгоритмов и словарей, вания в этой области вновь воз- дится морфологический, лексиче- а также большое количество време- обновились в 70-е годы, а в конце ский и семантико-синтаксический ни, необходимое для лексической 80-х начинается разработка первых анализ предложения на языке настройки системы для отдельно- статистических систем. оригинала, создается синтактико- го клиента или новой предметной Уже в 1980-е сложился рынок семантическое дерево разбора вход- области. Кроме того, при высокой коммерческих разработок систем ного предложения, затем произво- точности основанный на правилах машинного перевода. По данным дится так называемый «трансфер», перевод обладает определенным агентства WinterGreen Research, т. е. преобразование структуры «машинным» акцентом, т. е. часто в 2012 г. мировой рынок машин- входного предложения в соответ- выглядит неестественно. ного перевода составлял $1,6 млрд, ствии с формальными требовани- Современные RBMT-системы а к 2019 г., как ожидается, достиг- ями языка перевода. На заключи- обычно включают в себя обще- нет $6,9 млрд. В настоящее время тельном этапе синтеза формируется тематические словари (объемом существует множество компаний, конечное предложение на языке от нескольких десятков до несколь- которые занимаются коммерче- перевода. Основанная на правилах ких сотен тысяч статей) и специали- ской разработкой систем машин- система перевода PROMT является зированные словари по отдельным ного перевода: SYSTRAN, PROMT, классическим примером трансфер- тематикам (объемом до несколь- Linguatec, Asia Online, Safaba и др. ных систем. к и х де с я т ко в т ы с я ч с т а т е й ) . Целью использования машинно- го перевода может быть как полу- ТАБЛИЦА 1. ОБЪЕМЫ ОБЩЕТЕМАТИЧЕСКИХ СЛОВАРЕЙ чение перевода высокого качества, RBMTСИСТЕМЫ PROMT ДЛЯ ОСНОВНЫХ так и простая передача смысла НАПРАВЛЕНИЙ ПЕРЕВОДА исходного текста (так называемый «джистинг»). Машинный перевод Направление Объем словаря (тыс. статей) применяется для перевода следую- Англо-русское 220 щих типов текста: Англо-французское 67 • пользовательский контент Англо-немецкое 81 (отзывы, комментарии и т. д.); Англо-итальянское 61 • документация (техническая, экс- плуатационная, юридическая Англо-португальское 70 и т. д.); Англо-испанское 82 CONTROL ENGINEERING РОССИЯ #4 (46), 2013
70 I ПРОГРАМНЫЕ ИННОВАЦИИ В таблице 1 приведены статистиче- ных корпусов большого объема и гибридных систем машинного ские данные по объему общетема- для настройки системы. Кроме перевода с 2008 г. Основной моти- тических словарей RBMT-системы того, статистический перевод вацией для такой работы послужи- PROMT. часто содержит большое коли- ло, с одной стороны, стремление Производительность RBMT- чество грамматических ошибок преодолеть недостатки RBMT- систем машинного перевода зави- (особенно когда речь идет о языках системы за счет создания гибрид- сит от различных параметров с богатой морфологией, таких как, ной системы перевода, а с другой (среди которых количество и слож- например, русский или немецкий) стороны — создание статистиче- ность грамматических правил, и в целом отличается нестабиль- ских систем для тех языковых пар, объем и количество используемых ностью и непредсказуемостью которых нет в базовой системе словарей) и обычно варьируется (к примеру, одна и та же конструк- PROMT. Так, компания занима- от нескольких слов до несколь- ция может переводиться совершен- ется разработкой статистического ких сотен слов в секунду. Напри- но по-разному в разных контекстах, перевода для казахского, финского, мер, производительность RBMT- в переводе могут пропадать слова китайского, японского и скандинав- системы PROMT для англо-русского и т. д.). ских языков. направления составляет примерно Производительность современ- 150–200 слов в секунду при переводе ных статистических систем может ПРИНЦИПЫ РАБОТЫ в один поток на компьютере с про- широко варьироваться и зависит, ГИБРИДНОЙ СИСТЕМЫ цессором Intel® Core™ i7-2600K в первую очередь, от трех факто- PROMT CPU с частотой 3,40 ГГц. ров: Гибридное решение PROMT • объем модели перевода; доступно для всех языков базовой СТАТИСТИЧЕСКИЕ • объем языковой модели; системы, которые включают в себя СИСТЕМЫ • объем выделяемой оперативной русский и основные европейские В основе любой системы стати- памяти. языки. В основе гибридной систе- стического машинного перевода Производительность статистиче- мы PROMT лежит идея о том, что лежит использование массивов ской системы PROMT для модели с помощью параллельного корпуса текстов, представленных одновре- перевода объемом около 100 млн. текстов и специального статисти- менно на языке оригинала и языке словоупотреблений составляет ческого модуля можно, во-первых, перевода. Такие массивы данных 15–20 слов в секунду при переводе быстро и качественно настроить называются параллельными кор- в один поток на компьютере с про- перевод для определенной пред- пусами текстов. Сначала стати- цессором Intel® Core™ i7-2600K метной области, а во-вторых, стическая система проходит этап CPU с частотой 3,40 ГГц и объемом исправить недостатки, ошибки обучения, на котором извлекаются оперативной памяти 16 Гбайт. и шероховатости перевода, осно- статистические данные о переводе ванного на правилах. Такой спе- отдельных слов и фраз с исходного ИСПОЛЬЗОВАНИЕ циальный модуль называется языка на язык перевода. В процес- СТАТИСТИЧЕСКИХ модулем статистического постре- се перевода такая система вычис- МЕТОДОВ В СИСТЕМЕ дактирования. РИС. 1. ляет наиболее вероятный перевод PROMT Гибридная система, так же как Схема обучения исходного предложения на основе Компания PROMT занимает- и статистическая, проходит процесс гибридной системы данных, полученных при обу- ся разработкой статистических обучения на параллельных данных. перевода чении. Помимо параллельного корпуса текстов, статистические системы используют корпусы тек- стов на языке перевода. На основе такого корпуса строится стати- стическая модель языка перевода, которая используется при оценке того, насколько вариант перевода предложения адекватен и «гладок» с точки зрения норм и правил язы- ка перевода. Достоинства: быстрая настрой- ка (по сравнению с системами, основанными на правилах), само- обучаемость (участие эксперта при настройке системы можно свести к минимуму), а также высо- кая «гладкость» перевода (пере- вод очень похож на человеческий и в нем практически отсутствуют шероховатости). Недостатки: необходимость наличия качественных параллель- #4 (46), 2013 CONTROL ENGINEERING РОССИЯ
ПРОГРАМНЫЕ ИННОВАЦИИ I 71 РИС. 2. Процесс перевода предложения гибридной системой Обучение можно разделить на три Rule-Based Translation System отме- ной на текстах PayPal. Кроме того, стадии: чают, что их гибридная система в сравнение был включен статисти- 1. осуществляется перевод исход- перевода с модулем постредак- ческий перевод с онлайн-сервиса ной части параллельного кор- тирования превосходит базовую Google Translate. пуса на языке оригинала базо- RBMT-систему. Метрика BLEU была разработа- вым RBMT-модулем перевода; Специалисты компании PROMT на сотрудниками компании IBM 2. настраивается статистическая провели серию экспериментов и является одной из самых про- модель перевода с «машинно- по сравнению RBMT-, статистиче- стых и популярных метрик оценки го» языка на человеческий; ской и гибридной системами для машинного перевода. Алгоритм 3. настраивается статистическая англо-русского направления пере- BLEU оценивает качество перевода модель на основе корпуса языка вода. Эксперименты проводились по шкале от 0 до 100 на основании перевода. на текстах компании PayPal, кото- сравнения машинного перевода Схема обучения гибридной систе- рая является клиентом компании с человеческим и поиска общих мы представлена на рис. 1. PROMT. Тексты представляют слов и фраз. Основная идея разра- Гибридная система PROMT собой английское руководство ботчиков метрики состоит в том, содержит два основных компонен- по использованию сервисов PayPal что чем лучше машинный перевод, та: базовый RBMT-модуль перевода и его локализованную русскую вер- тем больше он должен быть похож и модуль статистического постре- сию. на человеческий. Результаты авто- дактирования, который исполь- Объем корпуса для обучения матической оценки представлены зует данные, полученные на этапе гибридной и статистической систем в таблице 2. обучения (статистическая модель составил примерно 1 млн слово- Также была проведена экспертная перевода, статистическая модель употреблений. Тестирование систем оценка. Перевод гибридной системы выходного языка). В процессе пере- проводилось на выборочной сово- попарно сравнивался с переводами вода сначала исходное предложение купности из ста случайным образом других систем в терминах «лучше» переводится базовым модулем, отобранных из обучающего корпу- (один из переводов явно превос- затем полученный перевод обра- са предложений. При тестировании ходит другой по качеству) и «экви- батывается статистическим ком- использовалась экспертная лингви- валентно» (два перевода принципи- понентом, т. е. фактически на этом стическая и автоматическая оценки ально не отличаются друг от друга этапе осуществляется перевод на основе метрики BLEU (Bilingual по качеству). При оценке учитыва- с «машинного» языка на человече- Evaluation Understudy). Гибридная лись грамматическая и лексическая ский по правилам статистического система сравнивалась с RBMT- правильность, адекватность (пра- машинного перевода. Схема про- системой, а также со статистиче- вильная передача смысла исходно- цесса перевода гибридной системой ской системой PROMT, настроен- го текста) и гладкость перевода. представлена на рис. 2. ОЦЕНКА КАЧЕСТВА ТАБЛИЦА 2. РЕЗУЛЬТАТЫ АВТОМАТИЧЕСКОЙ ПЕРЕВОДА ГИБРИДНОЙ ОЦЕНКИ МАШИННОГО ПЕРЕВОДА ВЫБОРОЧНОЙ СИСТЕМЫ PROMT СОВОКУПНОСТИ ИЗ КОРПУСА PAYPAL ДЛЯ РАЗЛИЧНЫХ Многие исследователи говорят СИСТЕМ С ПОМОЩЬЮ МЕТРИКИ BLEU о способности гибридных систем Система перевода Значение BLEU опережать по качеству перевода Гибридная система PROMT 29,2 как RBMT-системы, так и стати- RBMT-система PROMT 16,7 стические. К примеру, разработ- Статистическая система PROMT 27,3 чики компании SYSTRAN в статье Statistical Post-Editing on SYSTRAN’s Google Translate 15,2 CONTROL ENGINEERING РОССИЯ #4 (46), 2013
72 I ПРОГРАМНЫЕ ИННОВАЦИИ Результаты экспертной оценки пред- РИС. 3. ставлены в виде графика на рис. 3. Результаты экспертной Результаты экспериментов пока- оценки машинного перевода выборочной зывают, что гибридная система пре- совокупности из корпуса восходит RBMT- и статистическую PayPal для различных систему согласно как автоматиче- систем ской, так и экспертной оценке. ПРОБЛЕМЫ ПРИ ИСПОЛЬЗОВАНИИ СТАТИСТИЧЕСКИХ ТЕХНОЛОГИЙ В СИСТЕМЕ МАШИННОГО ПЕРЕВОДА Использование статистических технологий сопряжено с рядом сложностей. Они касаются как вну- тренних (ухудшение качества и ста- бильности перевода), так и внеш- них факторов (поиск данных для обучения систем). ной системы и на порядок больше вольный перевод на русский или СТАБИЛЬНОСТЬ для статистической). И здесь разра- вообще не иметь его). Такие дан- И КАЧЕСТВО ПЕРЕВОДА ботчики сталкиваются с проблемой: ные необходимо выравнивать, В ходе разработки гибридной где брать эти данные? Для настрой- т. е. выделять среди большого объ- системы машинного перевода спе- ки системы перевода для клиента ема данных действительно парал- циалисты столкнулись с тем, что используются параллельные тексты, лельные предложения на разных статистический компонент в неко- накопленные им в ходе экспертного языках. Компания PROMT успеш- торых случаях может привносить перевода клиентских данных пере- но использует технологии автома- в базовый перевод не только улучше- водческими агентствами. тической обработки и выравнива- ния, но и ухудшения. Прежде всего, Какие же данные использовать для ния условно-параллельных данных это касается перевода именованных настройки универсальных систем из интернет-источников для созда- сущностей, т. е. специальных типо- перевода? Существуют параллель- ния параллельных корпусов для раз- вых языковых конструкций (даты, ные корпусы в открытом доступе. личных предметных областей. адреса, имена, названия организаций, В качестве примера можно привести числовые последовательности и т. п.). корпус протоколов заседаний Евро- ПЕРСПЕКТИВЫ Перевод таких конструкций чрезвы- парламента (доступен на двадцати Несмотря на существенное чайно важен для клиентов компании. языках, объем корпуса от десяти улучшение качества при пере- К примеру, сумма и адрес юридиче- до пятидесяти миллионов слово- ходе от RBMT-системы перевода ского лица, прописанные в контракте, употреблений для каждого языка), к гибридной, ряд важных проблем должны остаться такими же и в пере- корпус протоколов заседаний ООН остаются нерешенными. Так, пере- воде этого контракта. Для решения (семь официальных языков ООН, вод с использованием статистиче- этой проблемы статистический ком- объем корпуса в среднем от ста ского компонента может содержать понент гибридной системы PROMT до двухсот миллионов словоупотре- грамматические ошибки, которых использует метаинформацию, кото- блений для каждого языка), корпус нет в RBMT-переводе. Лингвисти- рую он получает из базового компо- субтитров к различным кинофиль- ческий отдел компании PROMT нента. Все специальные конструкции мам (тридцать языков). Однако занимается поиском решения этой на этапе перевода базовым модулем такие корпусы относятся к очень проблемы. Одним из возможных резервируются, т. е. помечаются специфичной предметной области подходов является использова- специальными тегами. Статистиче- и подходят фактически только для ние дополнительной информации ский компонент использует данную перевода подобных текстов. Други- из RBMT-компонента и постобра- метаинформацию и оставляет такие ми словами, среднестатистический ботка гибридного перевода пар- конструкции без изменений. посетитель онлайн-сервиса пере- серами PROMT для выявления вода вряд ли станет переводить и исправления ошибок. ДАННЫЕ ДЛЯ ОБУЧЕНИЯ протоколы заседаний какого-либо Также в скором времени пла- СТАТИСТИЧЕСКИХ международного правового или нируется внедрить использова- И ГИБРИДНЫХ СИСТЕМ законодательного органа. ние статистических технологий ПЕРЕВОДА Другой источник параллельных на онлайн-сервисе перевода ком- Для настройки гибридной или данных — открытые многоязычные пании www.translate.ru. статистической системы машинного интернет-ресурсы, например новост- перевода необходимы параллельные ные порталы. В этом случае мы име- Данная статья основана на докла- корпусы текстов достаточно боль- ем дело с условно-параллельными де автора, прозвучавшем на конфе- шого объема (около одного миллио- данными (к примеру, новость ренции AINL в Санкт-Петербурге на словоупотреблений для гибрид- на английском языке может иметь 18 мая 2013 г. #4 (46), 2013 CONTROL ENGINEERING РОССИЯ
Вы также можете почитать