Состояние, тенденции и перспективы развития систем машинного перевода

Страница создана Вадим Анисимов
 
ПРОДОЛЖИТЬ ЧТЕНИЕ
Состояние, тенденции и перспективы развития систем машинного перевода
49                                                                         Веснiк сувязi            1/2021

УДК: 630*722004.981’322.4

Состояние, тенденции
и перспективы развития систем
машинного перевода
В публикации рассматривается состояние                    Т.И. МАКАРЕВИЧ,
                                                          магистр управления, магистр филологических наук,
дел, современные тенденции и перспективы                  зам. зав. кафедрой англ. языка
развития систем машинного перевода.                       гуманитарных специальностей (АЯГС)
Автором обозначены три уровня выполнения                  ФМО БГУ по НИР
переводов на мировом рынке переводов.
                                                          Белорусский государственный университет
Проанализированы вопросы эффективности
систем машинного перевода и использования
машинного обучения для построения цифровой
платформы в контексте новой экономики                         Ключевые слова:
и технологичности процесса перевода.                          цифровая платформа перевода,
Обозначены направления по повышению                           международный рынок переводов, экономика
качества перевода разных уровней сложности                    перевода, поставщики лингвистических
                                                              услуг, технологичность процесса перевода,
на рынке переводов как в Республике Беларусь,                 искусственный интеллект, машинный
так и на мировых рынках.                                      перевод, машинное обучение, нейронные сети,
                                                              новая экономика.

   Введение. В последнее время в мире возросла          На современном рынке переводов переводчиков
потребность перехода оказания услуг из режима        крупных переводческих агентств и бюро перево-
offline в online, повысились требования к системам   дов сегодня именуют «поставщиками лингвистиче-
машинного перевода (МП), в том числе в связи с       ских услуг», что звучит широко и многообещающе
пандемией, начавшейся в 2020 г. Современный ры-      для развития мирового рынка переводов и систем
нок переводческих услуг огромен в мировом изме-      МП для осуществления разных видов переводче-
рении и характеризуется как динамично развива-       ской деятельности.
ющийся, высококонкурентный, с большим запро-            Актуальность научной работы заключается в
сом по развитию программного обеспечения (ПО)        недостаточной изученности экономики перевода
для автоматизации переводческой деятельности и       как таковой в Республике Беларусь, развитии ин-
очень неоднородный для заказчиков переводческих      ституциональной основы индустрии перевода в
услуг и их потребителей.                             эпоху глобальной цифровой трансформации пу-
   Темп жизни ускоряется и трансформируется в        тем формирования цифровой экосистемы инду-
новые формы взаимодействия, возникают новые          стрии перевода.
тренды в мировой экономике, меняется и тради-           Одна из современных тенденций развития си-
ционная отрасль перевода, которая должна офор-       стем МП – это трансформация рынка переводче-
миться в эффективно развивающуюся экономику          ских услуг в области экономики перевода для эф-
перевода. В этой области сегодня профессия пере-     фективного ведения хозяйственной деятельно-
водчика не защищена, так как в экономике перевода    сти. В этом сегменте есть запрос на установление
присутствуют не только профессиональные пере-        рациональных правил поведения для всех участ-
водчики, но и те участники рынка, для кого пере-     ников индустрии перевода, в том числе и сегмента
вод является второстепенным заработком без под-      развития ПО процесса перевода, спрос на которое
тверждения соответствующего квалификационного        не изучен, поэтому его появление на рынке не пред-
диплома.                                             ставляется системным и урегулированным.
Научные публикации                                                                                            50

   Нерешенная проблема машинного перевода текстов с одного ЕЯ на другой

     Интеллектуальные методы информационного поиска

     Иженерия знаний: 1) получение знаний из информации; 2) систематизация; 3) использование

Рисунок 1 – МП и проблемы непереводимости текстовой информации

  Необходимым этапом развития рынка переводов                       МП может быть применен только к переводи-
является создание механизма эффективной цифро-                   мым текстам, то есть к тем, у которых есть возмож-
вой инфраструктуры. Таким образом, одна из за-                   ность быть переведенными на другой язык. В связи
дач работы – разработка концепции универсаль-                    с этим встает серьезный вопрос о переводимости –
ной цифровой платформы переводческих услуг,                      непереводимости текста, который на данном этапе
ведь чем быстрее и качественнее осуществляется                   развития МП не способен решить. Проблема непе-
перевод в различных профессиональных отраслях,                   реводимости сегодня во многих случаях устраня-
тем быстрее проходят международные сделки [1].                   ется традиционным путем: умением переводчика
Поиск оптимального решения создания цифро-                       пользоваться различными приемами перевода, как
вой платформы актуален для профессиональных                      показано на рис. 1.
переводчиков-практиков, работающих в перевод-                       Перед МП по теории несоответствиий стоит за-
ческих компаниях и бюро переводов, представи-                    дача максимальной приближенности к адекват-
телей вузов, ведущих подготовку переводчиков, и                  ному переводу непереданной информации [3, с.
структур регулирования взаимодействия участни-                   119], вычленяемой в переводе при сравнительном
ков переводческой отрасли для оптимизации ра-                    анализе текстов. Непереданная информация пред-
боты всей индустрии перевода, которая на настоя-                 ставляет собой сведения, содержащиеся в исход-
щий момент не выделена как отдельный вид эконо-                  ном тексте и отсутствующие в тексте перевода.
мической деятельности.                                              Возвращаясь от искусства перевода к ИКТ-
  МП и машинное обучение в контексте постро-                     разработчикам МП, важно различать традицион-
ения цифровой платформы. Технология машин-                       ный не-МО алгоритм (жестко запрограммирован-
ного обучения (МО) – многосложная и многогран-                   ный, идентифицирующий естественный язык (ЕЯ),
ная – находится в основе искусственного интел-                   грамматические структуры и т. п.) и МО-алгоритм
лекта (ИИ) [2, с. 144].                                          (без жесткого программирования, имеет нели-
                                                                                       нейный характер, учится на
                                                                                       примерах, предназначен для
                                                                                       решения целого ряда кон-
                                                                                       кретных практических за-
                                                                                       дач, таких как перевод с од-
                                                                                       ного ЕЯ на другой). По сути,
                                                                                       МО алгоритм – это нейрон-
                                                                                       ная сеть, которая проходит
                                                                                       тренировку или «обучение»
                                                                                       на образцах данных, в ре-
                                                                                       зультате чего появляется на-
                                                                                       тренированная модель. По-
                                                                                       лагаем, что в будущем про-
                                                                                       блемы непереводимости
                                                                                       текстовой информации бу-
                                                                                       дут решать посредством ней-
                                                                                       ронных сетей.
51                                                                                                   Веснiк сувязi                1/2021

                                                    2) специализированный
   1) массовый перевод
                                                    перевод с выделением                            3) суперперевод
   охват основного
                                                    технического перевода                           затрагивает узкий сегмент
   неспециального состава
                                                    переводческий продукт,                          новой экономики и новых
   потребителей
                                                    предназначенный для                             знаний 5 % рынка
   переводческого продукта
                                                    конкретных предметных                           переводов
   75 % рынка переводов
                                                    областей 20 % рынка
                                                    переводов

Рисунок 2 – Построение трехуровневой платформы перевода

  Создание цифровой трехуровневой плат-                               МП: 1) скорость: перевод слова или текста можно
формы перевода. В предыдущих публикациях мы                           получить в течение нескольких секунд; 2) доступ-
обозначили три значимые сферы перевода по ох-                         ность услуги: большинство онлайн-переводчиков
вату аудитории (заказчиков) [4, с. 88] и типам тек-                   бесплатны, и единственным условием доступа яв-
стов оригинала перевода, которые продемонстри-                        ляется наличие интернета.
рованы на рис. 2.                                                       Уровень 2 (специализированный перевод) – это пе-
  Обозначенные уровни перевода выделены для                           ревод текстов разных предметных областей с при-
действенного и эффективного поиска переводче-                         сущей ему терминологической системой и особой
ских инструментов на рынке переводов с целью                          номенклатурой документов. Отличительной чертой
адекватной и быстрой передачи следующих типов                         этого вида перевода, как и другого специального
текстов оригинала на язык перевода, что важно не                      перевода, является «предельно точное и четкое из-
только для переводческого бизнеса, но и для эконо-                    ложение материала при почти полном отсутствии
мики перевода в целом. Сегодня МП не всегда спо-                      образно-эмоциональных выразительных средств,
собен справиться с текстами оригинала перевода                        присущих художественному и общественно-поли-
любой сложности, как показано в табл. 1.                              тическому текстам» [5, с. 5].
  Из таблицы следует, что переводческие инстру-                         К уровню 3 относится суперперевод, который
менты избираются целенаправленно для сопрово-                         включает в себя наиболее сложные и непосильные
ждения текстов определенного типа. Наглядно по-                       для МП устные и письменные тексты новых отрас-
казано, в каком направлении разработчикам МП                          лей знаний, речей политиков, ученых, дипломатов,
стоит стремиться в создании новых продуктов для                       ценных художественных произведений, осущест-
индустрии перевода.                                                   вляемых профессиональными переводчиками с ис-
  Характеризуя уровни цифровой трехуровневой                          пользованием автоматизации при устном, последо-
платформы перевода, обозначим уровень 1 (массо-                       вательном и письменном видах перевода [6, с. 58].
вый перевод) как стремление людей автоматизиро-                         При суперпереводе наиболее актуальна в насто-
вать процесс перевода при активном использовании                      ящее время проблемы с недостатками МП. Выде-
различных ИКТ для жизни человека в информаци-                         лим некоторые наиболее очевидные: 1) во многих
онном обществе. Для развития мировой экономики                        онлайн-переводчиках слабо учитываются грамма-
массовый перевод представляет значительную се-                        тические правила, художественные языковые при-
рьезную нишу в плане увеличения доходов, которая                      емы; 2) большое количество ошибок вызвано непра-
на данный момент не имеет четкого структурного                        вильными вариантами перевода; онлайн-перевод-
регулирования и, соответственно, массовый пере-                       чики редко учитывают особенности сочетаемости и
вод обусловлен преимуществами в использовании                         употребления слов; много ошибок допускается при

Таблица 1 – Типы текстов оригинала перевода предметных областей
                                         МП специальный                              Перевод с использованием       Традиционный перевод,
 Типы текстов оригинала   МП общий                          МП с участием человека
                                          (технический)                                    компьютера           осуществляемый переводчиком
   Высокотворческий       Не подходит      Не подходит            Не подходит              Не подходит                    Подходит
     С творческими
                          Не подходит      Не подходит            Не подходит              Не подходит                   Подходит
      элементами
    Общего характера      Подходит         Не подходит            Возможно                  Подходит                     Подходит
  Специализированный      Возможно          Подходит              Подходит                  Подходит                     Подходит
   Чисто технический      Подходит          Подходит              Подходит                  Подходит                     Подходит
Научные публикации                                                                                                                          52

Таблица 2 – Системы МП с различной степенью автоматизации

                          Степень автоматизации МП                                          Применение МП к уровням перевода
                      Полностью автоматический перевод                                                  Уровень 1
       Перевод, осуществляемый человеком с использованием компьютера                                    Уровень 2
                                                                                                        Уровень 3
                Автоматизированный МП при участии человека                                              Уровень 1
                                                                                             Уровень 2 (технический перевод)

переводе многозначных слов и омонимов; 3) вы-                          Таблица 3 – Модели МП
бранное переводчиком слово может не подходить                             Название модели                Описание функционирования модели
по контексту и стилевой принадлежности; 4) осо-                                                   Предложение, которое нужно перевести, в данной
                                                                                                  модели разделяется на отдельные слова и фразы,
бое значение при МП имеет перевод специализиро-                            Статистический
                                                                                                затем машина перебирает все варианты перевода для
                                                                              перевод
ванной терминологии [6, с. 16] и, если в словарной                                              каждого фрагмента и оценивает вероятность каждого
                                                                                                               существующего варианта
базе отсутствует определенный термин или слово,                                                Нейронная сеть проводит анализ параллельных текстов,
оно вообще не переводится или толкуется с иска-                                                обнаруживая в них закономерности и при переводе она
                                                                                              работает с более крупными единицами – предложениями.
жением его изначального значения.                                          Нейросетевой        Данный подход позволяет учитывать смысловые связи
   Приведенные аргументы свидетельствуют об                                  перевод              внутри предложения и контекст, поэтому перевод
актуальности создания цифровой трехуровневой                                                    получается более адекватным, так как проходит через
                                                                                                модель языка, однако полностью избежать ошибок не
платформы для адекватности процесса МП по трем                                                                          удается
обозначенным уровням перевода.                                                                   Объединяет статистическую и нейросетевую модели,
                                                                                                   что означает, что текст, вводимый для перевода,
   Классификация автоматизированных систем                                   Гибридная
                                                                                                обрабатывается и нейронной сетью, и статистическим
                                                                              система
МП. Рассмотрение классификации автоматизиро-                                                  переводчиком. Затем алгоритм выделяет лучший перевод
                                                                                                           и показывает его пользователю
ванных систем МП необходим для создания циф-
ровой трехуровневой платформы, как показано в                             Для экономики перевода при создании цифровой
табл. 2.                                                               трехуровневой платформы перевода важным с точки
   1. Полностью автоматический перевод. Пока в                         зрения пользователя являются типы систем МП по
профессиональном переводе на него нельзя пола-                         эксплуатационным параметрам, среди которых выде-
гаться, так как текст, полученный в результате авто-                   ляют следующие типы [2, c. 18]: 1) домашний тип си-
матического перевода, содержит достаточно много                        стем МП; 2) онлайновый тип систем МП; 3) профес-
ошибок, поэтому совершенствование данного вида                         сиональный тип систем МП; 4) корпоративный тип
перевода является задачей будущего.                                    систем МП. Данные типы систем МП по эксплуата-
   2. Перевод, осуществляемый человеком с исполь-                      ционным параметрам учтены при разработке концеп-
зованием компьютера. При данной методике цен-                          ции цифровой трехуровневой платформы перевода.
тральное место в процессе перевода принадлежит                            При решении проблемы точности и адекватности
человеку, а разнообразное ПО служит только ин-                         перевода, в частности, терминологии различных пред-
струментом, чтобы процесс перевода становился                          метных областей – уровень перевода 2 и 3, необхо-
более быстрым.                                                         димо провести самую трудозатратную работу – осу-
   3. Автоматизированный МП при участии чело-                          ществить разметку данных чтобы достоверно и без-
века. При таком виде МП идет обработка текста,                         ошибочно разметить тысячи единиц терминов для
а также редактура текста до осуществления пере-                        их последующего правильного перевода. Для реше-
вода компьютером. После человек вновь коррек-                          ния этой задачи создаются специализированные сер-
тирует текст для получения наиболее адекватного,                       висы разметки данных для МО. Данные сервисы ра-
верного перевода. Поддержание баз данных слов и                        ботают по принципу нанесения разметчиками из раз-
терминов в рабочем состоянии ‒ процесс трудоем-                        ных уголков мира разметок данных, для подготовки
кий, кроме того, специалист, осуществляющий пе-                        обучающей выборки для ИИ, при котором алгоритм,
ревод, должен быть обучен корректуре предвари-                         переняв знания людей, успешно может решать ана-
тельных и переведенных текстов.                                        логичные задачи. При этом отбор данных имеет ко-
   Мы также анализируем классификацию МП в за-                         лоссальное значение: данные, на которых будет об-
висимости от используемых в нем технологий, в ко-                      учаться нейросеть, надо готовить. По мнению А. Ло-
торой выделяют следующие модели МП, как пока-                          сева, ИИ пока не создан [7], – это пока лишь отдельные
зано в табл. 3.                                                        методы и технологии МО. Если данные неполные, не-
   Полагаем, что в направлении создания систем                         правильно подготовлены, то на выходе нейросеть даст
МП для цифровой трехуровневой платформы наи-                           абсолютно непредсказуемый результат [7].
больший интерес представляет гибридная система,                           При создании функциональной цифровой плат-
которая сможет объединить три разноплановых                            формы перевода как эффективного направления
уровня перевода.                                                       развития экономики перевода важно понимать, что
53                                                                                            Веснiк сувязi              1/2021

на основе перевода мы приходим к новому знанию.                     Nation – высокотехнологичной страны. Данный тер-
Экономическая выгода от осуществления процесса                      мин был засвидетельствован как название однои-
перевода, возможно, будет не столь заметна на пер-                  менного международного форума в ноябре 2019 г.
вый взгляд, и это тормозит процесс инвестирова-                     в г. Минске, на котором было заявлено о раскрытии
ния в развитие переводческой отрасли, которая                       и использовании экономического, промышленного,
остается не выделенной как самостоятельный вид                      научно-исследовательского и делового потенциала
экономической деятельности. Тем не менее важно                      страны для увеличения макроэкономического эф-
замечать непрямые экономические выгоды и об-                        фекта различных отраслей экономики нации. Таким
щую всеобъемлемость экономики перевода, кото-                       образом, развитие систем МП и участие в нем бело-
рая, будучи отдельным видом профессиональной                        русских разработчиков ПО, профессиональных пе-
деятельности, способна оказать мощное влияние на                    реводчиков и лингвистов как поставщиков лингви-
процессы во всех других отраслях мировой эконо-                     стических услуг для экономики переводов Беларуси
мики. Перевод – это часть мировой экономической                     внесет существенный вклад в получение дополни-
системы и может принести существенную прибыль,                      тельной прибыли от роста спроса на качественный
создать репутацию страны интеллектуально разви-                     продукт МП, подготовки специалистов в области
того информационного общества.                                      разработки систем МП, подготовки профессиональ-
  Разработка систем МП и стимулирование раз-                        ных переводчиков, организации переводческих фо-
вития цифровых платформ собственной разра-                          румов, разработке качественных программ повыше-
ботки в Республике Беларусь будет служить увели-                    ния квалификации в области перевода и совершен-
чению позиционирования Беларуси как High-Tech                       ствования систем МП.

ЛИТЕРАТУРА
1. П аньшин, Б.Н. Интеллектуализация деловых услуг как основной фактор формирования новой эконо-
    мики / Б. Н. Паньшин // Наука и инновации. – № 9 (139). – 2014. – C. 41–54.
2. К во, Ч.К. Технологии перевода: учеб. пособие для студ. высш. учеб. заведений / Ч. К. Кво; [пер. с англ.
    и науч. ред. рус. текста А.Л. Семенова]. – Москва, Изд. центр «Академия», 2008. – 256 с.
3. Н елюбин, Л.Л. Введение в технику перевода: (когнитивный теоретико-прагматический аспект): курс
    лекций / Л.Л. Нелюбин. ‒ Москва: Изд-во МГОУ, 2005. ‒ 152 с.
4. Макаревич, Т.И., Макаревич, И.И. Экономика и управление на рынке перевода: международный аспект
   [Электронный сборник] // Вестник университета им. С.Ю. Витте. Серия 1: Экономика и управление» :
   электрон. науч. ж-л / Т. И. Макаревич, И.И. Макаревич //– Москва, 2020. – C. 85–93.
5. Н елюбин, Л.Л. Толковый переводческий словарь / Л. Л. Нелюбин. – 4-е изд., испр. – Москва, Наука,
    2006. – 320 с.
6. М акаревич, И.И. Технико-экономические исследования методических положений и состава ИКТ при
    создании словаря-справочника по цифровой трансформации / И.И. Макаревич // Практика препода-
    вания иностранных языков на факультете международных отношений БГУ: электронный сборник. –
    2020. – Вып. 10. – Минск, БГУ. – С. 12–15.
7. Л осев, А.В. Искусственным интеллектом должны заниматься давшие присягу / А.В. Лосев. [Электрон-
    ный ресурс]. – Режим доступа: https://octagon.media/istorii/aleksandr_losev_iskusstvennym_intellektom_
    dolzhny_zanimatsya_davshie_prisyagu_.html. Дата доступа: 29.01.21.
8. М акаревич, Т.И. Автоматизация труда переводчиков и развитие технологий перевода на международ-
    ном рынке переводов: состояние и тенденции развития / Т. И. Макаревич. – Цифровая трансформа-
    ция. – № 4. – Минск, 2020. – С. 57–67.
9. П атак, Нишит. Искусственный интеллект для .Net: речь, язык и поиск / Нишит Патак. – Москва, ДМК
    Пресс, 2018. – 298 с.

   The given paper considers contemporary state, tendencies and perspectives for machine translation systems development.
The author has indicated tree levels for translators and interpreters’ activity on international translation market. The
author has analysed effectiveness issues of machine translation and application of machine learning in the framework of
new economy and technological efficiency of translation process. It suggests some tendencies in streamlining translation
and interpreting of any kind of difficulty both in the Republic of Belarus and on the world markets.
    Key words: digital platform, international translation market, translation economy, language services producers, technological
effectiveness of translation process, artificial intelligence, machine translation, machine learning, neural networks, deep learning,
new economy.
                                                                                                          Получено 08.02.2021.
Вы также можете почитать