Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Save anonymous/638236b8eb699388a5d9e454bde2c070 to your computer and use it in GitHub Desktop.
Save anonymous/638236b8eb699388a5d9e454bde2c070 to your computer and use it in GitHub Desktop.
Перспективы машинного перевода

Перспективы машинного перевода



Моему поколению это уж точно не грозит. А вообще-то я не сомневаюсь, что у этой идеи большое будущее — в том смысле, что попытки будут продолжаться. Машинному переводу как идее — более 50 лет. Какое-то время казалось, что задача будет вот-вот решена. Не буду утомлять датами и названиями проектов, скажу лишь, что ничего не вышло. У нас есть машинный перевод Google и отечественный Promt, готовые к использованию продукты, но выглядят они тоже скорее как поражение. Переводчика-человека за такое качество работы сразу уволили бы. Постепенно стало ясно, что машинный перевод — это не проходная задача информатики, а вершина прикладной лингвистики, ее Эверест. Таких Эверестов, в общем, даже два: На основе второй задачи сформулирован тест Тьюринга на искусственный интеллект: Но прежде чем обсуждать, как решать задачу машинного перевода и можно ли ее решить, зададимся вопросами: Со времен Вавилонской башни языковый барьер между людьми — один из самых сложных; и все же — для чего? Общее понимание текстов на чужих языках — для быстрого прочтения инструкции к бытовой электронике или лекарству, быстрого ознакомления с сайтом и т. Эта задача уже решена Google и Promt — с низким качеством, зато для многих пар языков. Составление ответственных текстов на другом языке: Машинного перевода для решения этой задачи нет. Свободное общение на чужом языке в турпоездке, в социальных сетях и т. Таких продуктов, дающих приемлемое качество, — тоже нет. И уж тем более у нас нет универсального коммуникатора из фантастических романов, такой коробочки, чтобы положил на стол — говоришь в нее, а из нее слышен перевод. Как удалось решить задачу N1? Первые лет тридцать машинный перевод пытались сделать на правилах и синтаксическом разборе предложения. Основная проблема всех таких алгоритмических методов — сложность, безудержное ветвление миллионов вариантов и огромный перебор; невозможно пройти перевод одной фразы в отладчике. Для шахмат удалось выработать средства ограничения перебора, а для машинного перевода — нет. Вершина такого подхода — системы типа Promt, качество которых оставляет желать лучшего, особенно на длинных фразах, где синтаксический разбор и перебор разваливаются. В х годах возник статистический перевод с самообучением по параллельным текстам, когда развитие поисковых машин дало минимально необходимый запас таких текстов. Вершина — переводчик Google. Однако качество статистического перевода постепенно растет, он вовсю используется для общения. Заметим, что как далеко не у всех стран есть своя космическая промышленность, так не у всех есть и свой поисковик, антивирус или машинный переводчик. Более того, космические технологии более доступны, они есть у большего числа стран. В России было больше десяти проектов машинного перевода, сейчас живы В большинстве стран такого нет и не было. Это представление навеяно фантастикой и голливудскими фильмами и неверно в двух смыслах: Человечество не смогло выработать удовлетворительного определения или определителя разума, сознания и понимания. Конечно, в первую очередь, из-за рекурсии — чтоб понять понимание, нужно понимание. Трудно определить предмет через самого себя, именно поэтому Тьюринг выбрал для искусственного интеллекта феноменологическое определение — через разумность внешнего общения. В тексте же смысла вообще нет. Текст — лишь ключ для запуска процесса создания смысла. Смысл рождается в голове пишущего, потом кодируется текстом и воспроизводится с потерями в голове читающего. Этот факт хорошо иллюстрируется примером Виталия Файна: Для всех остальных в этом тексте есть только атомарный смысл — что-то про июль. А для этих двоих — целая Вселенная смыслов, спрятанная не в тексте. До универсального коммуникатора — недалеко. Распознавание речи вот-вот заработает хорошо: Siri в iPhone и голосовой поиск Google — оба от Nuance — это наглядно показывают. Для бытовых ситуаций в чужой языковой среде знакомство, шопинг, паспортный контроль надо распознавать всего шаблонов в каждом случае, и можно переспрашивать! Я оцениваю время появления первых доступных образцов в года. Пишут, что в американской армии уже раздают устройства голосового перевода с английского на арабский и обратно. С теми самыми тремястами фразами. Перспективы машинного перевода ответственных текстов — туманны. Я думаю, реальный временной горизонт здесь — лет. Конечно, это будут гибридные системы — алгоритмическо-статистические, с довольно тяжелой лингвистикой. Но я боюсь, что никто извне не даст нам избавленья — ни Apple, ни Google: Попыток 40 сделал, увы За одну секунду машина совершает в среднем арифметических действий. Машина может быть использована не только для решения математических задач. В порядке пробы недавно эта машина производила перевод научно-технического текста с английского на русский язык. Разумовский подтвердил правильность переведенного текста. Уважаемый Сергей, не совсем понял суть проблемы с капчей. Со мной вы можете по-прежнему связаться через нашу почтовую страничку. Павел Русланович, если и когда Вам будет интересно, приглашаю прочитать мои скептические аргументы по поводу машинного перевода: К тому времени, когда в году я начинал учиться в МГПИИЯ им. Тореза, Отделение машинного перевода на переводческом факультете уже благоразумно переименовали в Отделение структурной и прикладной лингвистики. И все-таки многим казалось, что решение проблемы, так сказать, не за горами. Но хотя за это время в сфере компьютерной техники произошло несколько революций и быстродействие машин и возможности их памяти продолжают расти, я не думаю, что мы приблизились к подлинной автоматизации перевода. Другое дело - определенная степень автоматизации отдельных переводческих процессов machine assisted translation vs. Я не являюсь противником электронных словарей, TRADOSов и даже гугловского "переводчика" - он все же может дать представление о содержании материалов скажем, статей или сайтов на совсем незнакомом тебе языке. Что касается "перевода" названий фильмов, то в огромном количестве случаев это скорее "подбор" более или менее удачного и более или менее близкого к оригиналу названия, имеющего шанс "зацепить" зрителя. Some Like It Hot - "В джазе только девушки", иногда довольно ужасно: The Hurt Locker - "Повелитель бурь" впрочем я ума не приложу, что можно было бы предложить взамен. Вот, сегодня написал в тему еще один пост на моем блоге: Сбой речевого кода http: В Google Translator Kit есть два режима, когда вы загружаете файл TranslationMemory tmx: Фактически же в конце месяца все эти файлы, в каком бы их режиме ни загружали, переходят в глобальную память Google Translate, предложение за предложением обучая эту глобальную машину нашим сигнальным системам и их связям. Конец письменной работе наступит быстро, и оттягивать его бессмысленно, поэтому Share! Чем быстрее мы научим глобальную машину своим сигнальным системам, тем быстрее она научит нас новой, еще неведомой сигнальной системе, которой, скорее всего, станет просто мысль. Потому что к "сигнальным системам и их связям" всё не сводится. Две мысли по поводу перевода http: В ситуациях, когда мы говорим удачный , англичане и американцы скорее всего скажут просто good: Коммерческое использование материалов сайта разрешается только после согласования с администрацией. Создать новую учетную запись Запросить новый пароль. Форум Лингвистика Политика Мой читальный зал Из моего архива Фотоальбом Ссылки Почта. Если вы обнаружили орфографическую ошибку в тексте, пожалуйста, сообщите нам о ней. Мой несис- тематический словарь. Все познается в сравнении. Опубликовано 9 декабря, - Космические технологии более доступны, чем машинный перевод Игорь Ашманов, кандидат физико-математических наук Машинному переводу как идее — более 50 лет. Поговорить с машиной Таких Эверестов, в общем, даже два: Эти две задачи — перевод и общение — примерно эквивалентны по сложности. Фразы не клеятся Как удалось решить задачу N1? Машинный перевод Опубликовано 14 декабря, - Уважаемый Опубликовано 14 декабря, - Машинный перевод Опубликовано 2 марта, - Согласен с оговорками Опубликовано 2 марта, - Мое отношение к машинному переводу - тоже скептическое. Просто жизненный опыт подсказывает Хороший переводчик будет нужен всегда. Машинный перевод неграмотных фраз и текстов Опубликовано 4 апреля, - Не затягивайте Опубликовано 18 июля, - Опубликовано 24 августа, - Новый аргумент по поводу машинного Опубликовано 24 ноября, - Название государства 25 недель 2 дня назад Название страны 25 недель 2 дня назад не ошибка 47 недель 6 дней назад Интересный вопрос 47 недель 6 дней назад Нет: Морозить и мерзнуть Новый год Русский происходит из госткого? Вход для пользователей Имя пользователя: Главная Машинный перевод — от утопии к науке и обратно Опубликовано 9 декабря, - Страничка из словаря удачный В ситуациях, когда мы говорим удачный , англичане и американцы скорее всего скажут просто good: Читать дальше Последние комментарии Название государства 25 недель 2 дня назад Название страны 25 недель 2 дня назад не ошибка 47 недель 6 дней назад Интересный вопрос 47 недель 6 дней назад Нет:


Теория и практика машинного перевода


Первые эксперименты по машинному переводу, подтвердившие принципиальную возможность его реализации, были проведены в году в Джорджтаунском университете Вашингтон, США. Вскоре после этого в промышленно развитых странах мира были начаты исследования и разработки, направленные на создание систем машинного перевода. И хотя с тех пор прошло более полстолетия, проблема машинного перевода всё еще не решена на должном уровне. Она оказалась значительно сложнее, чем это представляли себе пионеры и энтузиасты машинного перевода в конце пятидесятых — начале шестидесятых годов. Поэтому, оценивая сегодняшнюю реальность приходится говорить как о достижениях, так и разочарованиях. Задача состояла в том, чтобы снабдить электронный мозг достаточным количеством синонимов, конверсивов, синтаксических дериватов и семантических параметров, которыми он бы мог манипулировать в процессе перевода. А перевод в то время понимался лишь как процесс подстановки слов и словосочетаний одного языка вместо слов и словосочетаний другого языка. Это было также время, когда лингвисты, работавшие в области машинного перевода, пытались описать естественный язык с помощью математических символов. В отличие от Ретцкера и Федорова, стремившихся установить имеющиеся закономерности на основе практических наблюдений, они ставили своей целью создание дедуктивной теории. Речь шла о разработке свода правил, применение которых к определенному набору языковых единиц могло бы привести к порождению осмысленного текста. Языковые единицы выступали в виде математических символов, которые в результате применения к ним названных правил, также выраженных математически, можно было расположить определенным образом. После декодирования комбинация символов превращалась в текст. Ученые создали специальный язык, состоящий из математических символов, который мог быть использован машиной в качестве посредника при переходе от исходного текста к тексту перевода. Так, говоря о грамматике, мы пользуемся специальными словами, или терминами, и выражениями, а при обсуждении области медицины, применяем другой терминологический аппарат. Был подготовлен набор правил для преобразования поверхностных структур английского языка в ядерные предложения. Ученые далее ожидали, что с помощью языка-посредника машина легко преобразует глубинные структуры исходного языка в глубинные структуры переводящего языка, а затем и в его поверхностные структуры. Но полученные результаты не был полностью удовлетворительными. Качество машинного перевода оказалось очень низким и последующие попытки улучшит его к успеху на привели. В чем же была причина? Как упоминалось ранее, ученые в то время, то есть в начале пятидесятых и середине шестидесятых годов прошлого века, ориентировались на лингвистическую теорию структурализма, основанную на описании и интерпретации языковых явлений строго в рамках внутриязыковых отношений и не допускающую выхода за пределы языковой структуры при анализе этих явлений. Они, конечно, знали то, что хорошо известно каждому переводчику-практику. А именно, важность учета конкретной обстановки, в которой протекает данный акт межъязыкового общения, а также ситуации, описываемой в переводимом сообщении. Эта информация с точки зрения качества переводного текста играет не меньшую роль, чем собственно языковые явления. Для того, чтобы примирить это обстоятельство с требованием не выходить за рамки внутрилингвистических отношений, переводческую деятельность предлагалось разделить на два компонента — собственно перевод, осуществляемый по заданным правилам без обращения к внеязыковой действительности, отраженной в опыте или восприятии переводчика, и интерпретацию, включающую привлечение внелингвистических данных. Но это явно идет в разрез с тем, что нам известно о реальных процессах обычного, то есть немашинного перевода. Для перевода, осуществляемого человеком характерно органическое и неразрывное единство собственно языковых и внеязыковых факторов. Дело в том, что в любом речевом произведении далеко не все выражено явно, или, как говорят лингвисты, эксплицитно. Многое обычно остается невыраженным, подразумеваемым. Всякое высказывание адресуется определенному лицу или определенной аудитории. Автор высказывания при этом исходит из того, что его слушатели или читатели обладают достаточными знаниями для того, чтобы однозначно интерпретировать то или иное сообщение без уточняющих подробностей. Таким образом, машинный перевод, основанный только на анализе формально-структурных закономерностей исходного текста, не позволяет вскрыть взаимодействие лингвистических и внелингвистических факторов и, тем самым, оставляет без внимания важнейшую составляющую межъязыкового общения. В этом и заключалась основная причина его неудовлетворительного качества. Многими исследователями признают, что и по состоянию на настоящее время в машинном переводе не произошло каких-либо прорывов в деле реализации иных моделей, несмотря на то, что возможности компьютеров по сравнению с началом работ по машинному переводу многократно возросли, и возникли новые языки программирования, гораздо более удобные для реализации программ по созданию машинного перевода. Поэтому машинный перевод до сих пор требует после себя человеческого редактора и служит источником многочисленных переводческих шуток. Окончательный вариант был таким: Потому, что соответствующая английская пословица гласит: Машина нашла её без труда. Но при обратном переводе этой пословицы на русский язык она пошла по неправильному пути. Дело в том, что в русском языке имеются прямые соответствия обоим компонентам английской фразы: Машина этими соответствиями и воспользовалась. Она просто не догадалась, что обе названные составляющие английской фразы должны передаваться не по отдельности, а как единое целое. В целом уровень качества машинного перевода сугубо информативных текстов, контрактов, инструкций, научных докладов и т. Payments under this contract for the equipment listed in supplement 1 to the contract shall be effected as follows. Платежи согласно этому контракту на оборудование, перечисленное в добавлении 1 к контракту должны быть произведены следующим образом. Всё сказанное ранее позволяет сделать вывод и том, что пионеры машинного перевода и их ближайшие последователи достигли значительных успехов этой области. Но многие важнейшие проблемы им всё же решить не удалось. В этой связи представляет интерес высказывание руководителя японской государственной программы по машинному переводу профессора Макото Нагао из университета Киото. В одной из своих статей, опубликованных в году, он сделал такое заявление: В том же году профессор Нагао опубликовал статью, в которой предложил новую концепцию машинного перевода. Согласно этой концепции тесты должны переводиться по аналогии с другими текстами, ранее переведенными вручную, то есть не машиной, а переводчиком. Для этой цели должен быть сформирован большой массив тематически сходных текстов и их переводов билингвов , которые затем будут введены в сверхмощную многопроцессорную ЭВМ. В процессе перевода новых текстов из массива билингвов должны выбираться аналоги фрагментов этих текстов, которые можно будет использовать для формирования конечного текста. Сущность этой концепции заключается в следующем. При подготовке иноязычных вариантов каких-либо документов например, эксплуатационной документации на продукцию машиностроительного завода сначала их перевод выполняется вручную переводчиками высшей квалификации. Затем оригиналы документов и их переводы на иностранный язык вводятся в ЭВМ, расчленяются на отдельные предложения или фрагменты предложений, и из этих элементов строится база данных, которая далее загружается в поисковую систему. При переводе новых текстов поисковая система отыскивает в них предложения и части предложений, аналогичные тем, которые у неё имеются и вставляет их в нужные места переводимого текста. Таким образом в автоматическом режиме получается качественный перевод тех фрагментов нового текста, которые имеются в базе данных. Не опознанные фрагменты текста переводятся на иностранный язык вручную. При этом можно воспользоваться процедурой приближенного поиска этих фрагментов в базе данных, а результаты поиска использовать как подсказку. Результаты ручного перевода новых фрагментов текстов снова вводятся в базу данных. Но база переводных соответствий, построенная для однородных текстов одного предприятия, пригодна лишь для однородных текстов близких по профилю предприятий, так как предложения и большие фрагменты предложений, извлекаемые из текстов одних документов, как правило, не встречаются или очень редко встречаются в текстах других документов. Главной особенностью этой концепции является мысль о том, что при переводе в качестве основных и наиболее устойчивых единиц смысла следует рассматривать не семантические компоненты, являющиеся неотъемлемой частью языка, а понятия, связанные с языком через языковые значения, но при этом выступающие в качестве самостоятельной формы осмысления человеком окружающего материального мира. Таким образом делается первый шаг к тому, чтобы научить машину оперировать не только языковыми, но и внеязыковыми аспектами перевода. Напомню, что сознание человека способно отражать окружающий мир в форме двух сигнальных систем, Первая сигнальная система воспринимает окружающий мир через органы чувств. В результате воздействия на один из органов чувств зрение, слух, осязание, обоняние, вкус возникает ощущение. На основе совокупности ощущений, связанных с определенным объектом, у человека возникает целостное восприятие этого объекта. Воспринятый объект может храниться в памяти в виде соответствующего представления о нем уже без непосредственного чувственного контакта. Вторая сигнальная система, позволяет человеку, абстрагируясь от конкретных объектов, формировать обобщенные понятия об окружающем мире. В понятии различается его объем, то есть класс объектов, обобщенных в понятии, и содержание понятия — признаки объектов, через которые осуществлено обобщение. Понятиями люди оперируют в процессе общения. Для этого за каждым понятием закрепляются определенные ярлыки — их наименования в виде отдельных слов или что значительно чаще словосочетаний. Причем в разных языках для обозначения одних и тех же понятий могут использоваться разные признаки snowdrop— подснежник, eye- dog— собака-поводырь, vacuumcleaner— пылесос. С учетом изложенных принципов, система фразеологического машинного перевода в общих чертах выглядит следующим образом. Как уже было сказано, наиболее устойчивыми элементами текста являются наименования понятий. В процессе перевода производится замена наименования понятий исходного текста на наименования этих единиц смысла на переводящем языке и оформление полученного таким образом нового текста в соответствие с грамматическими нормами переводящего языка. Из сказанного следует, что машинные словари являются наиболее важным компонентом систем фразеологического машинного перевода. Количество различных слов в таких языках, как русский и английский, превосходит один миллион, а количество относительно устойчивых фразеологических словосочетаний исчисляется сотнями миллионов. Фразеологические словари такого объёма быстро создать не удастся. Составление фразеологических словарей больших объёмов потребует значительных временных затрат, поэтому в системах машинного перевода постоянным спутником фразеологических словосочетаний будут и отдельные слова. Для их перевода, как говорилось, используются положения семантической модели, качество машинного перевода при этом вызывает много нареканий. Отсюда, как считают многие специалисты в этой области, единственная разумная перспектива для систем машинного перевода в XXI веке — это сочетание фразеологического и пословного семантического перевода. При этом удельный вес удельный вес фразеологического перевода, по-видимому, должен постоянно возрастать, а удельный вес семантического перевода — постоянно уменьшаться. Как показывает опыт, системы машинного перевода должны быть ориентированы прежде всего на перевод деловых текстов в области науки, техники, политики и экономики. Перевод художественных текстов — более сложная задача. Но и здесь в будущем можно достичь определённого успеха, если найдутся энтузиасты типа Владимира Даля, которые с помощью современных технических средств возьмут на себя нелёгкий труд по составлению мощных фразеологических словарей для этого типа текстов. Об использовании принципа аналогии при автоматической обработке текстовой информации. Современные средства автоматизации перевода: Сдача сессии и защита диплома - страшная бессонница, которая потом кажется страшным сном. Теория воздействия на покупателя I. Патримониальная теория происхождения государства IV Коллективизация сельского хозяйства. Индустриализация - процесс создания крупного машинного производства, прежде всего в тяжелой промышленности энергетике IV. Непсихоаналитическая теория Карн Хорни IV. Органическая теория происхождения государства. Но предоставляет возможность бесплатного использования. Есть нарушение авторского права?


https://gist.github.com/6977c22f833296191d2d134636ddbd4f
https://gist.github.com/2650efa51d2faadeda410441990ff1d0
https://gist.github.com/0530125a840a7079c903756d099740bc
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment