Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Save anonymous/8830c52363e3a16cf3c92ec5246169fa to your computer and use it in GitHub Desktop.
Save anonymous/8830c52363e3a16cf3c92ec5246169fa to your computer and use it in GitHub Desktop.
Проблемы компьютерной лингвистики

Проблемы компьютерной лингвистики


Проблемы компьютерной лингвистики



Направления компьютерной лингвистики
Вы точно человек?
Компьютерная лингвистика


























Поскольку дальнейшее обучение автор мечтает связать с лингвистикой, то выбранная тема исследования не случайна. Проблемные вопросы, поставленные автором:. Почему не все машинные переводы совершенны? От чего зависит качество перевода? Достаточно ли автору знаний, чтобы использовать и дополнять существующие компьютерные словари? Ответы на эти вопросы автор стремилась представить в своей работе. Отчет по теме - в прикрепленном файле, продукт проектной деятельности - на школьном портале. Область исследования — информатика и английский язык. Предметом исследования в настоящей работе является компьютерная лингвистика. Формы организации взаимодействия ЭВМ и человека при машинном переводе: Человек придумал электронные устройства, облегчающие арифметический счет. Накапливались факты, писались специальные компьютерные программы, изобретались искусственные языки обработки знаний. Этот процесс привел к становлению новой науки, названной искусственный интеллект. Роботы осуществляют точные механические операции, распознают образы, ведут поиск в сложных условиях, пишут музыку, сочиняют стихи. В классификации наук США работы по искусственному интеллекту из разряда теоретических переведены в разряд прикладных наук. Одна из главных проблем искусственного интеллекта - компьютерное понимание естественного языка. Поскольку дальнейшее обучение я хотела бы связать с лингвистикой, то выбранная тема исследования не случайна. Мне интересно узнать теорию компьютерной лингвистики, технологию машинного перевода и ответить на проблемные вопросы: Достаточно ли мне знаний, чтобы использовать и дополнять существующие компьютерные словари? Чтобы ответить на эти вопросы я поставила перед собой цель. Это наука о естественном человеческом языке вообще и о всех языках мира как индивидуальных его представителях. Компьютерная лингвистика частично пересекается с обработкой естественных языков. Однако в последней акцент делается не на абстрактные модели, а на прикладные методы описания и обработки языка для компьютерных систем. Собственно, только в последнем случае и идет речь о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения информатики и теории программирования к решению задач науки о языке. На практике, однако, к компьютерной лингвистике относят практически все, что связано с использованием компьютеров в языкознании. Компьютерная лингвистика как особая прикладная дисциплина выделяется прежде всего по инструменту — то есть по использованию компьютерных средств обработки языковых данных. Поскольку компьютерные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые различные средства программирования, то об общем понятийном аппарате компьютерной лингвистики говорить вроде бы не приходится. Однако это не так. Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В их основе лежит теория знаний, первоначально разрабатывавшаяся в области искусственного интеллекта, а в дальнейшем ставшая одним из разделов когнитивной науки. Компьютерная лингвистика возникает как одно из направлений искусственного интеллекта в х годах го века и основные этапы его развития во многом соотносятся с эволюцией подходов и методов в искусственном интеллекте в целом [5]. Толчком к развитию искусственного интеллекта и компьютерной лингвистики в частности послужило создание первых ЭВМ в х годах, и, в частности, успешное использование их во время второй мировой войны. Тьюринг предположил, что о создании искусственного интеллекта можно будет говорить в том случае, если воображаемый компьютер сможет успешно пройти следующий тест: Этот тест получил название теста Тьюринга и был подвергнут широкому обсуждению. Важно отметить, что в основе теста лежат проблемы, относящиеся к области автоматической обработки естественного языка и моделирования языкового взаимодействия. Итак, компьютерная лингвистика родилась в январе года, когда в Джорджтаунском университете США был проведен первый в мире публичный эксперимент по машинному переводу. В конце х гг. Это привело к качественному скачку в технологиях информационного поиска. Возникли совершенно новые задачи и технологии обработки текстов на естественном языке. Необходимость быстрой обработки огромного потока неструктурированных данных привела к тому, что основной интерес в сфере автоматической обработки естественного языка переместился на разработку статистических методов. Современные поисковые машины в условиях жесткой конкуренции вынуждены предлагать пользователю все новые сервисы интеллектуального анализа текстов: Таким образом, возникшие за последние несколько лет огромные электронные текстовые ресурсы из самых различных областей знаний и практик, поставили традиционную задачу лингвистики и филологии - анализ текста - на совершенно новый уровень: Для того, чтобы современный специалист мог эффективно справляться с такими большими информационными потоками, необходима их предварительная содержательная обработка. Так же называется направление научных исследований, связанных с построением подобных систем [4]. Мысль использовать ЭВМ для перевода была высказана в году в США, сразу после появления первых ЭВМ. Первая публичная демонстрация машинного перевода так называемый Джорджтаунский эксперимент состоялась в году. Несмотря на примитивность той системы словарь в слов, грамматика из 6 правил, перевод нескольких простых фраз , этот эксперимент получил широкий резонанс: К середине х в США для практического использования были предоставлены две системы русско-английского перевода: Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведённых текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике. Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области, наступившему примерно с середины х. В е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме. Впрочем, мечты, с которыми человечество полвека назад взялось за задачу машинного перевода, в значительной мере остаются мечтами: Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания Systran. В России большой вклад в развитие машинного перевода внесла группа под руководством проф. Пиотровского Российский государственный педагогический университет имени А. Качество перевода зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке. Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом различные описания и руководства и официально-деловом стиле. Применение машинного перевода без настройки на тематику или с намеренно неверной настройкой служит предметом многочисленных бродящих по Интернету шуток. Главной причиной того, почему программа перевела именно так, было то, что после слова black нужно было добавить kitten, тогда программа переведёт правильно: Чаще всего подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Позволяет быстро найти нужное слово, часто с учетом морфологии и возможностью поиска словосочетаний примеров употребления , а также с возможностью изменения направления перевода например, англо-русский или русско-английский. Электронные словари не стоит путать с компьютерными словарями, предназначенными не для пользователей, а для компьютерных программ, работающих с текстами на естественных языках. Если Вы проявите желание выучить 30 новых английских слов, программа самостоятельно может сгенерировать урок, в котором по очереди, в случайном порядке будут предложены слова для перевода. Выполнив задания, Вы получите звуковые подтверждения правильности проделанного[6]. В базе есть около словарей, поэтому выбор есть. Совсем недавно словари к Lingvo Tutor начали выходит и со списками слов в Word такого формата: Теперь вы можете скачать такие списки слов в формате word ко всем словарям. На сайте же, пока не все словари идут в WORD формате. Однако, думаю, не всех и каждого устроит то, что Lingvo без Вашего участия очертила круг новых слов. Одна из задач — провести эксперимент, который заключен в сравнении возможностей различных компьютерных лингвистических словарей, по более точно-приближенному переводу с английского на русский. Для чистоты эксперимента, я выбирала предложения с разной степенью сложности стилистического перевода. Фразы для ввода следующие: Новый доклад говорит, что современные подростки более эгоистичны, чем они были 20 лет назад. She believes video games and the Internet are the biggest reasons for this increased selfishness. Она верит, что видео игры и Интернет являются наиболее значимыми причинами для этой возрастающей эгоистичности. She found the big increase started from the year , which is when violent video games became really popular. Она нашла большой рост, начавшийся с года, когда жестокие видео игры стали действительно популярны. Переведя эти предложения на сайтах онлайн-переводчиков, я получила следующие результаты: Проведя эксперимент со сравнением возможностей различных компьютерных лингвистических словарей, по более точно-приближенному переводу с английского на русский я выявила, что практически во всех онлайн-переводчиках присутствуют недостатки. К сожалению, пока не создан лингвистический словарь-переводчик, который бы был способен литературно переводить тексты, как с английского на русский, так и с русского на английский. Для этого до сих пор используются только литературные способности человека, его воображение, красноречие и знание особенностей иностранных языков. Трудно представить современного человека, изучающего иностранные языки, который не использует электронные словари и онлайн-переводчики, распространенные в сети Интернет. Размышляя над тем, на какой факультет поступить в университете, после окончания школы, я узнала, что существуют факультет компьютерной лингвистики. Я проявила интерес, так как я не равнодушна ко всему, что связанно с иностранными языками, и у меня возникло желание исследовать компьютерную лингвистику. В повседневной жизни люди часто используют машинный перевод текста — для работы ли, учёбы, а иногда просто ради интереса. Но так ли совершенен машинный перевод? В своей работе я постаралась узнать, как далеко зашёл технический прогресс и какими возможностями обладают современные лингвистические словари. В данном проекте я решила описать один из наиболее известных компьютерных лингвистических словарей — Lingvo Tutor, с помощью которого, человек, даже имеющий минимальные познания в иностранном языке, способен расширить свой кругозор и пополнить свой словарный запас. Так же, был проведён эксперимент, связанный с переводом различных текстов на сайтах онлайн-переводчиков, цель которого заключалась в сравнении возможностей различных компьютерных лингвистических словарей, по более точно-приближенному переводу с английского на русский. Надеюсь, что мой проект позволит многим узнать для себя что-то новое и воспользоваться моими исследованиями для успешного развития в изучении иностранных языков. Литературное творчество Музыкальное творчество Научно-техническое творчество Художественно-прикладное творчество. Компьютерная лингвистика Опубликовано Осипова Светлана Леонидовна вкл Проблемные вопросы, поставленные автором:


Неразрешимая проблема компьютерной лингвистики


В жизни современного общества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: Эти успехи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ. Когда речь идет о создании перспективных информационных технологий, то проблемы автоматической обработки текстовой информации, представленной на естественных языках, выступают на передний план. Это определяется тем, что мышление человека тесно связано с его языком. Более того, естественный язык является инструментом мышления. Он является также универсальным средством общения между людьми — средством восприятия, накопления, хранения, обработки и передачи информации. Проблемами использования естественного языка в системах автоматической обработки информации занимается наука компьютерная лингвистика. Эта наука возникла сравнительно недавно — на рубеже пятидесятых и шестидесятых годов прошлого столетия. За прошедшие полвека в области компьютерной лингвистики были получены значительные научные и практические результаты: Данная работа посвящена построению оптимального компьютерного интерфейса средствами компьютерной лингвистики при проведении лингвистических исследований. Место и роль компьютерной лингвистики в лингвистических исследованиях. В современном мире при проведении различных лингвистических исследований все более активно используется компьютерная лингвистика. Компьютерная лингвистика — это область знаний, связанная c решением задач автоматической обработки информации, представленной на естественном языке. Центральными научными проблемами компьютерной лингвистики являются проблема моделирования процесса понимания смысла текстов перехода от текста к формализованному представлению его смысла и проблема синтеза речи перехода от формализованного представления смысла к текстам на естественном языке. Эти проблемы возникают при решении ряда прикладных задач и, в частности, задач автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ, автоматического анализа и синтеза устной речи, автоматического перевода текстов с одних языков на другие, общения с ЭВМ на естественном языке, автоматической классификации и индексирования текстовых документов, их автоматического реферирования, поиска документов в полнотекстовых базах данных. Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике, можно условно разделить на две части: К декларативной части относятся словари единиц языка и речи, тексты и различного рода грамматические таблицы, к процедурной части — средства манипулирования единицами языка и речи, текстами и грамматическими таблицами. Компьютерный интерфейс относится к процедурной части компьютерной лингвистики. Успех в решении прикладных задач компьютерной лингвистики зависит, прежде всего, от полноты и точности представления в памяти ЭВМ декларативных средств и от качества процедурных средств. На сегодняшний день необходимый уровень решения этих задач пока еще не достигнут, хотя работы в области компьютерной лингвистики ведутся во всех развитых странах мира Россия, США, Англия, Франция, Германия, Япония и др. Тем не менее, можно отметить серьезные научные и практические достижения в области компьютерной лингвистики. Так в ряде стран Россия, США, Япония, и др. Важной методологической проблемой прикладной компьютерной лингвистики является правильная оценка необходимого соотношения между декларативной и процедурной компонентами систем автоматической обработки текстовой информации. Большинство ученых считают что, второй путь предпочтительнее. Он быстрее приведет к достижению практических целей, так как при этом меньше встретится тупиков и трудно преодолимых препятствий и здесь можно будет в более широких масштабах использовать ЭВМ для автоматизации исследований и разработок. Необходимость мобилизации усилий, прежде всего, на развитии декларативной компоненты систем автоматической обработки текстовой информации подтверждается полувековым опытом развития компьютерной лингвистики. Ведь здесь, несмотря на бесспорные успехи этой науки, увлечение алгоритмическими процедурами не принесло ожидаемого успеха. Наступило даже некоторое разочарование в возможностях процедурных средств. В свете вышеизложенного, представляется перспективным такой путь развития компьютерной лингвистики, когда основные усилия будут направлены на создание мощных словарей единиц языка и речи, изучение их семантико-синтаксической структуры и на создание базовых процедур морфологического, семантико-синтаксического и концептуального анализа и синтеза текстов. Это позволит в дальнейшем решать широкий спектр прикладных задач. Перед компьютерной лингвистикой стоят, прежде всего, задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. Наиболее важными из них являются:. Лингвистическое обеспечение процессов поиска информации в одноязычных и многоязычных базах данных;. Построение лингвистических процессоров, обеспечивающих общение пользователей с автоматизированными интеллектуальными информационными системами в частности, с экспертными системами на естественном языке, или на языке, близком к естественному;. В практической деятельности информационных центров есть необходимость решения задачи автоматизированного обнаружения и исправления ошибок в текстах при их вводе в ЭВМ. Эта комплексная задача может быть условно расчленена на три задачи — задачи орфографического, синтаксического и семантического контроля текстов. Первая из них может быть решена с помощью процедуры морфологического анализа, использующей достаточно мощный эталонный машинный словарь основ слов. В процессе орфографического контроля слова текста подвергаются морфологическому анализу, и если их основы отождествляются с основами эталонного словаря, то они считаются правильными; если не отождествляются, то они в сопровождении микроконтекста выдаются на просмотр человеку. Человек обнаруживает и исправляет искаженные слова, а соответствующая программная система вносит эти исправления в корректируемый текст. Задача синтаксического контроля текстов с целью обнаружения в них ошибок существенно сложнее задачи их орфографического контроля. Во-первых, потому, что она включает в свой состав и задачу орфографического контроля как свою обязательную компоненту, а, во-вторых, потому, что проблема синтаксического анализа неформализованных текстов в полном объеме еще не решена. Тем не менее, частичный синтаксический контроль текстов вполне возможен. Здесь можно идти двумя путями: Первый путь нам представляется более перспективным, хотя он, конечно, не исключает и возможности применения элементов второго пути. Синтаксическая структура текстов должна описываться в терминах грамматических классов слов точнее — в виде последовательностей наборов грамматической информации к словам. Задачу семантического контроля текстов с целью обнаружения в них смысловых ошибок следует отнести к классу задач искусственного интеллекта. В полном объеме она может быть решена только на основе моделирования процессов человеческого мышления. При этом, по-видимому, придется создавать мощные энциклопедические базы знаний и программные средства манипулирования знаниями. Тем не менее, для ограниченных предметных областей и для формализованной информации эта задача вполне разрешима. Она должна ставиться и решаться как задача семантико-синтаксического контроля текстов. Проблема автоматизации индексирования документов и запросов является традиционной для систем автоматизированного поиска текстовой информации. Поначалу под индексированием понимали процесс присвоения документам и запросам классификационных индексов, отражающих их тематическое содержание. Поисковые образы документов стали, как правило, оформляться в виде перечней ключевых слов и словосочетаний, отражающих их тематическое содержание, а поисковые образы запросов — в виде логических конструкций, в которых ключевые слова и словосочетания соединялись друг с другом логическими и синтаксическими операторами. Автоматическое индексирование документов удобно проводить по текстам их рефератов если они имеются , поскольку в рефератах основное содержание документов отражается в концентрированном виде. Индексирование может проводиться с контролем по тезаурусу или без контроля. В первом случае в тексте заголовка документа и его реферата ищутся ключевые слова и словосочетания эталонного машинного словаря и в ПОД включаются только те из них, которые нашлись в словаре. Во втором случае ключевые слова и словосочетания выделяются из текста и включаются в ПОД независимо от их принадлежности к какому-либо эталонному словарю. Был реализован еще и третий вариант, где наряду с терминами из машинного тезауруса в ПОД включались еще и термины, выделенные из заголовка и первого предложения реферата документа. Эксперименты показали, что ПОДы, составленные в автоматическом режиме по заголовкам и рефератам документов, обеспечивают большую полноту поиска, чем ПОДы, составленные вручную. Объясняется это тем, что система автоматического индексирования более полно отражает различные аспекты содержания документов, чем система ручного индексирования. При автоматическом индексировании запросов возникают примерно те же проблемы, что и при автоматическом индексировании документов. Здесь также приходится выделять ключевые слова и словосочетания из текста и нормализовать слова, входящие в текст запроса. Логические связки между ключевыми словами и словосочетаниями и контекстуальные операторы могут проставляться вручную или с помощью автоматизированной процедуры. Важным элементом процесса автоматического индексирования запроса является дополнение входящих в его состав ключевых слов и словосочетаний их синонимами и гипонимами иногда также гиперонимами и другими терминами, ассоциированными с исходными терминами запроса. Это может быть сделано в автоматическом или в интерактивном режиме с помощью машинного тезауруса. Проблему автоматизации поиска документальной информации мы уже частично рассматривали в связи с задачей автоматического индексирования. Наиболее перспективным здесь является поиск документов по их полным текстам, так как использование для этой цели всякого рода заменителей библиографических описаний, поисковых образов документов и текстов их рефератов приводит к потерям информации при поиске. Наибольшие потери имеют место тогда, когда в качестве заменителей первичных документов используются их библиографические описания, наименьшие — при использовании рефератов. Важными характеристиками качества поиска информации являются его полнота и точность. Полнота поиска может быть обеспечена путем максимального учета парадигматических связей между единицами языка и речи словами и словосочетаниями , а точность — путем учета их синтагматических связей. Существует мнение, что полнота и точность поиска находятся в обратной зависимости: Но это справедливо только для фиксированной логики поиска. Если эту логику совершенствовать, то обе характеристики могут улучшаться одновременно. Процесс поиска информации в полнотекстовых базах данных целесообразно строить как процесс диалогового общения пользователя с информационно-поисковой системой ИПС , при котором он последовательно просматривает фрагменты текстов абзацы, параграфы , удовлетворяющие логическим условиям запроса, и отбирает те из них, которые для него представляют интерес. В качестве окончательных результатов поиска могут выдаваться как полные тексты документов, так и любые их фрагменты. Как видно из предыдущих рассуждений, при автоматическом поиске информации приходится преодолевать языковый барьер, возникающий между пользователем и ИПС в связи с имеющим место в текстах разнообразием форм представления одного и того же смысла. Этот барьер становится еще более значительным, если поиск приходится вести в разноязычных базах данных. Кардинальным решением проблемы здесь может быть машинный перевод текстов документов с одних языков на другие. Это можно делать либо заранее, перед загрузкой документов в поисковую систему, либо в процессе поиска информации. В последнем случае запрос пользователя должен переводиться на язык массива документов, в котором ведется поиск, а результаты поиска — на язык запроса. Такого рода поисковые системы уже работают в системе Internet. В ВИНИТИ РАН была также построена система Cyrillic Browser, которая позволяет производить поиск информации в русскоязычных текстах по запросам на английском языке с выдачей результатов поиска также на языке пользователя. Важной и перспективной задачей компьютерной лингвистики является построение лингвистических процессоров, обеспечивающих общение пользователей с интеллектуальными автоматизированными информационными системами в частности с экспертными системами на естественном языке или на языке, близком к естественному. Поскольку в современных интеллектуальных системах информация хранится в формализованном виде, то лингвистические процессоры, выполняя роль посредников между человеком и ЭВМ, должны решать следующие основные задачи: Первая задача должна решаться путем морфологического, синтаксического и концептуального анализа входных запросов и сообщений, вторая — путем концептуального, синтаксического и морфологического синтеза выходных сообщений. Концептуальный анализ информационных запросов и сообщений состоит в выявлении их понятийной структуры границ наименований понятий и отношений между понятиями в тексте и переводе этой структуры на формализованный язык. Он проводится после морфологического и синтаксического анализа запросов и сообщений. Концептуальный синтез сообщений состоит в переходе от представления элементов их структуры на формализованном языке к вербальному словесному представлению. После этого сообщениям дается необходимое синтаксическое и морфологическое оформление. Для машинного перевода текстов с одних естественных языков на другие необходимо располагать словарями переводных соответствий между наименованиями понятий. Знания о таких переводных соответствиях накапливались многими поколениями людей и оформлялись в виде специальных изданий — двуязычных или многоязычных словарей. Для специалистов, владеющих в той или иной мере иностранными языками, эти словари служили ценными пособиями при переводе текстов. В традиционных двуязычных и многоязычных словарях общего назначения переводные эквиваленты указывались преимущественно для отдельных слов, для словосочетаний — значительно реже. Указание переводных эквивалентов для словосочетаний было более характерно для специальных терминологических словарей. Поэтому при переводе отрезков текстов, содержащих многозначные слова, у обучаемых часто возникали затруднения. Здесь английские фразы не являются идиоматическими выражениями. Тем не менее, их перевод на русский язык лишь с некоторой натяжкой можно рассматривать как простой пословный перевод, так как почти все входящие в них слова многозначные. Поэтому здесь обучаемым способны помочь только достижения компьютерной лингвистики. Ниже будут рассмотрены основные системы машинного перевода, способные помогать обучаемым при изучении языка. Первые эксперименты по машинному переводу, подтвердившие принципиальную возможность его реализации, были проведены в г. Вскоре после этого в промышленно развитых странах мира были начаты исследования и разработки, направленные на создание систем машинного перевода систем МП. И хотя с тех пор прошло полстолетия, проблема машинного перевода все еще не решена на должном уровне. Она оказалась значительно сложнее, чем это представляли себе пионеры и энтузиасты МП конца пятидесятых — начала шестидесятых годов прошлого века. Из достижений компьютерной лингвистики следует выделить, прежде всего, систему под названием RETRANS. Первая промышленная версия этой системы была разработана в году и стала использоваться в ряде государственных учреждений России, Франции, США и Англии. После этого было создано еще несколько версий системы. Эта версия реализована в нескольких модификациях:. Первая модификация системы обладает тем достоинством, что человек, имеющий опыт работы с редактором типа Word, может с помощью этой. При этом он может пользоваться всеми возможностями редактора Word. Вторая модификация системы может служить эффективным средством общения с системой Internet для лиц, знающих русский язык, но не знающих английского, или, наоборот, знающих английский язык, но не знающих русского. Она может также использоваться для перевода любых документов, представленных в виде Web-страниц например, электронной версии Британской Энциклопедии. При этом во всех случаях сохраняется внешний вид переведенной страницы. Третья модификация системы может быть полезна при работе с простыми программами типа MS Notepad, MS Wordpad, MS Paint и им подобными, а также при обработке различных электронных форм. В случае необходимости, на одной ЭВМ могут устанавливаться несколько модификаций системы RETRANS одновременно. При этом ядро процедурных средств и словарные средства системы будут представлены только в одном экземпляре. Основные политематические машинные словари системы Retrans русско-английский и англо-русский включают в свой состав терминологию по естественным и техническим наукам, экономике, бизнесу, политике, законодательству и военному делу. Кроме основных политематических машинных словарей в состав системы RETRANS входят двенадцать дополнительных тематических словарей, включающих лексику родственных тематик. Эти словари содержат словарные статьи только тех слов и словосочетаний из политематических словарей, которые в рамках каждой тематической группы имеют приоритетные переводные эквиваленты, отличные от приоритетных переводных эквивалентов основных словарей. В дополнительных тематических словарях лексические единицы слова и словосочетания могут иметь не более двух переводных эквивалентов в политематическом словаре их может быть до пяти. Средства автоматизированного пополнения и настройки машинных словарей, созданные на начальных этапах разработки системы RETRANS, сыграли большую роль в ее дальнейшем развитии. Но опыт практической эксплуатации этой системы выявил необходимость введения некоторых изменений в структуру словарей. Наряду с основными политематическими и дополнительными тематическими словарями системы были введены еще и дополнительные словари пользователей. При этом имелось в виду, что при переводе текстов с одного языка на другой одновременно используются три словаря: Словарь пользователя СП служит для тонкой настройки системы машинного перевода, выполняемой самим пользователем при переводе текстов по конкретной тематике. Кроме того, СП дает возможность использовать при переводе ранее накопленные словарные массивы. В отличие от основного политематического словаря и дополнительных тематических словарей, содержимое которых может изменяться только разработчиками системы машинного перевода, словарь пользователя может создаваться и изменяться пользователем по своему усмотрению. По структуре словарных статей словарь пользователя аналогичен основному политематическому и дополнительным тематическим словарям, но он отличается от них количеством возможных вариантов перевода, указываемых для входных наименований понятий. Здесь для каждого входного наименования понятия может указываться только один вариант перевода. Отличается словарь пользователя также и способом его хранения в файле. Это связано с необходимостью оперативного изменения содержимого словаря, и тем, что его объем значительно меньше, чем объем словарей других типов. Каждая запись СП описывает наименование одного понятия исходного языка, которое может иметь длину от одного до тислов. Его переводной эквивалент также может иметь длину от одного до ти слов. Словарь может включать до 65 тысяч словарных статей. Пользователь системы RETRANS может создавать практически неограниченное количество своих словарей по различным тематикам, но в процессе перевода конкретного текста используется только один словарь. При необходимости, можно объединить несколько словарей в один словарь. В интерактивном режиме работы пользователь имеет возможность просматривать все варианты перевода слов и словосочетаний содержащиеся в словарях, изменять их приоритет, добавлять новые переводные эквиваленты, а также выполнять другие операции над промежуточными результатами перевода. В промежуточных результатах перевода эквивалент, выбранный из СП, будет стоять первым в списке возможных вариантов перевода наименования понятия. Затем будут располагаться варианты перевода, выбранные из дополнительного тематического словаря, в том порядке, в котором они записаны в словаре. За ними — варианты перевода из основного политематического словаря. Система массового обслуживания, устанавливаемая на сервере IIS 4. Эта система получила название Net Vista. Эта система получила название Clip Vista. Система Word Vista обладает тем достоинством, что человек, имеющий опыт работы с редактором типа Word, может с помощью этой системы начать перевод текстов практически без предварительной подготовки. Система Web Vista может оказаться незаменимым средством общения с системой Internet для лиц, знающих русский язык, но не знающих английского, или, наоборот, знающих английский язык, но не знающих русского. Система Net Vista позволяет пользователям, расположенным в любой точке земного шара, осуществлять перевод текстов с русского языка на английский и с английского на русский в режиме удаленного доступа к этой системе. При этом сами текстовые документы могут храниться в любой другой точке земного шара, а перевод выполняться в третьей точке. Система Clip Vista может быть полезна при работе с простыми программами типа MS Notepad, MS Wordpad, MS Paint и им подобными, а также при обработке различных электронных форм, например, при заполнении резюме или вводе поискового запроса, если требуется использовать другой язык. В случае необходимости, на ЭВМ пользователя могут устанавливаться несколько модификаций системы Vista одновременно. При этом ядро процедурных средств и словарные средства системы будут установлены только в одном экземпляре. Основные политематические машинные словари системы Vista русско-английский и англо-русский включают в свой состав терминологию по естественным и техническим наукам, экономике, бизнесу, политике, законодательству и военному делу. Кроме основных политематических машинных словарей в состав системы Vista входят двенадцать дополнительных тематических словарей, включающих лексику родственных тематик. В процессе перевода текстов поиск переводных эквивалентов лексических единиц, входящих в их состав, ведется в политематическом словаре и в одном из дополнительных тематических словарей по выбору пользователя. При синтезе выходного текста переводные эквиваленты дополнительного словаря считаются более приоритетными, чем переводные эквиваленты политематического словаря. Машинные словари системы VISTA могут корректироваться и пополняться в процессе перевода текстов в интерактивном режиме. В этом режиме есть возможность обнаруживать слова и словосочетания, для которых в словаре не указаны переводные эквиваленты или эти эквиваленты не соответствуют контексту или указано несколько эквивалентов, но на первом месте стоит эквивалент, не соответствующий контексту. В случае отсутствия переводных эквивалентов у некоторых слов они могут быть указаны человеком; если эквиваленты не соответствуют контексту, они могут быть заменены; если их несколько, то есть возможность выбрать только те из них, которые соответствуют контексту. В составе системы VISTA есть пакет программ, который позволяет обнаруживать редакционные правки, сделанные переводчиком, формировать на их основе словарные статьи и вводить их в дополнительные словари соответствующей тематики. Таким образом, систему машинного перевода можно настраивать на различные предметные области. Системы фразеологического перевода RETRANS и VISTA следует рассматривать лишь как первые шаги в развитии систем подобного типа. Предстоит еще большая работа по совершенствованию их процедурных и декларативных средств. Особенно трудной является задача создания достаточно мощных фразеологических словарей. В системах автоматической обработки текстовой информации важную роль играет компьютерная лингвистика. Важной методологической проблемой компьютерной лингвистики является правильная оценка необходимого соотношения между декларативной и процедурной компонентами систем автоматической обработки текстовой информации. При решении прикладных задач компьютерной лингвистики основной акцент следует делать на декларативные средства, но процедурные средства, в том числе грамотный компьютерный интерфейс тоже играют не последнюю роль. Традиционные методы преодоления языковых барьеров — это обучение иностранным языкам и переводческая деятельность. Но с ростом экономических, политических и культурных связей между странами и повышением интенсивности информационных потоков между ними эти методы становятся недостаточными. Возникла необходимость искать альтернативные пути решения проблемы. И одним из них может явиться создание систем фразеологического машинного перевода. Систему фразеологического машинного перевода RETRANS следует рассматривать лишь как первый шаг в указанном направлении. Предстоит еще большая работа по совершенствованию ее процедурных и декларативных средств. Особенно трудной является задача создания достаточно мощных фразеологических словарей, которые могут иметь объем несколько сотен миллионов словарных статей. Компьютерная лингвистика и перспективные информационные технологии. Системы фразеологического машинного перевода. Состояние и перспективы развития. Метод аналогии в компьютерной лингвистике. Автоматизация перевода с одного языка на другой: Сессия по научным проблемам автоматизации производства. Современные средства автоматизации перевода: Все материалы в разделе "Информатика и программирование". Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике. Современные интерфейсы компьютерной лингвистики. Перспективная задача компьютерной лингвистики. Место и роль компьютерной лингвистики в лингвистических исследованиях 2. Место и роль компьютерной лингвистики в лингвистических исследованиях В современном мире при проведении различных лингвистических исследований все более активно используется компьютерная лингвистика. Компьютерная лингвистика как прикладная лингвистическая дисциплина. Компьютерная преступность и безопасность. Две стратегии участия в компьютерной революции.


Тула одоев расписание автобусов
Сонник золото украшения много
Ситилаб иваново результаты
Асус зенфон 5 a502cg характеристики
Карта где находится сша
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment