Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Save anonymous/e645380eb3d2fc125abaff0bf1f3d9ae to your computer and use it in GitHub Desktop.
Save anonymous/e645380eb3d2fc125abaff0bf1f3d9ae to your computer and use it in GitHub Desktop.
Практику составления словарей с использованием интернет технологий

Практику составления словарей с использованием интернет технологий


Практику составления словарей с использованием интернет технологий



/ информатика
Роль электронных словарей в современной лексикографии
ЧТО ВНУТРИ ЭЛЕКТРОННОГО СЛОВАРЯ?


























АРХИВ "Студенческий научный форум". Индекс цитирования научной работы подсчитывается автоматически. В последнее время, как в отечественной, так и в зарубежной лингвистике большое внимание уделяется вопросам всестороннего изучения проблем терминологии, которое ведётся на базе различных языков и различных предметных областей. Усиление социальной роли науки и увеличение объема информации влекут за собой систематическое исследование терминосистем, повышение интереса к таким областям человеческого знания, как терминоведение, информатизация знаний, автоматическая обработка информации. Количество электронных документов, которые использует в своей ежедневной деятельности современная компания, стремительно возрастает. При этом данные хранятся в различных хранилищах, каждое из которых имеет собственную структуру базы данных, информационные порталы, электронные библиотеки и т. Поэтому для обеспечения жизнедеятельности крупных государственных структур и частных корпораций необходимым условием является использование локальных поисковых систем для осуществления поиска по внутренним информационным ресурсам. Именно для этого используются электронные словари, информационно-поисковые тезаурусы и онтологии. Объект исследования — электронные словари, информационно-поисковые тезаурусы и онтологии. Предмет исследования — средства разработки электронных словарей, информационно-поисковых тезаурусов и онтологий. Цель курсовой работы — на основе средств разработки электронных словарей и информационно-поисковых тезаурусов разработать двуязычный электронный словарь и тезаурус терминов предметной области. Рассмотреть понятия электронных словарей, информационно-поисковых тезаурусов и онтологий. Проанализировать средства разработки электронных словарей, информационно-поисковых тезаурусов и онтологий. С появлением компьютерной техники, создатели программного обеспечения создали новый тип словарей - электронный. Электронный словарь — это словарь в компьютере или другом электронном устройстве. Позволяет быстро найти нужное слово, часто с учётом морфологии и возможностью поиска словосочетаний, а также с возможностью изменения направления перевода[4]. Такой тип словаря - абсолютно новое слово в истории лексикографии, отметившее новую качественную ступень ее развития. Именно сейчас электронные словари вышли из тени бумажных и становятся самостоятельными игроками на языковой площадке, причем игроками, которые, похоже, в ближайшее время сделают остальных действующих лиц экспонатами Музея книги. Ведь электронные словари обладают рядом очевидных и существенных преимуществ по сравнению со словарями традиционными. Единственным же их недостатком является привязанность к персональному компьютеру и, следовательно, ограниченная доступность. Однако этот недостаток будет достаточно скоро устранен если не полностью, то, по крайней мере, большей частью, вследствие все возрастающих темпов компьютеризации, в том числе и растущей доступностью переносным компьютеров типа Laptop. Электронных словарей сейчас выпущено довольно много, поэтому остановимся только на двуязычных англо-русских и русско-английских словарях. Для примера возьмем два самых известных: Lingvo компании Abbyy и МультиЛекс, разработанный фирмой МедиаЛингва. Эти словари были выбраны благодаря такими преимуществам между остальными электронными словарями, как многофункциональность, количество встроенных словарей и простота использования. Компания МедиаЛингва придерживается при создании словарей МультиЛекс довольно простой стратегии. Она создает цифровую копию известных книжных изданий. На сайте фирмы можно найти формулировку этого принципа: С точки зрения МедиаЛингва, задача электронной лексикографии - как можно точнее перевести традиционный словарь в электронную форму. Есть и расширенная версия, где к основному словарю добавлены экономико-финансовый, юридический, строительный, политехнический словари и словарь по полиграфии и издательскому делу. Конечно, словарь Апресяна - выдающееся достижение лексикографии, но подход МедиаЛингва имеет и недостатки. Первое, традиционные словари довольно серьезно отстают от языковой реальности. Обычно это не менее десяти лет. А электронные словари можно пополнять чуть ли не ежедневно. Второе, словари, содержащие сотни тысяч словарных статей, какими бы квалифицированными лексикографами они не составлялись, всегда содержат ошибки и неточности, не говоря уже о возникновении дополнительных значений слов. Жесткая привязка к бумажному прототипу не дает возможности исправлять и дополнять электронный, тем более изменять структуру построения словарной статьи. По другому и, вероятно, более перспективному пути пошла компания Abbyy. Конечно, и в их большом электронном словаре Lingvo7. Но основу Lingvo, по словам руководителя лингвистического отдела фирмы Владимира Селегея, составляет электронный словарь собственной разработки. Каждая новая версия Lingvo дополняется актуальной лексикой, и в ней исправляются найденные ошибки и неточности. Таким образом, благодаря лексикографическим исследованиям англо-русский словарь фирмы Abbyy близок к языковой практике. Удачной находкой Abbyy выглядит приглашение всем желающим размещать на их Интернет-узле словари собственного изготовления. Такое вовлечение пользователей в лексикографическую работу вполне соответствует духу открытых Интернет-сообществ. Дополнительных словарей на сайте уже набралось 23 штуки. Причем всякий желающий может скачать их из Интернета и присоединить хоть все к уже имеющимся в базовой версии. Надо сказать, что базовая версия Lingvo Причем основные статьи тщательно проработаны. Первое, что бросается в глаза, когда мы говорим об электронных словарях - это резкое сокращение объема. На десятиграммовом компакт-диске помещается целая полка толстых словарей общим весом в двадцать пять килограмм. Но, естественно, не это главное. Важно, что электронный словарь принципиально может обойти ключевое противоречие книжной лексикографии: Поэтому классические словари разделяется на две категории. Первая - популярные, относительно удобные, но довольно простые. Вторая - обстоятельные академические издания, не позволяющие быстро получить искомую информацию. Современные электронные словари не только значительно превосходят по объему книжные, но и находят искомое слово или словосочетание за несколько секунд. Причем искать можно в любой форме. Некоторые, например Lingvo, встраиваются во все основные офисные приложения и выделенное слово можно переводить нажатием нескольких клавиш. Рассмотрим преимущества электронных словарей. При традиционном подходе минимальной единицей доступа является лексема имя словарной статьи: Для таких словарей, как оксфордский, это представляет серьезную проблему. Пользователь хотел бы, чтобы словарь максимально локализовал релевантную информацию. При этом речь не идет об автоматическом выборе переводного эквивалента если мы говорим о переводном словаре. Специфика словарного ответа в том, что он дает весьма разнообразную информацию о слове или словосочетании, а не просто переводное соответствие, предполагает активный выбор пользователя из нескольких возможных хорошо обоснованных альтернатив. Однако попытка решить проблему адекватной реакции словаря на запрос неизбежно наталкивается на сопротивление самого словарного материала, перенесенного из бумажного словаря. Электронные словари не только содержат транскрипцию, но и могут произносить слова. Здесь тоже существует два подхода. В МультиЛекс встроен синтезатор звука и произносятся все слова. Однако полностью доверять такому подходу, не контролируя его по транскрипции, опасно. Синтезатор может неправильно поставить ударение или вообще исказить произношение слова. В Abbyy Lingvo основную лексику озвучивает диктор с оксфордским произношением. Но, конечно, самое главное преимущество хороших электронных словарей - одновременный поиск не только по названию словарной статьи, но и по всему огромному объему словарей, что просто нереально в бумажном варианте. Такой поиск создает многомерный портрет слова, при этом извлекаются из глубин словарной статьи не только конкретные примеры его использования и устойчивые выражения, в которых слово встречается, но и обнажаются, становятся явными языковые законы, которым подчиняются правила словообразования. Даже мобильный электронный словарь не может отразить все сиюминутные движения языка, но он может дать ключ для расшифровки и понимания этих изменений, делая пользователя соавтором лексикографа. Что очень важно, когда требуется точный смысловой перевод, ведь это не задача подбора подходящего выражения, а в широком смысле отображение одной культуры с помощью языка другой. Поэтому в Lingvo можно строить и свой собственный словарь под общей оболочкой. Язык — отражение реальной жизни. А жизнь не стоит на месте: В обычную разговорную речь приходят новые слова, термины, устойчивые словосочетания. Вся эта лексика не может быть адекватно отражена в "бумажных" словарях по той простой причине, что они слишком долго готовятся. Так, известный англо-русский словарь Мюллера, сочетающий относительную простоту пользования один том, хотя и тяжелый! Фактически многие словари, которые сформировались в языковой атмосфере середины века, сильно устарели. В них не указаны современные значения старых слов, а многие новые слова просто отсутствуют. Буквальное перенесение таких словарей на компьютеры бесперспективно. Это стало особенно очевидно в связи с развитием Интернета: Вряд ли какой-либо из существующих англо-русских словарей может ответить на этот вызов. Решить данную задачу под силу лишь электронным словарям. А ведь в наш век электронных коммуникаций Писателем стал практически каждый пользователь Интернета. Однако более правильный путь — подумать о Писателе заранее, при составлении словаря. Чтобы учесть его интересы, надо уметь описывать способы образования сложных словосочетаний. Это выражение не относится к идиоматическим, потому его не следует искать в словнике целиком. С другой стороны, оно не может быть правильно переведено и по частям. Однако, чтобы оно там оказалось, нужно желание разработчиков словаря его туда поместить. Чтобы Писатель смог почувствовать оттенки слова, необходимо привести в словаре максимально возможное количество синонимов — слов, близких по смыслу. Например, английский глагол break означает, в частности: Для первого случая синонимами будут слова crush давить, дробить и smash разбиваться вдребезги. Второму значению близки слова separate отделять, разделять — более деликатный смысл и tear off отрывать, срывать. Через общую "карту" синонимов становится яснее, как перевести на иностранный язык слово с тем или иным смысловым оттенком. Очень полезны иллюстрирующие примеры, особенно на использование слов с предлогами или в устойчивых словосочетаниях. Информацию о синонимах, словосочетаниях и случаях употребления правильнее всего предоставить на родном языке пишущего: Ни для кого не секрет, насколько лучше помогают толковые английские словари при решении мучительной проблемы, какое слово употребить. А вот жесткая ориентация словаря на перевод, а не на описание языка делает его использование Писателем непростым и неочевидным. Таким образом, в современных электронных словарях отражено пионерское достижение российской лексикографии - двуязычный словарь во многом становится толковым. Кроме того, такой электронный словарь, как Lingvo, строит нажатием нужной клавиши парадигму, то есть совокупность всех форм слова. Информационно-поисковый тезаурус ИПТ — это контролируемый словарь терминов на естественном языке, явно указывающий отношения между терминами и предназначенный для информационного поиска[5]. Основной единицей тезаурусов являются термины, которые разделяются на дескрипторы авторизованные термины и недескрипторы аскрипторы. Большинство версий стандартов по ИПТ указывают на связь терминов с понятиями предметной области. По американскому стандарту термин — это слово либо словосочетание, обозначающее понятие. Стандарт ISO подчеркивает, что индексирующий термин — это представление понятия предпочтительно в форме существительного или именной группы. При этом понятие рассматривается как единица мысли, которая формируется мысленно для отражения всех или некоторых свойств конкретного или абстрактного, реально существующего или мысленного объекта. Понятия существуют как абстрактные сущности, независимо от терминов, которые их выражают. Стоит отметить, что не все разработчики тезаурусов четко разделяли понятия и термины. Так, разработчики тезауруса AGROVOC определили его как термино-ориентированный term-oriented , что находит свое проявление в том, что к термину невозможно добавить синонимы. Эта особенность тезауруса рассматривается авторами как недостаток, который необходимо исправить. Таким образом, разработчики тезаурусов предполагают, что понятие предметной области обычно имеет несколько возможных вариантов лексического представления в тексте, которые рассматриваются как синонимы. Среди таких синонимов выбирается дескриптор — термин, который рассматривается как основной способ ссылки на понятие в рамках тезауруса. Другие термины из синонимического ряда, включенные в тезаурус, называются аскрипторами или недескрипторами. Они используются как вспомогательные элементы, текстовые входы, помогающие найти подходящие дескрипторы. Дескрипторы тезауруса должны соответствовать выбранной предметной области тезауруса. Каждый дескриптор, внесенный в тезаурус, должен представлять отдельное понятие данной области. Дескриптор может быть однословным или многословным. Поскольку часто бывает достаточно трудно понять, представляет ли отдельное понятие многословное словосочетание, многие тезаурусы и руководства уделяют особое внимание основным принципам включения в тезаурус в качестве дескрипторов многословных терминов. Неформально онтология представляет собой некоторое описание взгляда на мир применительно к конкретной области интересов. Это описание состоит из терминов и правил использования этих терминов, ограничивающих их значения в рамках конкретной области. На формальном уровне онтология - это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно описывать классы, отношения, функции и индивиды[16]. В последние годы разработка онтологий - явное формальное описание терминов предметной области и отношений между ними - переходит из мира лабораторий по искусственному интеллекту на рабочие столы экспертов по предметным областям. Во всемирной паутине онтологии стали обычным явлением. Онтологии в сети варьируются от больших таксономий, категоризирующих веб, до категоризаций продаваемых товаров и их характеристик. Во многих дисциплинах сейчас разрабатываются стандартные онтологии, которые могут использоваться экспертами по предметным областям для совместного использования и аннотирования информации в своей области. Онтология определяет общий словарь для ученых, которым нужно совместно использовать информацию в предметной области. Она включает машинно-интерпретируемые формулировки основных понятий предметной области и отношения между ними. Совместное использование людьми или программными агентами общего понимания структуры информации является одной из наиболее общих целей разработки онтологий. К примеру, пусть несколько различных веб-сайтов содержат информацию по медицине или предоставляют информацию о платных медицинских услугах, оплачиваемых через Интернет. Если эти веб-сайты совместно используют и публикуют одну и ту же базовую онтологию терминов, которыми они все пользуются, то компьютерные агенты могут извлекать информацию из этих различных сайтов и накапливать ее. Агенты могут использовать накопленную информацию для ответов на запросы пользователей или как входные данные для других приложений. Обеспечение возможности использования знаний предметной области стало одной из движущих сил недавнего всплеска в изучении онтологий. Например, для моделей многих различных предметных областей необходимо сформулировать понятие времени. Это представление включает понятие временных интервалов, моментов времени, относительных мер времени и т. Если одна группа ученых детально разработает такую онтологию, то другие могут просто повторно использовать ее в своих предметных областях. Кроме того, если нам нужно создать большую онтологию, мы можем интегрировать несколько существующих онтологий, описывающих части большой предметной области. Мы также можем повторно использовать основную онтологию, такую как UNSPSC, и расширить ее для описания интересующей нас предметной области. Создание явных допущений в предметной области, лежащих в основе реализации, дает возможность легко изменить эти допущения при изменении наших знаний о предметной области. Жесткое кодирование предположений о мире на языке программирования приводит к тому, что эти предположения не только сложно найти и понять, но и также сложно изменить, особенно непрограммисту. Кроме того, явные спецификации знаний в предметной области полезны для новых пользователей, которые должны узнать значения терминов предметной области. Отделение знаний предметной области от оперативных знаний - это еще один вариант общего применения онтологий. Мы можем описать задачу конфигурирования продукта из его компонентов в соответствии с требуемой спецификацией и внедрить программу, которая делает эту конфигурацию независимой от продукта и самих компонентов. После этого мы можем разработать онтологию компонентов и характеристик ЭВМ и применить этот алгоритм для конфигурирования нестандартных ЭВМ. Мы также можем использовать тот же алгоритм для конфигурирования лифтов, если мы предоставим ему онтологию компонентов лифта. Анализ знаний в предметной области возможен, когда имеется декларативная спецификация терминов. Формальный анализ терминов чрезвычайно ценен как при попытке повторного использования существующих онтологий, так и при их расширении. Часто онтология предметной области сама по себе не является целью. Разработка онтологии сродни определению набора данных и их структуры для использования другими программами. Методы решения задач, доменно-независимые приложения и программные агенты используют в качестве данных онтологии и базы знаний, построенные на основе этих онтологий. В проектировании онтологий условно можно выделить два направления, до некоторого времени развивавшихся отдельно. Первое связано с представлением онтологии как формальной системы, основанной на математически точных аксиомах. Второе направление развивалось в рамках компьютерной лингвистики и когнитивной науки. Там онтология понималась как система абстрактных понятий, существующих только в сознании человека, которая может быть выражена на естественном языке или средствами какой-то другой системы символов. При этом обычно не делается предположений о точности или непротиворечивости такой системы. Таким образом, существует два альтернативных подхода к созданию и исследованию онтологий. Первый формальный основан на логике предикатов первого порядка, дескриптивной, модальной и т. Второй лингвистический основан на изучении естественного языка в частности, семантики и построении онтологий на больших текстовых массивах, так называемых корпусах. В настоящее время данные подходы тесно взаимодействуют. Идет поиск связей, позволяющих комбинировать соответствующие методы. Поэтому иногда бывает сложно отделить лексические онтологии с элементами формальных аксиоматик от логических систем с включениями лингвистических знаний. Общие онтологии описывают наиболее общие концепты пространство, время, материя, объект, событие, действие и т. В эту категорию попадают и онтологии представления, и онтологии верхнего уровня. Онтология, ориентированная на задачу - это онтология, используемая конкретной прикладной программой и содержащая термины, которые используются при разработке ПО, выполняющего конкретную задачу. Она отражает специфику приложения, но может также содержать некоторые общие термины например, в графическом редакторе будут и специфические термины - палитра, тип заливки, наложение слоев и т. Задачи, которым может быть посвящена онтология, могут быть самыми разнообразными: При этом онтология задачи использует специализацию терминов, представленных в онтологиях верхнего уровня общих онтологиях. Предметная онтология или онтология предметов описывает реальные предметы, участвующие в какой-либо деятельности производстве. Например, это может быть онтология всех частей и компонентов самолетов определененной марки Boeing и сведения об их поставщиках, характеристиках, способе соединения друг с другом и т. В предыдущее параграфе были рассмотрены двуязычные электронные словари Lingvo и Мультилекс. Данный словарь был выбран по таким основным преимуществам, как передовой программный функционал, 7 видов поиска и перевода, в том числе моментальный всплывающий перевод при наведении курсора мыши, перевод словосочетаний и поиск слов с неизвестным написанием. Над этими окнами расположена панель инструментов, в которой представлены кнопки Копировать, Вырезать, Вставить, Печать и 4 закладки, позволяющие активизировать панели инструментов Перевод, Словари, Настройки, Справка. С помощью функции интеллектуального ввода , Можно печатать слова, не переключая направление перевода каждый раз — оно будет определено автоматически в соответствии с языком ввода. К тому же модуль морфологии новой версии программы позволяет вводить слова в произвольной форме. И даже если нет уверенности как пишется слово, в данной программе предусмотрены функции поиск по шаблону или поиск вариантов написания , которые помогут без труда найти нужное слово. Перед тем как начать работу со словарем, необходимо выбрать направление перевода. Это можно осуществить через вызов меню словаря в области уведомлений панели задач Windows. Если в словаре установлено несколько словарных баз, нужно нажать на стрелку кнопки смены направления перевода, и появится список доступных направлений перевода. Также новая версия программы позволяет менять направление перевода путем переключения раскладок на клавиатуре. Когда было введено необходимое слово в строку перевода, нужно нажать клавишу ENTER и программа автоматически начнет поиск, в результате чего Вы увидите список слов. К тому же, в процессе ввода слова список слов автоматически перемещается к нужной букве, и можно выбрать слово из списка, даже не закончив ввод. Полнотекстовый поиск - это поиск слов или словосочетаний по всему содержимому словарных статей всех словарей активного направления заголовку, переводу и примерам употребления. В случае если в строку был ввод словосочетания, а полнотекстовый поиск не дал результатов, программа автоматически начинает процедуру пословного перевода. Это означает, что поиск ведется по всем доступным словарным базам для каждого слова в отдельности. При этом, как правило, задействован и морфологический модуль, так как в результате всех поисков программа показывает базовые формы каждого из искомых слов. Если заинтересовало какое-либо слово из открывшейся словарной статьи, то, дважды щелкнув левой кнопкой мыши по нему, программа найдет соответствующий перевод. Эта функция особенно актуальна при прочтении примеров использования слова, для которого открылась статья. Если столкнулись с незнакомым словом, и это вызвало затруднения целостного понимания фразы можно просто перевести его. Благодаря функции поиска внутри статьи, легко можно найти любое нужное слово даже в самой подробной и длинной статье перевода. Если введенное слово в данной статье присутствует, то оно автоматически будет выделено. Через менеджер словарей можно создавать свои собственные словари и постоянно пополнять их новыми статьями. Это функция особенно важна, если находиться в языковой среде и нужно непрерывно обогащать свой словарный запас разговорными фразами. Теперь, чтобы не забыть ни одного ценного слова, нужно просто создать для него отдельную статью в собственном словаре. Таким образом, можно создавать множество собственных словарей дополнительно к уже установленным и постоянно пополнять их новыми статьями. Кроме того, возможно самостоятельно форматировать текст созданной статьи. Для этого вверху редактора статьи предусмотрены следующие стили шрифта:. При наличии уже созданных ранее пользовательских словарей, можно использовать их вне оболочки данной программы. Экспортированный таким образом файл будет сохранен в формате HTML. С помощью данной программной оболочки появилась возможность использовать словари, созданные в других программных продуктах. В настоящий момент для импорта поддерживаются MLX, HTML и DSL файлов. Причем словарь, занимающий более высокую позицию в этом списке, имеет более высокий приоритет. Таким образом, программа будет выполнять поиск, в первую очередь, по словарям с более высоким приоритетом, и в результате в окне перевода, статьи будут расположены в соответствующем порядке. Для этого просто следует отметить словарь рядом с его названием, если нужно включить его; или снять метку, если необходимо его выключить. Также можно установить приоритет для только что выбранных словарей. Так же можно удалять собственные словарные статьи при помощи кнопки удаления, расположенной в окне конкретной статьи. Всего доступно 5 различных размеров шрифта:. Далее рассмотрим принципы автоматического построения списка возможных терминов программе "Конспект". Данное средство разработки терминов предметной области, было выбрано по таким главным алгоритмическим особенностям системы, как использование в целях отбора текстов средств семантического анализа и генерация по результатам семантического анализа заданного числа вторичных ключей, использование которых в циклическом режиме позволяет углубить раскрытие темы в формируемых конспектах. При наличии тезауруса терминов предметной области, пользователю в поисковом запросе достаточно ввести только один термин. Если в тезаурусе есть список синонимов к введенному слову, то в результатах поиска будут присутствовать как документы, которые содержат слово, введенное пользователем, так и документы, содержащие слова-синонимы. К сожалению, из-за отсутствия формализованных словарей терминов для конкретных предметных областей, автоматическое создание тезауруса невозможно. Ручное составление тезауруса является весьма трудоемкой задачей, так как требует экспертного анализа значительного количества документов организации корпорации для выделения списка терминов предметной области, при этом достаточно трудно оценить полноту полученного списка. Для решения такой задачи необходимо использовать автоматизированное создание списка терминов предметной области. Для построения понятийного аппарата из текстов предметной области используется поиск и выделение субстантивных именных словосочетаний, выражаемых схемой: В этой модели существительное является главным словом, а согласуемое слово — зависимым и может выражаться как прилагательным, так и существительным. Словосочетания могут включать в свой состав также предлоги и сочинительные союзы. Количество слов в именных словосочетаниях колеблется от двух до пятнадцати и в среднем составляет три слова. В работе приводится 9 шаблонов именных словосочетаний, используемых для выделения терминов предметной области. В русском языке синтаксическая структура терминов предметной области более чем в 90 процентов случаев соответствует следующим пяти шаблонам:. Вместе с тем существуют сложные словосочетания, используемые для обозначения понятий и терминов, состоящих из трех и более значимых слов. Словосочетания длиной пять и более слов используются в наименованиях организаций, в определении понятий относящихся к финансово-экономической сфере деятельности организаций. Шаблоны именных словосочетаний, используемых для поиска терминов, приведены в Таблице 1. Автоматическое выделение однословных и многословных терминов, кроме шаблонов, использует результаты синтактико-семантического анализа текста. Распознание поверхностных семантических отношений осуществляется с помощью анализа флексий полнозначных слов, учитывая предлоги и союзы, без предварительного полного грамматического разбора и построения синтаксических отношений, которые используется в традиционной грамматике. Процедура выделения терминов из текста включает два основных этапа. На первом этапе происходит непосредственный поиск в тексте слов и словосочетаний — кандидатов в термины. В качестве однословных терминов выбираются существительные и аббревиатуры. Многословные термины формируются с помощью определенных типов отношений между словами предложения, путем постепенного присоединения слов к однословному термину-существительному. Для терминов — именных словосочетаний используются следующие основные типы отношений между словами: Выделенные группы слов проверяются на соответствие заданным шаблонам. Порядок расположения в предложении слов, образующих термин, может точно не соответствовать заданному шаблону, но обязательным условием выделения термина является соответствие отношений между словами определенным типам отношений. На втором этапе список кандидатов в термины фильтруется: Рассмотрим средства и этапы разработки онтологий. При создании онтологий как и при проектировании программного обеспечения или написании электронного документа целесообразно пользоваться подходящими инструментами. Будем называть инструментальные программные средства, созданные специально для проектирования, редактирования и анализа онтологий, редакторами онтологий. Основная функция любого редактора онтологий состоит в поддержке процесса формализации знаний и представлении онтологии как спецификации точного и полного описания. Некоторые дают дополнительные возможности по анализу онтологии, используют механизм логического вывода. В этой части будут описаны наиболее общие характеристики редакторов и проведен их сравнительный анализ. Подробно рассматривается редактор Protege. Данная платформа была благодаря таким преимуществам, как открытая, легко расширяемая архитектура за счет поддержки модулей расширений функциональности и поддержки значительно сообщества, состоящих из разработчиков и ученых, правительственных и корпоративных пользователей, использующие его для решения различных задач. Формат представления онтологии задает вид хранения и способ передачи онтологических описаний. Под форматами подразумеваются языки представления онтологий: RDF, OWL, KIF, SCL. Таким образом, некоторая формальная модель представляется в формализме FOL и может быть выражена средствами языка KIF. Важной характеристикой является функциональность редактора, то есть множество сценариев его использования. К дополнительным возможностям редакторов относят поддержку языка запросов для поиска нетривиальных утверждений , анализ целостности, использование механизма логического вывода, поддержку многопользовательского режима, поддержку удаленного доступа через Интернет. Инструментальные средства для создания онтологий нужны для того, чтобы не только вводить и редактировать онтологическую информацию, но и анализировать ее, выполняя типичные операции над онтологиями, например:. После этого можно создать базу знаний, определив отдельные экземпляры этих классов, введя в определенный слот значение и дополнительные ограничения для слота:. Выделим некоторые фундаментальные правила разработки онтологии. Они выглядят довольно категоричными, но во многих случаях помогут принять верные проектные решения. Не существует единственно правильного способа моделирования предметной области - всегда существуют жизнеспособные альтернативы. Лучшее решение почти всегда зависит от предполагаемого приложения и ожидаемых расширений. Понятия в онтологии должны быть близки к объектам физическим или логическим и отношениям в интересующей предметной области. Скорее всего, это существительные объекты или глаголы отношения в предложениях, которые описывают предметную область[8]. Знание того, для чего предполагается использовать онтологию, и того, насколько детальной или общей она будет, может повлиять на многие решения, касающиеся моделирования. Нужно определить, какая из альтернатив поможет лучше решить поставленную задачу и будет более наглядной, более расширяемой и более простой в обслуживании. Следует помнить, что онтология - это модель реального мира, и понятия в онтологии должны отражать эту реальность. В результате начальную онтологию скорее всего нужно будет пересмотреть. И этот процесс итеративного проектирования будет продолжаться в течение всего жизненного цикла онтологии. Повторное использование существующих онтологий может быть необходимым, если системе нужно взаимодействовать с другими приложениями, которые уже вошли в отдельные онтологии или контролируемые словари. Многие полезные онтологии уже доступны в электронном виде и могут быть импортированы. Существуют библиотеки повторно используемых онтологий, например,Ontolingua или DAML. Подобным образом создадим еще несколько статей и добавим их в наш словарь. Посмотрим это на Рис. Полученный предварительный список терминов редактируется вручную с помощью утилиты — редактора тезауруса терминов предметной области. Общий вид окна редактора изображен на Рис. Входными данными для утилиты является список терминов, сформированный программой. Мы вручную добавляем и связываем термины, являющиеся синонимами для заданной предметной области. Полученные кортежи синонимов терминов сохраняются в XML-файл заданной структуры, который может использоваться поисковой системой среды Microsoft Office SharePoint Server в качестве тезауруса списка расширений. В общем виде процесс автоматизированного построения тезауруса терминов предметной области изображен на Рис. Рассмотренный метод автоматизированного создания тезауруса терминов предметной области был использован для обработки текстов на русском языке, относящихся к сфере рынков информационно-коммуникационных технологий. Из сформированного списка для дальнейшего ручного редактирования терминов было оставлено 66 слов и словосочетаний. Термины, не имеющие синонимов, были исключены из тезауруса. В данной курсовой работе были рассмотрены понятия и электронных словарей, информационно-поисковых тезаурусов, онтологий и их средства для разработки. Изд-во РГГУ, г. Государственная публичная научно-техническая библиотека России, Лаборатория знаний, г. Подход к разработке русско-английского тезауруса по компьютерной лингвистике. Издательско-полиграфический центр Воронежского государственного университета, Информационно-поисковые тезаурусы и онтологии. Тезаурусы в задачах информационного поиска. Автоматическое построение онтологии по коллекции текстовых документов. Петрозаводск, Россия, г. О возможностях автоматического выявления связей между терминами предметной области на примере катализа. Вход в Личный портфель. АРХИВ "Студенческий научный форум" Текст научной работы размещён без изображений и формул. Полная версия научной работы доступна в формате PDF. Полная версия научной работы. Введение В последнее время, как в отечественной, так и в зарубежной лингвистике большое внимание уделяется вопросам всестороннего изучения проблем терминологии, которое ведётся на базе различных языков и различных предметных областей. Понятия электронных словарей, тезаурусов и онтологий С появлением компьютерной техники, создатели программного обеспечения создали новый тип словарей - электронный. Перейдем к рассмотрению понятия электронно-поискового тезауруса. Разработка ИПТ предполагает следующие цели: Переходя к онтологиям, для начала рассмотрим их определение и предназначение. Методы разработки электронных словарей, тезаурусов и онтологий В предыдущее параграфе были рассмотрены двуязычные электронные словари Lingvo и Мультилекс. Направление перевода; Поиск по шаблону; Варианты написания; Начать тест; Неправильные глаголы; Словоформы; Добавить в карточки; Добавить закладку; Найти в статье. Управление словарями; Каталог; Создать статью. Размер шрифта; Всплывающий перевод; Общие настройки. Справка; Установленные словари; Регистрация; Обновление; О программе. Ниже панели инструментов над окном списка слов расположена строка ввода и кнопки: Вперед; Назад; Поиск; Виртуальная Клавиатура. Ввод данных может осуществляться при помощи: Стандартной клавиатуры; Виртуальной клавиатуры словаря; Операций копирования и вставки; Системы рукописного ввода например, программой PenReader. Теперь, чтобы не забыть ни одного ценного слова, нужно просто создать для него отдельную статью в собственном словаре Таким образом, можно создавать множество собственных словарей дополнительно к уже установленным и постоянно пополнять их новыми статьями. Для этого вверху редактора статьи предусмотрены следующие стили шрифта: Заголовок; Перевод; Пример; Комментарий; Транскрипция; Число; Другой Стиль. Размер Шрифта; Всплывающий перевод; Общие настройки. Всего доступно 5 различных размеров шрифта: Очень маленький; Маленький; Средний; Большой; Очень большой. В русском языке синтаксическая структура терминов предметной области более чем в 90 процентов случаев соответствует следующим пяти шаблонам: Рассмотрим поддерживаемые редактором формализмы и форматы представления. Подформализмомпонимается теоретический базис, лежащий в основе способа представления онтологических знаний. Примерами формализмов могут служить логика предикатов FirstOrder Logic- FOL ,дескриптивная логика,фреймовые модели Frames , концептуальные графы и т. Формализм, используемый редактором, может не только существенно влиять на внутренние структуры данных, но и определять формат представления или даже пользовательский интерфейс. Функциональность редактора онтологий Важной характеристикой является функциональность редактора, то есть множество сценариев его использования. Инструментальные средства для создания онтологий нужны для того, чтобы не только вводить и редактировать онтологическую информацию, но и анализировать ее, выполняя типичные операции над онтологиями, например: После этого можно создать базу знаний, определив отдельные экземпляры этих классов, введя в определенный слот значение и дополнительные ограничения для слота: Разработка онтологии - это обязательно итеративный процесс. Схема процесса автоматизированного построения тезауруса Рассмотренный метод автоматизированного создания тезауруса терминов предметной области был использован для обработки текстов на русском языке, относящихся к сфере рынков информационно-коммуникационных технологий. Заключение В данной курсовой работе были рассмотрены понятия и электронных словарей, информационно-поисковых тезаурусов, онтологий и их средства для разработки. Государственная публичная научно-техническая библиотека России, ГОСТ 7. Онтологии в компьютерных системах. Научный мир, г. Для участия в дискуссии, вы можете пройти авторизацию через соц. Перейти к обсуждению работы. Полная версия научной работы доступна в формате PDF Полная версия научной работы КБ Индекс цитирования научной работы подсчитывается автоматически.


Реферат: работа На тему: «Использование словарей в работе переводчика»


Две статьи из разных словарей. Краткий экскурс в историю лексикографии Составление языковых словарей — дело не- простое. Задача не только в том, чтобы собрать как можно больше слов и разместить их в алфавитном порядке. Важно снабдить каждое слово словарной статьей, дающей его перевод или толкование с учетом всех возможных значений и способов употребления. Практикой и теорией составления словарей занимается лексикография от греческого lexikos — относящийся к слову, grapho — пишу. В России период бурного развития лексикографии пришелся на XIX век. Тогда были созданы словари разных типов - исторические, иностранных слов, двуязычные, толковые. Позже, в СССР, лексикография превратилась в ведущую отрасль прикладного языкознания. Это объяснялось необходимостью фиксировать современное состояние русского и других языков страны, закрепить языковые нормы для многих дотоле бесписьменных народов. Так были созданы двуязычные словари для народов СССР — русско-национальные и национально-русские. Расширение переводческой деятельности и преподавания иностранных языков в учебных заведениях потребовало и новых русско-иностранных и иностранно-русских словарей. С по год в Советском Союзе было издано около разных словарей, в том числе и словари нового типа: Развитие любой науки происходит в тесном взаимодействии теории и практики. Теоретические достижения лексикографии приводят к рождению нового словаря, дальнейшая жизнь которого позволяет, в свою очередь, проверить и уточнить теорию. Апресян известен своими работами в области лексической семантики, изучающей способы толкования значений слова. Гальперина, изданного в году. НБАРС — наиболее полный англо-русский словарь в мире словарных статей , самый современный и методологически обоснованный из словарей подобного класса. Новое вино — в новые мехи С развитием компьютерных технологий в лексикографии появилась новая отрасль — электронная лексикография, занимающаяся созданием электронных словарей. Пользоваться таким словарем можно с помощью компьютера, загружая его с диска как обычное программное приложение. Однако такая точка зрения недооценивает всех возможностей компьютерных технологий. Первая — популярные словари, относительно удобные, но довольно примитивные. Как часто в карманном словарике вы не могли найти нужного слова или же его перевод не устраивал вас своей бедностью? Вторая — объемистые профессиональные издания, непригодные для быстрого получения информации. Требуется определенное мужество, чтобы снять с полки двухкилограммовый талмуд и начать его листать в поисках необходимого слова. Электронные словари сочетают большой объем с удобством пользования. Достигается это, в первую очередь, благодаря машинному механизму поиска. Некоторые словари позволяют переводить слова, не выходя из текстового редактора или другого офисного приложения, с которым вы работаете в данный момент. Для этого надо выделить нужное слово и нажать определенную комбинацию клавиш. Они должны отвечать на запросы пользователя с разным, в идеале — с любым языковым опытом. Это достигается с помощью структурирования словарной статьи, позволяющего выделять в ней основные типы информации о слове варианты перевода, использование в устойчивых словосочетаниях, синонимы, антонимы и прочее. Каждый элемент информации о слове может быть гипер-ссылкой в другую словарную статью. Система гиперссылок обеспечивает возможность быстрого доступа к нужной информации без изнурительного поиска, одним щелчком мыши. Очень важно, что структурирование позволяет формировать вид словарной статьи в соответствии с запросом. Например, если пользователя интересует исключительно математическая лексика, он может указать это в запросе, и словарь покажет ему только перевод, применимый в математике. Если пользователя интересует максимальный спектр значений — словарь продемонстрирует ему все разнообразие переводов. Современный язык словаря Язык — отражение реальной жизни. А жизнь не стоит на месте: В обычную разговорную речь приходят новые слова, термины, устойчивые словосочетания. Так, известный англо-русский словарь Мюллера, сочетающий относительную простоту пользования один том, хотя и тяжелый! Фактически многие словари, которые сформировались в языковой атмосфере середины века, сильно устарели. В них не указаны современные значения старых слов, а многие новые слова просто отсутствуют. Буквальное перенесение таких словарей на компьютеры бесперспективно. Это стало особенно очевидно в связи с развитием Интернета: Вряд ли какой-либо из существующих англо-русских словарей может ответить на этот вызов. Решить данную задачу под силу лишь электронным словарям. А ведь в наш век электронных коммуникаций Писателем стал практически каждый пользователь Интернета! Однако более правильный путь — подумать о Писателе заранее, при составлении словаря. Чтобы учесть его интересы, надо уметь описывать способы образования сложных словосочетаний. Это выражение не относится к идеоматическим, потому его не следует искать в словнике целиком. С другой стороны, оно не может быть правильно переведено и по частям. Однако, чтобы оно там оказалось, нужно желание разработчиков словаря его туда поместить. Чтобы Писатель смог почувствовать оттенки слова, необходимо привести в словаре максимально возможное количество синонимов - слов, близких по смыслу. Например, английский глагол break означает, в частности: Для первого случая синонимами будут слова crush давить, дробить и smash разбиваться вдребезги. Второму значению близки слова separate отделять, разделять - более деликатный смысл и tear off отрывать, срывать. Очень полезны иллюстрирующие примеры, особенно на использование слов с предлогами или в устойчивых словосочетаниях. Информацию о синонимах, словосочетаниях и случаях употребления правильнее всего предоставить на родном языке пишущего: Ни для кого не секрет, насколько лучше помогают толковые английские словари при решении мучительной проблемы, какое слово употребить. А вот жесткая ориентация словаря на перевод, а не на ОПИСАНИЕ языка делает его использование Писателем непростым и неочевидным. Место лексикографа - в строю Электронный словарь - живой организм. После его создания работа лексикографа не только не прекращается, а становится напряженнее. Каждое новое слово, словосочетание или фразеологический оборот, вошедшие в повсеместное употребление, а также новые значения привычных слов и понятий должны как можно скорее появиться в электронном словаре и занять подобающее им место в словарной статье. Вот почему важно привлекать к разработке электронных словарей не только программистов, но и специалистов по языку — лингвистов и лексикографов. ШИШЛОВА - Электронные словари на компакт-дисках. ШМЕРЛИНГ - Что бы это значило? Ответ - в сети. На российском рынке представлен большой выбор электронных языковых словарей. Толковые словарии энциклопедии в Интернете Незнакомые слова подстерегаютнас везде. Подчас достаточно открыть газету или задержать взглядна уличной реклам. Составители словаря, опасаясь того, что их детище теряет актуальность. Чтобы поддерживать правильный ход ваших биологических часов, не злоупотребляйте вечерним кофе. Поддержка и развитие сайта KTC Digital Production. Оформить подписку на журнал. Портал создан при поддержке Федерального агентства по печати и массовым коммуникациям. Новости События Факт дня Открытый формат Новости партнеров Архив Видео Подписка Магазин Библиотеки Реклама Форум. Сегодня никому не надо объяснять, почему так важно знать иностранные языки. На работе и в быту мы постоянно сталкиваемся с иностранными словами и выражениями, причем потребность понимать их возникает все чаще. Это особенно актуально для тех, кто занимается бизнесом, имеет дело с компьютерными технологиями, регулярно пользуется Интернетом. Стремительное развитие современной жизни напрямую отражается в языке — возникают новые слова, термины и выражения, меняется смысл старых слов. На смену им приходят словари электронные — компьютерные программы на компакт-дисках, позволяющие справиться с иностранным текстом или перевести на чужой язык необходимую информацию. Что такое электронный словарь? Об этом рассуждают А. Типикина — сотрудники фирмы ABBYY, занимающейся разработкой электронных словарей серии Lingvo. ЧТО БЫ ЭТО ЗНАЧИЛО? ОТВЕТ - В СЕТИ Толковые словарии энциклопедии в Интернете Незнакомые слова подстерегаютнас везде. РЕФЕРАТЫ - Похоже, консерватизм англичан дал трещину: Биологические часы опаздывают из-за кофеина Чтобы поддерживать правильный ход ваших биологических часов, не злоупотребляйте вечерним кофе. Журнал добавлен в корзину. Партнеры Реклама Блоги Конкурсы Кроссворды О журнале Фотогалерея Поиск Файлы cookie.


На каком сайте будете зарабатывать
Как правильно сделать голубцы
График функции y 1 4x
Маршрут 93 автобуса в минске
Последствия уступки права требования
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment