Skip to content

Instantly share code, notes, and snippets.

Created September 26, 2017 01:55
Show Gist options
  • Save anonymous/779f7d9db52270d7475400ac0ef0e615 to your computer and use it in GitHub Desktop.
Save anonymous/779f7d9db52270d7475400ac0ef0e615 to your computer and use it in GitHub Desktop.
Проблемы поиска информации

Проблемы поиска информации



Ссылка на файл: >>>>>> http://file-portal.ru/Проблемы поиска информации/


Проблемы поиска информации в Интернете
Проблема поиска информации
Быстрая помощь студентам
























Введение Проблема поиска информации — одна из вечных проблем человеческого сообщества. Человечество все больше начинает использовать для поиска необходимых знаний информационные ресурсы. Это и понятно, поскольку человека нуждающегося в научной информации в знаниях , интересует прежде всего не сама книга как таковая, а только некоторый ее фрагмент, содержащий требуемые ему знания. Причем сам он часто не в состоянии объяснить как эти знания могут быть связаны с названием книги или ее автором. Накопление книг привело к парадоксальному результату, связанному с отделение книжных хранилищ от широкого круга читателей. Универсальный инструмент поиска знаний, основанный на прямом доступе к информации, стал доступен только избранным. Основная же масса жаждущих знаний стала довольствоваться только поиском в каталоге, который в принципе не мог удовлетворить возникающие информационные потребности. Для решения проблемы доступа читателей к информации были предприняты попытки классификации и систематизации информации — стали создаваться специализированные книжные залы, куда источники информации отбирались исходя из каких-то не всегда очень ясных критериев. С одной стороны, как отметил британский историк и социолог науки Д. С другой стороны, в указанный период времени, происходит увеличения числа людей, нуждающихся в научной информации. На первый взгляд, может сложиться впечатление, что развитие информационных технологий уже само по себе способно вывести работу с научной информацией на качественно новый уровень, но, к сожалению, это совсем не так. Как неоднократно отмечал А. Опираясь на интуицию, эксперты приходят к выводу о порочности нынешней ситуации, но о каком-либо серьезном переосмыслении проблем извлечения из данных информации пока речь не идет. Суть метода Документации заключалась в том, что содержание книги отчуждаемое от автора заносится на карточку, причем совокупность карточек можно упорядочивать так, чтобы при этом отражались предметные связи. Поль Отле предвидел революционное развитие технологий работы с информацией, вплоть до ее мультимедийного представления и удаленного доступа к банкам данных: В году упомянутый выше Х. Трудно удержаться, чтобы не привести хотя бы краткие выдержки из притчи, соответствующие тематике статьи. Не было проблемы — личной или мировой, для которой не нашлось бы убедительного решения. Вселенная обрела смысл, вселенная стала внезапно огромной, как надежда. В это время много говорилось об Оправданиях: На смену надеждам, естественно, пришло безысходное отчаяние. Мысль, что на какой-то полке в каком-то шестиграннике скрываются драгоценные книги и что эти книги недосягаемы, оказалась почти невыносимой. Другие, напротив, полагали, что прежде всего следует уничтожить бесполезные книги. Известно и другое суеверие того времени: На некоей полке в некоем шестиграннике полагали люди стоит книга, содержащая суть и краткое изложение всех остальных: В языке этих мест можно заметить следы культа этого работника отдаленных времен. Как определить таинственный священный шестигранник, в котором Он обитает? Кем-то был предложен регрессивный метод: Машину Гольдберга отличало высокое качество механики и оптики: Статистическая машина Гольдберга, была, по-видимому, первым действующим инструментом, позволяющим автоматизировать поиск в больших массивах данных по их разметке. Вот как выглядит одна из его идей: Обсудим устройство персонального назначения. Пусть оно называется Memex и представляет собой что-то вроде автоматизированного архива или библиотеки. Memex хранит для своего хозяина все нужные книги, записи, корреспонденцию. Скорость ответов высока и не заставляет ждать. Перед ним на экране появится первая страница. Можно будет остановиться на выбранной странице, а потом пойти по ссылке и найти следующий интересующий материал. При этом всегда можно вернуться к предыдущей странице или одновременно рассматривать несколько страниц. Их можно будет загружать в Memex и искать все, что нужно. Нередко в литературе можно встретить высказывания, что В. В основе системы также лежал метод координатного индексирования. Муэрс стал основоположником научного подхода к информационному поиску, введя в г. Обобщение накопленных результатов было проведено в монографии сотрудников Всесоюзного института научной и технической информации ВИНИТИ [5], описавших методологические основы теоретической информатики. В частности, исследовательская группа под руководством профессора Гарвардского университета Дж. Теоретическое описание и осмысление этих принципов было проведено Дж. Эта книга и до сих пор не потеряла своей актуальности. Бытует мнение, что информационно-поисковые системы того времени не получили должного развития из-за недостаточной мощности и памяти тогдашних ЭВМ, так и с отсутствием качественных каналов связи особенно дальней. Во-первых, отсутствие универсальных сетевых протоколов, сильно ограничивало удаленный доступ к таким системам. И это была жизненная необходимость, поскольку анализировать ответ за дисплеем не представлялось никакой возможности. Однако здесь есть небольшой нюанс в их использовании. В этих системах использовались ручные процедуры индексирования документов, создания тезаурусов и дескрипторов. Но, что чрезвычайно важно, эти системы предназначались для выделения информации именно информации и именно выделения из разных документов. Сейчас в энциклопедиях IR определяется как искусство и наука поиска информации в документах и поиска собственно документов и описывающих документы метаданных в базах данных в том числе сетевых. Суть различий состоит в следующем: Она является интерактивной, итерационной и связана с другими видами интеллектуальной деятельности человека. Количество документов в сети поддается лишь косвенным, притом явно заниженным оценкам. При этом, разумеется, нельзя утверждать, что Yahoo индексирует все интернет-документы. Такие системы известны всем пользователям Интернета: Итак, информационно-поисковая система ИПС представляет собой совокупность справочно-информационного фонда и технических средств информационного поиска в нем. Процесс выражения содержания документа на информационно-поисковом языке называется индексированием. Эти случаи могут быть разграничены именно благодаря структурированию метаданных. Нетрудно понять, что документ становится доступным для поиска с помощью той или иной информационно-поисковой системы, если его метаописание т. Но каким образом осуществляются поиск и индексация интернет-документов, заносимых в СИФ? Наконец, некоторые специализированные информационно-поисковые системы создаются исключительно вручную, при этом размер их поисковых массивов может быть весьма внушителен. Эти сведения заносятся в базу данных учеными-математиками из разных стран, реферирующими публикации по своей специальности, причем каждой записи соответствует динамически формируемый интернет-документ. И здесь-то, в процессе индексации документа, проявляется основная проблема использования таких программ: Чтобы убедиться в этом, достаточно просмотреть небольшое число интернет-документов, например, научной тематики. Информативными словами, согласно ГОСТу 7. Таким образом, в любом документе должно было существовать ядро метаданных, о которых заранее известно, как их следует интерпретировать. Эти предложения были опубликованы под рабочим названием Dublin Core metadata, которые впоследствии стали фундаментом проекта Dublin Core Metadata Initiative [13]. К сожалению, ни один из перечисленных подходов не стал по-настоящему широко распространенным. В этом без труда можно убедиться, просмотрев произвольный набор интернет-документов. В итоге складывается своеобразный порочный круг, который в ближайшее время вряд ли будет разорван. Важно отметить, что реальные технологии создания подавляющего большинства сайтов таковы, что однородные документы с одного сайта имеют практически одинаковую html-разметку. Чтобы сделать запрос, мы должны, прежде всего, составить поисковый образ запроса, т. После этого составляется поисковое предписание, включающее поисковый образ запроса и указания о логических операциях, подлежащих выполнению в процессе информационного поиска. При этом, коль скоро не указаны значения таких элементов метаданных, как материал и тип костюма пара или тройка , то подразумевается, что пользователя устраивают любые значения этих элементов метаданных. Простейшая формальная модель с использованием структурированных метаданных документов выглядит следующим образом. Пусть в справочно-поисковом аппарате ИПС хранится информация о документах di. Рассмотрим подмножество метаданных Mc, определяющее набор классификационных признаков документов, используемых для составления поискового предписания с учетом заданных логических операций. Каждое такое значение порождает класс толерантности [10]. Рассмотрим всевозможные сочетания значений элементов метаданных, входящих в Mc. Остальные поля в форме поискового запроса касаются языка документа, региона расположения сервера размещения документа, формата файла, структуры его url-адреса и т. И всё же нельзя не отметить, что умение формально записать поисковый запрос, пусть и весьма сложный, — дело, собственно говоря, не слишком-то хитрое, требующее лишь известного опыта и небольших технических навыков. Наиболее простая ситуация возникает, когда пользователь хочет найти конкретный документ, адрес хранения которого, однако, неизвестен. Пушкина и существует масса документов, просто упоминающих о нем. Однако на практике пользователю обычно требуется найти не какой-то конкретный, заранее известный документ, а некие сведения факты , знание которых необходимо для решения поставленной задачи или же для удовлетворения любопытства. Сказочного Федота-стрельца вел к цели волшебный мячик. Однако здесь возникает следующая дилемма: Проблемы, связанные с получением количественных оценок эффективности поиска, будут рассмотрены ниже. Однако, как уже отмечалось в начале статьи, информационные потребности научных работников, когда они в процессе исследования находятся на этапах изучения уже имеющихся в данной области результатов и научного поиска, характеризуются невысокой четкостью осознания и выражения. Основной критерий их отбора — личные интересы ученого. В настоящее время такие картотеки хранятся, как правило, на электронных носителях. Процесс разбиения множества документов электронной базы на классы, при котором элементы, объединяемые в один класс, имеют большее сходство, нежели элементы, принадлежащие разным классам, называется кластеризацией. D х D — [0, 1], причем функция m в случае полного сходства принимает значение 1, в случае полного различия — 0. При этом необходимо учитывать, что значения атрибутов могут быть составными. Заметим, что в качестве шкал целесообразно использовать следующие элементы метаданных: Исследование различных алгоритмов кластеризации документов с целью выявления оптимального алгоритма для разбиения массива записей электронной базы с информацией о научных публикациях, на кластеры, содержащие в себе статьи по сходной тематике, проведено в работе [2]. Разумеется, два этих понятия хотя и близки, но отнюдь не эквивалентны. Источник появления в выдаче нерелевантных документов — ошибки в описаниях и программном коде поисковых систем, а также прочие организационно-технические причины. Что же касается пертинентности, то понятие это — сугубо субъективное, поскольку потребности не обязательно информационные разных людей, пусть даже и выраженные одними и теми же словами-запросами, могут быть весьма различны. Так, потребность в супе с точки зрения среднестатистического русского удовлетворяется посредством щей или борща, а с точки зрения среднестатистического француза — посредством супа-пюре. Поэтому правильно сформулированый запрос типа: Так, выдача всех документов, имеющихся в информационном массиве, даст значение коэффициента полноты, равное 1, но точность при этом будет невысокой. А значит, в перспективе мы станем свидетелями конвергенции науки об информации и компьютерной науки. Список литературы [1] Арский Ю. Проблемы полиграфии и издательского дела. Проблемы теоретической и прикладной кибернетики. Афанасьева в трех томах. ФАИР-ПРЕСС, Пашков дом, Казахстан, Казахский национальный университет им. Our Blog is Growing Up — And So Has Our Index http: Little Science, Big Science. Dynamic Information and Library Processing. Хорхе Франсиско Исидоро Луис Борхес Асеведо — Jorge Francisco Isidoro Luis Borges Acevedo. Здесь мы не будем говорить о крупнейших библиотеках древности, поскольку в них проблемы поиска не были столь актуальны. Дерек Де Солла Прайс — Derek J. Поль Отле — Paul Otlet. Эммануэль Гольдберг — Emanuel Goldberg — немецкий инженер, выходец из России. Вэннивер Буш — Vannevar Bush. Кельвин Муэрс — Calvin Northrup Mooers. Joomla template created with Artisteer. Поиск в Интернете Кто ищет тот всегда Главная Статьи о поиске Разработки Новости Книги.


Клиника где умирает бен
Усталость мышц рук
Расписание чемпионата европы по баскетболу
Поиск информации в компьютерных сетях: новые подходы
Лучшие телефоны истории
Бледность губ причины
Какая погода бывает в крыму в сентябре
Стратегия поиска в автоматизированных информационных системах
Расписание автобусов хвастовичи брянск
Общество как форма жизнедеятельности людей план
Поиск информации в сети Internet
Лимфодренаж в домашних условиях как делать
Кофеин бензоат натрия детям
Болит ладонь левой руки под большим пальцем
Проблема поиска информации
Жонглировать двумя мячами
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment