Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Save anonymous/1fe766ee0a34c739c8994a13881077d9 to your computer and use it in GitHub Desktop.
Save anonymous/1fe766ee0a34c739c8994a13881077d9 to your computer and use it in GitHub Desktop.
Проблема информационного поиска

Проблема информационного поиска - Содержание


Проблема информационного поиска



Стратегия поиска в автоматизированных информационных системах
Этапы поиска информации
Тема: Методика поиска информации
Методы информационного поиска
Основы информационного поиска
Проблемы поиска информации в Интернете













В таком случае, пожалуйста, повторите заявку. Конечно, нельзя сравнивать в этом отношении, скажем, средние века, когда поиск информации был проблемой потому, что этой информации было мало, и требовались усилия только для того, чтобы найти хоть что-то по более или менее значительному интересующему вопросу. Проблема поиска информации приобрела новый характер в м столетии, с началом развития века информационных технологий. Теперь она заключается не в том, что информации мало и поэтому ее трудно найти, а в том, что ее теперь наоборот становится все больше и больше, и от этого найти ответ на интересующий вопрос может оказаться тоже довольно сложной задачей [2]. Так, сначала появилась возможность пойти в библиотеку и, потратив там время на выбор нужной книги по каталогу, найти необходимую информацию. Но каталоги не решают полностью проблем поиска информации даже в рамках одной библиотеки, так как в каталожную запись входит относительно мало информации: Проблема поиска информации значительно усложняется при использование виртуальных источников. Здесь используется технология онлайновых каталогов, в результате применения которой пользователь имеет возможность выполнять поиск в каталогах сразу нескольких библиотек, чем, на самом деле, еще больше усложняет себе задачу, но, с другой стороны, увеличивает шансы решить ее [1]. На современном этапе все информационное пространство, в котором мы живем, все больше погружается в Интернет. Интернет становится основной формой существования информации, не отменив традиционных, такие как журналы, радио, телевидение, телефон, всевозможные справочные службы. В данной работе объектом исследования является Автоматизированная информационно поисковая система. Это система где хранится информационный массив, из которого пользователю выдается нужная информация, осуществляющаяся либо автоматически, либо вручную. Предмет исследования включает в себя те свойства, стороны и отношения объекта исследования, которые необходимо изучить. Предмет обозначает границы, в пределах которых объект изучается в данном конкретном исследовании. Предметом исследования является стратегия информационного поиска. Цель исследования ставится, обзор и выявление поисковых сервисов возможностей предоставляемые на сегодняшний день , написание рекомендации к проведению поиска, анализ развития поисковых систем. Ключ проблемы заключается в том, что выросло количество пользователей не обладающие профессиональными навыками при поиске информации на языке запросов. Естественно с такой проблемой столкнулся не только интернет, но и электронные библиотеки ЭБ и электронные каталоги ЭК. К таким системам относятся библиотеки НЭБ-НСН, Интегрум - Техно в России, Лексис-Нексис, Рейтер на Западе. Более строгая организация каталогов в библиотеках, полное единство форматов или почти полное внутри одной библиотеки не является решением проблемы современных поисковых систем. Ясно, что в области искусства нельзя добиться гарантированного, или массового результата. Существует убеждение, что каждое новое поколение программ поиска совершенней предыдущего. Думаю, что применительно к поисковым системам истина лежит где-то посередине. Но что же поменялось в действительности за последние годы? Не алгоритмы и не структуры данных, не математические модели. Поменялась парадигма использования систем. Системой поиска стали пользоваться пользователи не имеющие профессиональные навыки. Особенно поисковые системы стали востребованы с возникновением интернета. В процессе эволюции поисковых систем, стали очевидны следующие изменения. В ответе системы они ожидают увидеть слово, набранное в строке запроса. Научная мысль х — х об итеративном уточнении запросов, о понимании естественного языка, о поиске по смыслу, о генерации связного ответа на вопрос, пока не удаётся создать и не выдерживает критики. Как и любая программа, поисковая система оперирует со структурами данных и исполняет алгоритм. Есть четыре класса поисковых алгоритмов. Это алгоритмы инвертированных файлов , суффиксных деревьев , сигнатур. В вырожденном случае предварительный этап индексирования отсутствует, а поиск происходит при помощи последовательного просмотра документов. Такой поиск называется прямым. Несмотря на кажущуюся простоту, последние 30 лет прямой поиск интенсивно развивается. Было выдвинуто немалое число идей, сокращающих время поиска в разы. При этом надо учесть, что новые алгоритмы и их улучшенные варианты появляются постоянно. Хотя прямой просмотр всех текстов — довольно медленное занятие, не следует думать, что алгоритмы прямого поиска не применяются в интернете. Норвежская поисковая система Fast www. Это позволяло Fast-у обслуживать довольно большое количество запросов в единицу времени. Кроме того, есть масса программ, комбинирующих индексный поиск для нахождения блока текста с дальнейшим прямым поиском внутри блока. Например, весьма популярный, в том числе и в Рунете, glimpse. У прямых алгоритмов есть положительные черты. Например, неограниченные возможности по приближенному и нечеткому поиску. Ведь любое индексирование всегда сопряжено с упрощением и нормализацией терминов, а, следовательно, с потерей информации. Прямой же поиск работает непосредственно по оригинальным документам безо всяких искажений. Эта простейшая структура данных. Перед нами упорядоченный по алфавиту список слов. Поисковый алгоритм состоит в отыскании нужного слова и загрузке в память уже развернутого списка позиций. Чтобы сэкономить на дисковом пространстве и ускорить поиск, обычно прибегают к двум приемам. Во-первых, подробность самой позиции. В наиподробнейшем варианте в инвертированном файле можно хранить и номер слова, и смещение в байтах от начала текста, и цвет и размер шрифта, да много чего еще. Чаще же просто указывают только номер документа, скажем, книгу Библии, и число употреблений этого слова в нем. Именно такая упрощенная структура считается основной в классической теории информационного поиска — Information Retrieval IR. Второй никак не связанный с первым способ сжатия: Вот как будет выглядеть такой список для нашей странички в предположении, что мы запоминаем позицию вплоть до номера главы:. Дополнительно на разностный способ хранения адресов накладывают какой-нибудь способ упаковки: Здесь уместно упомянуть коды Голомба или встроенную функцию популярного языка Perl: В литературе встречается и более тяжелая система упаковочных алгоритмов самого широкого спектра: Прогресс в этой области идет непрерывно. На практике в поисковых системах они используются редко: В результате всех описанных ухищрений размер инвертированного файла, как правило, составляет от 7 до 30 процентов от размера исходного текста, в зависимости от подробности адресации. Неоднократно предлагались другие, отличные от инвертированного и прямого поиска алгоритмы и структуры данных. Это, прежде всего, суффиксные деревья, а также сигнатуры. Первый из них функционировал и в интернете, будучи запатентованным алгоритмом поисковой ситемы OpenText. Второй - метод сигнатур - представляет собой преобразование документа к поблочным таблицам хеш-значений его слов - "сигнатуре" и последовательному просмотру "сигнатур" во время поиска. Приблизительно 3 из 5 поисковых систем и модулей функционируют безо всяких математических моделей. Их разработчики не ставят перед собой задачу реализовывать абстрактную модель. Как только речь заходит о повышении качества поиска, о большом объеме информации, о потоке пользовательских запросов, кроме эмпирически проставленных коэффициентов полезным оказывается оперировать каким-нибудь пусть и несложным теоретическим аппаратом. Модель поиска — это некоторое упрощение реальности, на основании которого получается формула сама по себе никому не нужная , позволяющая программе принять решение: После принятия модели коэффициенты приобретают физический смысл и становятся понятней. Все многообразие моделей традиционного информационного поиска IR принято делить на три вида: Булевское семейство моделей самое известное, реализующие полнотекстовый поиск. Есть слово - документ считается найденным, нет — не найденным. Собственно, классическая булевская модель — это мостик, связывающий теорию информационного поиска с теорией поиска и манипулирования данными. Критика булевской модели, вполне справедливая, состоит в ее крайней жесткости и непригодности для ранжирования. Обозначение IDF ввела Karen Sparck-Jones Карен Спарк-Джоунз в в статье про различительную силу term specificity. Наконец, в году Robertson и Sparck-Jones Робертсон и Спарк-Джоунз обосновали и реализовали вероятностную модель предложенную еще в , также положившую начало целому семейству. Релевантность в этой модели рассматривается как вероятность того, что данный документ может оказаться интересным пользователю. При этом подразумевается наличие уже существующего первоначального набора релевантных документов, выбранных пользователем или полученных автоматически при каком-нибудь упрощенном предположении. Хотя вероятностные модели обладают некоторым теоретическим преимуществом, ведь они располагают документы в порядке убывания "вероятности оказаться релевантным", на практике они так и не получили большого распространения. Важно заметить, что в каждом из семейств простейшая модель исходит из предположения о взаимонезависимости слов и обладает условием фильтрации: Величины s i называются сингулярными числами матрицы и равны арифметическим значениям квадратных корней из соответствующих собственных значений матрицы AA T. В англоязычной литературе сингулярное разложение принято называть SVD-разложением. Способность находить и ранжировать документы, не содержащие слов из запроса, часто считают признаком искусственного интеллекта или поиска по смыслу и относят априори к преимуществам модели. Для примера опишу лишь одну, самую популярную модель, работающую по смыслу. В теории информационного поиска данную модель принято называть латентно-семантически индексированием иными словами, выявлением скрытых смыслов. Эта алгебраическая модель основана на сингулярном разложении прямоугольной матрицы, ассоциирующей слова с документами. Уменьшая ранг, мы отфильтровываем нерелевантные детали; увеличивая, пытаемся отразить все нюансы структуры реальных данных. Операции поиска или нахождения похожих документов резко упрощаются, так как каждому слову и каждому документу сопоставляется относительно короткий вектор из k смыслов строки и столбцы соответствующих матриц. Хотя во вспомогательных целях автоматическая фильтрация, классификация, разделение коллекций, предварительное понижение размерности для других моделей этот метод, по-видимому, находит применение. В частности, одним из естественных ограничений качества поиска служит наблюдение, вынесенное в эпиграф: Отсюда вытекает и естественная верхняя граница качества поиска, ведь качество измеряется по итогам сопоставления с мнением асессора. Именно эти параметры использовались и используются на регулярной основе для выбора моделей и их параметров в рамках созданной Американским Интститутом Стандартов NIST конференции по оценке систем текстового поиска TREC - text retrival evaluation conference 6 [6]. Начавшаяся в году консорциумом из 25 групп, к му году своего существования конференция накопила значительный материал, на котором до сих пор оттачиваются поисковые системы. К каждой очередной конференции готовится новый материал т. Нет ни одной поисковой системы, которой бы не приходилось решать на практике хотя бы одну из этих задач. Зачастую наличие того или иного дополнительного свойства является решающим доводом в конкурентной борьбе поисковых систем. Например, краткие аннотации состоящие из информативных цитат документа, которыми некоторые поисковые системы сопровождают результаты соей работы, помогают им оставаться на полступеньки впереди конкурентов. Обо всех задачах и способах их решения рассказать невозможно. Решение этой задачи возможно в двух видах — локальном динамическом и глобальном статическом. Локальные техники опираются на текст запроса и анализируют только документы, найденные по нему. По общепринятому мнению, глобальные модификации запросов через тезаурусы работают неэффективно, понижая точность поиска. Более успешный глобальный подход основан на построенных вручную статических классификациях, например, ВЕБ-директориях. Этот подход широко использутся в интернет-поисковиках в операциях сужения или расширения запроса. Нередко реализация дополнительных возможностей основана на тех же самых или очень похожих принципах и моделях, что и сам поиск. Последняя основанна на обратной связи relevance feedback , в которой берутся наиболее смыслоразличительные контрастные слова из документов, принадлежащих верхушке списка найденного. Немного в стороне от статистических моделей и структур данных стоит класс алгоритмов, традиционно относимых к лингвистическим. Точно границы между статистическим и лингвистическими методами провести трудно. Условно можно считать лингвистическими методы, опирающиеся на словари морфологические, синтаксические, семантические , созданные человеком. Хотя считается доказанным, что для некоторых языков лингвистические алгоритмы не вносят существенного прироста точности и полноты например, английский , все же основная масса языков требует хотя бы минимального уровня лингвистической обработки. Приведу только список задач, решаемый лингвистическими или окололингвистическими приемами:. В том числе и для слов, не входящих в словарь системы. Еще реже в исследованиях и на практике можно встретить алгоритмы словообразовательного, синтаксического и даже семантического анализа. При этом под семантическим анализом чаще подразумевают какой-нибудь статистический алгоритм LSI, нейронные сети , а если толково-комбинаторные или семантические словари и используются, то в крайне узких предметных областях. Прежде всего, очевидно, что поиск в большом информационном массиве, не может быть сколько-нибудь корректно выполнен, будучи основан на анализе одного лишь текста документа. Ведь внетекстовые off-page факторы играют порой и большую роль, чем текст самой страницы. Положение на сайте, посещаемость, авторитетность источника, частота обновления, цитируемость страницы и ее авторов — все эти факторы играют важную роль. Cтав основным источником получения справочной информации для человека, поисковые системы стали основным источником трафика для интернет -сайтов. Кроме проблемы корректного ранжирования, создателям поисковых систем пришлось решать задачу обновления и синхронизации колоссальной по размеру коллекции с гетерогенными форматами, способами доставки, языками, кодировками, массой бессодержательных и дублирующихся текстов. Необходимо поддерживать базу в состоянии максимальной свежести, может быть учитывать индивидуальные и коллективные предпочтения пользователей. Многие из этих задач никогда прежде не рассматривались в традицонной науке информационного поиска. Оценка функциональной эффективности документального поиска: При попадании на них пользователя перенаправляют на целевую страницу. Предметом поиска выступает информационная потребность пользователя, неформально выраженная в поисковом запросе. И критерий поиска, и его результаты недетермированы. Теория информационного поиска изучает все составляющие процесса поиска, а именно, предварительную обработку текста индексирование , обработку и исполнение запроса, ранжирование, пользовательский интерфейс и обратную связь. Основан на сингулярном разложении матрицы связи слов с документами. Следует отличать от псевдо-обратной связи — техники модификации запроса, в которой несколько первых найденных документов автоматически считаются релевантными. Слишком широкие термины в поиске приносят слишком много информации, при это существенная часть ее бесполезна. Слишком узкие термины помогают найти слишком мало документов, хотя и более точных. Вместе с оценкой стоимости вы получите бесплатно БОНУС: Даю согласие на обработку персональных данных и получить бонус. Спасибо, вам отправлено письмо. Если в течение 5 минут не придет письмо, возможно, допущена ошибка в адресе. Стратегия поиска в Автоматизированных информационно-поисковых системах Выполнил: Султанов Ильнур Ильдусович Казань, Содержание Введение 4 Проблемы поиска информации 6 Поисковые алгоритмы 8 Оценка качества 17 Дополнительные возможности предоставляемые поисковыми машинами 19 Лингвистика 21 Заключение 23 Список литературы 24 Глоссарий: Для выполнения поставленной цели в рамках исследования необходимо решение следующих задач: Проблемы поиска информации Ключ проблемы заключается в том, что выросло количество пользователей не обладающие профессиональными навыками при поиске информации на языке запросов. Поисковые алгоритмы Как и любая программа, поисковая система оперирует со структурами данных и исполняет алгоритм. Прямой поиск Ниже представлена простейшая его версия знакома многим. В этой функции языка C текст строки big просматривают слева направо и для каждой позиции x запускают последовательное сравнение с искомой подстрокой little. Для этого, двигая одновременно два указателя y и z, попарно сравнивают все символы. Если мы успешно дошли до конца искомой подстроки, значит она найдена! Инвертированный файл Эта простейшая структура данных. Вот как будет выглядеть такой список для нашей странички в предположении, что мы запоминаем позицию вплоть до номера главы: Мне доводилось встречать суффиксные индексы в отечественных поисковых системах. Широкого распространения эти два метода не получили. Оценка качества — идея, фундаментальная для теории поиска. Ибо именно благодаря оценке качества можно говорить о применимости или не применимости той или иной модели и даже обсуждать их теоретичеcкие аспекты. Обычно 5 [5] для оценки качества поиска меряют два параметра: WEB корпус на последних конференциях он представлен выборкой по домену. Лингвистика Немного в стороне от статистических моделей и структур данных стоит класс алгоритмов, традиционно относимых к лингвистическим. Приведу только список задач, решаемый лингвистическими или окололингвистическими приемами: В том числе и для слов, не входящих в словарь системы разделение сложных слов компаундов для некоторых языков например, немецкого дизамбигуация: Заключение Прежде всего, очевидно, что поиск в большом информационном массиве, не может быть сколько-нибудь корректно выполнен, будучи основан на анализе одного лишь текста документа. Список литературы Ашманов И. В широком смысле —. Сущность поисковых машин Характеристика поисковых машин: Глобальные поисковые системы, их достоинства и недостатки; особенности правовой системы - Garant. Стратегия и методика профессионального информационного поиска. Эффективная технология работы с растущими потоками несистематизированной текстовой информации Кто из аналитиков не сталкивался в своей работе с задачей поиска нужной информации в больших информационных массивах и, в частности, с работой поисковых систем в Интернете. Информационно-поисковый тузаурус Информационно-поисковый тезаурус, его определение и цель разработки. Организация быстрого и эффективного поиска документальной информации. Использование, структура, построение, сфера применения и перспективы развития информационно-поисковых тезаурусов. Консультант плюс Институт дистантного образования Российского университета дружбы народов Факультет: Оптимизация и Яндекс Вряд ли кому из нас придет в голову оспаривать следующее утверждение: Справочно-поисковые системы сети Интернет Структура справочно-поисковых систем сети Интернет, работа механизмов поиска. Сравнительный обзор справочно-поисковых систем Gopher, WAIS, WWW, AltaVista, Yahoo, OpenText, Infoseek. Поисковые роботы, наиболее популярные справочно-поисковые системы. Язык запросов русскоязычных поисковых систем Знание основных понятий и терминов позволяет провести углубленный поиск с применением ключевых слов, наиболее точно характеризующих искомую тему. При этом следует различать приемы простого, расширенного и контекстного поиска. Методы поиска информации в Интернете Средства поиска информации в сети Интернет. Основные требования и методика поиска информации. Структура и характеристика поисковых сервисов. Глобальные поисковые машины WWW World Wide Web. Планирование поиска и сбора информации в сети Интернет. Методы поиска информации в сети интернет. Информационно-поисковые системы Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем. Всемирная Паутина также обозначается как WWW. Поиск - простой и видимый Поиск - жизненно важен для пользователей, с его помощью они работают со сложными веб-сайтами. Лучшие веб-сайты предлагают поле простого поиска на главной странице и отказываются от продвинутого поиска и использования рамок поиска. Методы информационного поиска Типология методов поиска. Непосредственный поиск с использованием гипертекстовых ссылок. Технология поиска с использованием поисковых машин. Составление и выполнение запросов к поисковым машинам. Становится все больше продвигаемых сайтов и все сложнее находить действительно качественные ресурсы для размещения ссылок. Поисковики для школьника Интернет предоставил нам лёгкий и быстрый доступ к большому количеству информационных материалов, возможность как читать, сохранять, распечатывать эти материалы, так и самим размещать полезную, а может и бесполезную информацию в сети. Информационно-поисковая система Основные источники информации, представленные в Интернете. Каталог - поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Особенности поисковой и метапоисковой машины. Архитектура современных ИПС для WWW. Определение семантического каталога и его задачи Семантический каталог — это система выдачи осмысленных ответов на поисковые запросы пользователей. Семантика — раздел языкознания и логики, исследующий проблемы, связанные со смыслом, значением и интерпретацией лексических единиц. Анализ существующих информационно-поисковых систем Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса. Работа с поисковыми системами и приложениями Microsoft Word и Microsoft Office Excel Поиск значений показателя "количество абонентов оператора Мегафон" в сети Интернет с помощью различных поисковых систем; их сравнительный анализ. Формирование навыков работы с приложением Microsoft Word; работа с электронными таблицами в Microsoft Excel. Сетевые средства поиска информации Каталоги. Категории Авиация и космонавтика Административное право Арбитражный процесс 29 Архитектура Астрология 4 Астрономия Банковское дело Безопасность жизнедеятельности Биографии Биология Биология и химия Биржевое дело 79 Ботаника и сельское хоз-во Бухгалтерский учет и аудит Валютные отношения 70 Ветеринария 56 Военная кафедра География Геодезия 60 Геология Геополитика 49 Государство и право Гражданское право и процесс Делопроизводство 32 Деньги и кредит Естествознание Журналистика Зоология 40 Издательское дело и полиграфия Инвестиции Иностранный язык Информатика 74 Информатика, программирование Исторические личности История История техники Кибернетика 83 Коммуникации и связь Компьютерные науки 75 Косметология 20 Краеведение и этнография Краткое содержание произведений Криминалистика Криминология 53 Криптология 5 Кулинария Культура и искусство Культурология Литература:


Засолка сала со специями сухим способом
Цитаты и высказывания омара хайяма
Я встретил любовь вчера у холодного моря
Состав мышечной ткани животных
Как ухаживать за клубникой после посадки весной
Фурункулы на голове под волосами причины
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment