Руководство для поиска

В нашем репозитории поисковый механизм учитывает опыт современных интернет-поисковых систем, накопленный такими популярными системами, как Google. Тем не менее, сущность библиографического поиска отличается от поиска в Интернете. JINR Document Server предоставляет множество расширений для обеспечения комплексного и точного поиска, включая комбинированный поиск по метаданным, поиск по полному тексту и по ссылкам (цитатам) одновременно. На этой странице перечислены некоторые полезные советы и приёмы по поиску информации в JINR Document Server.

Руководство для поиска
   
    Руководство для поиска
    Поиск по словам и поиск по фразе
    Логические запросы
    Скобки
    Специальные символы и пунктуация
    Международные символы
    Сокращение (усечение) слова
    Структурированный поиск с использованием метаданных 
    Регулярные выражения
    Запросы на диапазон данных
    Комбинированные запросы (метаданные/полный текст/ссылка (цитата))
    Часто задаваемые вопросы
        Как выбирать поисковые термины?
        Как найти публикации определенного автора?
        Как сортировать данные по определенному образцу?
        Как осуществлять поиск в полнотекстовых файлах 
        Как искать цитирования?

Руководство для поиска

После того как вы ввели свой запрос, поисковый механизм проанализирует его и, в случае отсутствия точного соответствия, выведет список ближайших индексных терминов

Альтернативные варианты будут выведены красным. Аналогичным образом поисковый механизм предупредит, если условия поиска не могут быть найдены, или могут, но сам запрос не может быть удовлетворен. Поисковый механизм также по умолчанию попытается осуществить поиск для альтернативных форм (напр. с удалением пунктуации и т.д.).

Благодаря нескольким этапам поиска и помощи, обеспечиваемой на каждом этапе, обычно достаточно ввести в поле ввода нужную вам информацию. Если вы не удовлетворены результатом, добавляйте/удаляйте слова из вашего запроса, пока не получите нужный результат.

Поиск по словам и поиск по фразе

По умолчанию режим поиска — поиск по словам. Это означает, что любой пробел является не значимым, а интерпретируется, как «автоматическое добавление логического И (AND) между словами», как в Google. Например, чтобы найти все записи, содержащие оба слова ellis и muon в любом месте записи, следует ввести:

Пробел будет значимым, если вы заключите его в кавычки. Существует два режима поиска по фразе:
  1. Наличие двойных кавычек дает указание поисковому механизму осуществлять поиск по точному соответствию фразе. Этот режим поиска выдает соответствие, если и только если данное поле метаданных точно равно вводимой фразе. Например, чтобы найти все документы автора Ellis, J (именно в таком правописании/написании), следует ввести:
  2. Наличие одинарных кавычек дает указание поисковому механизму осуществлять поиск по частичному соответствию фразе. В отличие от поиска по точному соответствию этот режим поиска разрешает наличие дополнительного текста до/после вводимой фразы. Этот режим похож на режим поиска по фразе, общий для Google и других механизмов поиска текстовых выражений на Web-страницах. Например, чтобы найти все заголовки, содержащие выражение muon decay, независимо от местоположения этого выражения в заголовке, вводим:
    Теперь, для того чтобы найти автора, имя которого пишется иногда как Ellis, J, иногда как Ellis, Jonathan Richard (и других авторов, таких, как De Lellis, Jim) следует вводить:
    ((См. также советы по поиску авторов.).)

Различия между режимами «поиск по точному» и «поиск по частичному соответствию фразе» не так очевидны на первый взгляд. Если последний больше похож на поиск по фразе в контексте интернет-поисковиков, то первый из упомянутых работает на порядок быстрее, но для его использования нужно точно знать, что вам необходимо найти.

(Note: For some indexes such as any field, title, or abstract, there is no distinction between searching for double quoted and single quoted expressions. Both behave the same usual way.)

Кроме режимов поиска по словам и фразам существует еще один интересный режим — режим поиска с помощью регулярных выражений, которые ограничиваются не «' '», а «/ /». Например, приведенный выше пример запроса на частичное соответствие фразе 'muon decay' полностью эквивалентен регулярному выражению /muon decay/. Синтаксис регулярных выражений весьма богат и позволяет конструировать очень сложные запросы. Для большей информации см. раздел «Регулярные выражения» данного руководства.

Логические запросы

Мы уже видели, как пробел по умолчанию заменяется на логическое AND в поиске по словам. Другими логическими операторами являются:

+
AND
ellis +muon соответствует записям, содержащим оба слова ellis и muon
ellis muon синтаксический синоним
ellis and muon синтаксический синоним
-
NOT
ellis -muon соответствует записям, содержащим слово ellis, но не содержащим слово muon
ellis not muon синтаксический синоним
|
OR
ellis |muon соответствует всем записям, которые содержат по крайней мере одно из слов
ellis or muon синтаксический синоним

Логические операнды автоматически сцепляются слева направо. Например, если вы хотите найти документы, написанные Ellis о мюонах или каонах, следует вводить:

Запрос интерпретируется, как: (muon or kaon) and ellis. Заметим, что он дает результаты, отличные от запроса:
который будет искать (ellis and muon) or kaon.

Сцепление слева направо позволяет вам легко уточнять ваш поисковый запрос путем добавления/удаления слов с операторами and/not или +/-. Например, для исключения документов со словом decay из вышеизложенного запроса достаточно добавить «– decay», чтобы получить уточненный список:

Добавляйте/удаляйте термины, пока не достигните нужного результата.

Скобки

В запросах вы также можете использовать скобки для группировки логических выражений:
Такой запрос возвращает записи, содержащие слова gravity или supergravity, и либо ellis, либо perelstein в любом месте записи. Заметим, что вы можете использовать любое количество скобок в запросе, а также вложение скобок, например: foo AND (bar OR (fuux NOT quux)).

Специальные символы и пунктуация

При индексировании внимание уделяется индексированию как с пунктуацией, так и без пунктуации, чтобы вы могли осуществить поиск для терминов, содержащих спецсимволы, например, C++:

Например, чтобы найти записи, содержащие LaTeX выражение $e^{+}e^{-}$ в заголовке, следует ввести:
Чтобы найти документы с номером hep-ph/0204133, следует ввести:
Заметим, что поиск является регистронезависимым:

Международные символы

Поисковый механизм работает с Unicode UTF-8, поэтому вы можете печатать строки запроса на любом языке, имеющемся в базе данных. Например, чтобы найти все записи написанные Пушкиным, введите:

Заметим, что необязательно печатать определенным шрифтом, чтобы найти соответствующие записи. Например, чтобы найти статьи, написанные Lemaître, можно ввести в поле Lemaitre:

Сокращение (усечение) слова

Сокращение (усечение) слова обеспечивается применением спецсимвола «*». Спецсимвол сообщает поисковому механизму, что в этом месте может располагаться любое количество символов. Например, чтобы найти записи, содержащие слова muon, muons, muonic и т.д., печатаем:

Запросы работают со спецсимволами, находящимися как в префиксных, так и инфиксных позициях. Например, чтобы найти все слова, начинающиеся с CERN-TH и заканчивающиеся 31, следует вести:
Заметим, что спецсимвол будет игнорироваться, если вы попытаетесь применить его к очень коротким словам, например: a*:
Спецсимволы могут использоваться и в режиме поиска по фразе. Например, чтобы найти документы, заголовок которых начинается с Neutrino mass, следует ввести в поисковое поле:
Напомним, что мы рассмотрели режимы поиска по точному и частичному соответствию фразе. На самом деле поиск по частичному соответствию запускает поиск по точному соответствию, заключенный в спецсимволы: мы можем сказать, что 'foo bar baz' эквивалентно "*foo bar baz*". Это наглядно показывает, что поиск по частичному соответствию медленный из-за использования «*» в начале и конце текста, так как каждый заголовок в базе данных проверяется на соответствие введенной фразе. (Индексов для части фразы не существует.)

Структурированный поиск с использованием метаданных

Поиск внутри различных библиографических полей (заголовок, автор и т.д.) обеспечивается с помощью синтаксиса, подобного "site:" в Googlе. Если искомому выражению предшествует название поля с двоеточием, то выражение ищется только внутри этого поля. Например, чтобы найти документы, содержащие слово ellis внутри индекса author, печатаем:

Чтобы выбрать документы, написанные Ellis и содержащие слова, подобные muon, muons, muonic, внутри заголовка, следует вводить:
Чтобы выбрать документы, относящиеся к NA60 эксперименту 2001 года, вводим:
Основные поля, которые вы можете использовать в поиске: author, title, reportnumber, abstract, keyword, year, experiment, fulltext, and reference (автор, заглавие, номер документа, аннотация, ключевое слово, год, эксперимент, полный текст и ссылка).

Регулярные выражения

Режим поиска с помощью регулярных выражений предназначен в основном для опытных пользователей, знакомых с традиционным Unix/POSIX синтаксисом регулярных выражений. В интерфейсе простого поиска, чтобы перейти в режим регулярных выражений, можно использовать слеши «/» вместо кавычек:

В то же время в интерфейсе Расширенного Поиска вам достаточно просто выбрать режим регулярных выражений в меню выбора поля ввода. В вышеизложенном примере будут найдены все заголовки, которые начинаются с буквы E, содержащие любое количество любых символов и заканчивающиеся буквой s.

В другом примере осуществляется поиск автора, который представлен в базе данных как Ellis, J или Ellis, John:

С помощью регулярных выражений вы сможете формулировать специфические запросы. К примеру, найдем все заголовки, содержащие слова dense и matter, разделенные максимум одним словом, в котором не содержится буква l:

Заметим, что вы можете задавать интервал символов, как [a-k], и количество повторов, как {3}. Например, давайте найдем все препринты, которые не следуют политике каталогизации года, то есть YYYY для обозначения года, по выбору может следовать «?» или другое обозначение года, отличное от -YYYY:

Вы можете также использовать символьные классы такие, как [:alnum:] or [:digit:], и получим, что приведенный выше запрос эквивалентен

Чтобы узнать больше о POSIX регулярных выражениях, см. Wikipedia regexp article и MySQL regexp documentation..

Запросы на диапазон данных

Запрос на диапазон обеспечивается применением знака ->.Например, чтобы найти все документы, содержащие выражение muon decay и опубликованные между 1983 и 1992 годами, нужно ввести:

Чтобы найти все документы, в которых имена авторов находятся в диапазоне от Ellis, J до Ellis, Qqq, вводим:

Комбинированные запросы (метаданные/полный текст/ссылка (цитата))

Все синтаксические конструкции, описанные выше, могут комбинироваться в одном запросе. Например, чтобы найти все документы, которые: имеют слово ellis в поле автора, не содержат слов muon, 'muonic' и т.п. в любом поле, содержат фразу (или подстроку, если быть точнее) 'dense quark matter' в аннотации, были опубликованы в году, начинающемся с '200', вводим:

Заметим, что используемый по умолчанию глобальный индекс «любое поле» содержит только метаданные, но не ссылки и не полный текст. Вы должны явно упомянуть полнотекстовый или ссылочный индекс для поиска по нему. Например, чтобы найти слово Higgs в метаданных, ссылках и полнотекстовых файлах, нужно ввести:
Это позволяет осуществить комбинацию поиска по метаданным, полному тексту и ссылкам в одном запросе. Например, чтобы найти все документы, написанные Lin, чьи полнотекстовые файлы содержат слова Schwarzschild и AdS, и которые ссылаются на журнал Adv. Theor. Math. Phys., вводим:

Часто задаваемые вопросы

Как выбирать поисковые термины?

  • По мере возможности используйте режим поиска по словам, а не по фразе. Поиск black hole предпочтительнее поиска фразы "black hole".
  • Избегайте распространенных терминов таких, как and, of, или JINR.
  • Если вы ищете информацию, являющуюся метаданными (напр.: номер документа), выбирайте соответствующий индекс.
  • Если вы осуществляете поиск документов из определенной коллекции (напр.: Диссертации), сначала выбирайте коллекцию Theses, а затем начинайте процесс поиска.

Как найти публикации определенного автора?

Вы можете искать автора многими способами, каждый имеет свои преимущества и недостатки.

  1. Во-первых, заметим, что результаты поиска по словам не всегда могут вас удовлетворить. Если для поиска вы выбираете слова Ellis J внутри индекса автор, это означает, что сначала выполняются два запроса (для слов Ellis и J), а затем применяется логическое AND:

    Такой запрос также выдаст документы, первым автором которых является Ellis, R, а вторым Finch, A J, что вряд ли вам нужно. Хотя такой поиск очень быстрый, и в результате вы получаете то, что ищете, но дополнительно выдается много ненужной информации. Вместо поиска по словам в этом случае удобней применить режим поиска по фразе, что обеспечит получение более точных результатов.

  2. Имя автора обычно хранится в форме, содержащей только инициалы (Ellis, J).Чтобы получить список публикаций автора, имя которого пишется именно так, нужно ввести:

    Таким путем вы получите точный результат без избыточной информации. (Предполагается, что нет других авторов с именем Ellis, J, что не всегда верно). Поиск очень быстрый.

  3. Часто в одних документах имя автора пишется сокращенно (Ellis, J), а в других полностью (Ellis, John; иногда даже со вторым именем: Ellis, John Rolfe). Чтобы получить список публикаций для всех подобных случаев, используйте логический запрос OR:

    Такой поиск сохранит высокую точность выдаваемых результатов и отсутствие избыточной информации. (Предполагается, что нет других авторов с именем Ellis, J или Ellis, John, что не всегда верно). Поиск быстрый.

  4. Чтобы учесть все возможные формы написания имени автора, можно попытаться использовать запрос со спецсимволом:

    Будут найдены все имена автора, начинающиеся с текста Ellis, J, т.е. не только искомые Ellis, J и Ellis, John, но и Ellis, Jim, или Ellis, John Rolfe, или Ellis, Jonathan Richard.

    Такой способ поиска удобен, если вы не знаете, как именно имена записаны в базе данных. Но таким образом вы рискуете получить и ненужную информацию. Поиск относительно быстрый.

  5. Еще одной наиболее общей альтернативой является использование частичного соответствия фразе:

    В этом случае будут найдены не только все упомянутые выше авторы, но и такие, чьи имена и фамилии содержат в себе выражение Ellis, J, например: De Lellis, Jim. Таким образом получаем максимальное количество верных результатов и максимальный риск получения ненужной информации. Поиск относительно медленный.

    (Отметим, что такой способ очень удобен для поиска составных фамилий таких, как Pepe-Altarelli, M или 't Hooft, G. Запрос ‘Hooft, G’  найдет желаемого автора в отличие от всех методов, упомянутых выше.)

  6. Наконец, заметим, что вы можете использовать синтаксис регулярных выражений для конструирования любых сложных запросов на поиск автора. Простым примером является запрос на поиск автора, имя которого в базе данных записано либо Ellis, J, либо Ellis, John:

*Примечание: Если вы создаете свой собственный список публикаций и заметили, что иногда ваше имя записано инициалами, а иногда полностью, или вы хотите идентифицировать ваши публикации среди авторов с таким же именем, обратитесь к администраторам JINR Document Server. Они помогут вам ввести имя единообразно во всех документах. Только единообразие содержимого базы данных обеспечивает надлежащий процесс поиска автора.

Как сортировать данные по определенному образцу?

Вы можете выбрать определенное поле, по которому вы хотите отсортировать полученные результаты. Например, отсортировать документы по главному заголовку. Однако, иногда необходима сортировка по номеру документа, а ваши документы имеют несколько номеров. Например, номера документов hep-ph/0204140, CERN-TH-2002-069 и RM3-TH-02-4соответствуют одному и тому же документу. Если вы будете сортировать результаты поиска, содержащие этот документ, система примет во внимание первый номер документа, которым может быть любой из этих трех. В зависимости от того, какой список публикаций (CERN или hep-ph) вы составляете, документ должен учитываться под соответствующим номером (CERN или hep-ph). Как вы можете повлиять на механизм поиска, чтобы тот отдал приоритет нужному номеру?

Другими словами, механизм поиска по умолчанию дает указание запросу «сортировать по первому автору» или «сортировать по первому номеру документа». Но иногда вам может понадобиться «сортировать по первому номеру документа, который начинается с CERN». Такая сортировка возможна с помощью применения «неявного» параметра сортировки sp ("sort pattern", «сортировка по образцу»). При такой сортировке предпочтение отдается заданному текстовому образцу, если его можно найти в результатах поиска. Параметр является «неявным», т.к. он не присутствует явно в поисковом интерфейсе, вы должны вручную добавить его в свой поисковый URL. Например, чтобы получить все CERN-TH публикации 2001 года, отсортированные по их CERN-TH номеру, вы должны осуществить поиск по CERN-TH-2001* внутри индекса «номер документа». На странице с результатами поиска, если вы ими удовлетворены, вы должны добавить &sp=CERN-TH к URL, чтобы отсортировать эти результаты преимущественно по их CERN-TH номеру документа и получить удобно отсортированный список для всех CERN-TH 2001 публикаций.

Как осуществлять поиск в полнотекстовых файлах?

Если метаданные содержат некоторые ассоциированные полнотекстовые файлы, JINR Document Server попытается выделить текстовую информацию и проиндексировать ее, создав отдельный полнотекстовый индекс. Чтобы найти все записи, которые содержат «e-» в полнотекстовом файле, нужно ввести:

Напомним, что полный текст не включен по умолчанию в глобальный индекс «любое поле», но вы свободно можете комбинировать полнотекстовый поиск и поиск по метаданным. Например, чтобы найти все статьи, написанные Ellis, в которых встречается слово muon и в метаданных, и в полном тексте, вводим: