Домой / «Вторичка / Индексирование документов. Определение, основные процессы. Тема: индексирование документов: определение, основные процессы Формирование поискового образа документа

Индексирование документов. Определение, основные процессы. Тема: индексирование документов: определение, основные процессы Формирование поискового образа документа

Под индексацией документов в делопроизводстве понимается проставление их порядковых (регистрационных) номеров и определенных условных обозначений, указывающих место их составления, исполнения и хранения. Место простановки определяет ГОСТ Р 6.30-2003, реквизит 12.

Регистрационный индекс означает принадлежность документа к конкретной классификационной крупе и его порядковый номер внутри нее. Порядковый регистрационный номер является обязательным элементом индекса в пределах регистрируемого массива, как правило, за год.

Классификационные группы формируются в соответствии с наименованиями видов документов, их авторов и содержанием. Индексы необходимы для учета, поиска и систематизации документов и в традиционных, и в автоматизированных системах обработки документации.

В пределах одного учреждения или предприятия должна быть разработана единообразная и стабильная система индексирования. Не зависимо от того, где регистрируются документы (в канцелярии или структурных подразделениях), индексы должны иметь постоянное расположение составных частей. В качестве условных обозначений рекомендуется использовать арабские цифры, в отдельных случаях к ним добавляются буквенные литеры.

Для систематизации документов, т.е. разделения их по группам, используется номенклатура дел. Индексы дел, включенных в номенклатуру, входят в состав регистрационных индексов входящих и исходящих документов. Так базовый индекс состоит из индекса дела по номенклатуре, обозначающего принадлежность документа к определенной группе документации, и его порядкового номера внутри данной группы.

Например:

02-10/15, где 02-10 - это индекс дела по номенклатуре, 15 - порядковый номер документа. В соответствии с поисковыми задачами конкретное учреждение или предприятие может добавлять к базовому индексу иные классификационные обозначения: корреспондента, исполнителя и т.п. Части регистрационного индекса могут располагаться и в обратном порядке: 15/02-10, при этом их значение не меняется. Порядковые номера возрастают в течение года и присваиваются отдельно поступающим и отправляемым документам.

При необходимости выделения части документов из единого регистрационного массива возможно использование дополнительного смыслового буквенного индекса. Так, при регистрации приложений, заявлений и жалоб граждан порядковый регистрационный номер дополняется начальной буквой фамилии заявителя, например: И-221, К-212, А-213 и т.д.

При регистрации приказов по вопросам управления кадрами порядковый номер дополняется буквой, например, 18-К, 107 К или 18-л/с, 107-л/с.

К приказам по вопросам управления кадрами относятся приказы о приеме на другую работу, о предоставлении отпусков, обо всех видах поощрений и увольнений, т.е. те на основании, которых вносятся записи в трудовые книжки сотрудников.

При регистрации решений президиумов представительных органов порядковый номер может дополнить индексом (буквой) "П", например, 74-П и т.д.

Индекс документов, составленных несколькими организациями, например, договоров, совместных постановлений, образуется из порядковых регистрационных номеров, присвоенных в каждой организации-авторе, их последовательность определяется последовательностью указания авторов в заголовочной части документа. Например, индекс 16/10 будет означать, что в одной организации документ зарегистрирован под номером 16, а в другой - под номером 10.

При регистрации документ должен получить только один индекс, который одновременно проставляется и на документе и в регистрационной форме. Регистрационные индексы проставляются на входящих документах (приложения к ним не индексируются); на исходящих документах и их копиях, остающихся в учреждении (приложения к ним так же не индексируются); на внутренних документах.

Индексирование документов

(Систематизация, предметизация, координатное индексирование)

Индексирование – это выражение содержания документа и/или смысла информационного запроса на информационно-поисковом языке (ГОСТ 7.74-96). Выделяют три вида индексирования документов: классификационное (систематизация), предметное (предметизация), координатное (координатное индексирование).

Предметное индексирование – индексирование предметного содержания документа, выраженное языком предметных рубрик.

Классификационное индексирование – систематизация документов посредством понятий и кодов какой-либо классификационной системы.

Координатное индексирование – индексирование, предусматривающее многоаспектное выражение основного смыслового содержания информационного запроса множеством ключевых слов или дескрипторов.

Название поля

Указания

Классификационный индекс, определенный по таблицам ББК

Индексы другой классификации, используемой библиографирующим учреждением, например, ТБК или таблицы для краеведческих документов

Определяется по встроенной таблице Хавкиной. Автоматически проставляется после сохранения при наличии классификационного индекса

903: Шифр документа в БД

Идентификатор документа, строится автоматически

906: Систематический шифр

Расстановочный шифр, определяемый библиографирующим учреждением

60: Раздел знаний

Порядковый номер, включающий название отрасли в целом

Краткая формулировка темы на естественном языке

Предметный заголовок

Первый элемент многочленной предметной рубрики

1-й подзаголовок

Конкретизируют основные характеристики, состав, состояние, свойства и т. д. предмета, выраженного заголовком предметной рубрики

2-й подзаголовок

Детализирует аспекты рассмотрения предмета, выраженные в 1-м подзаголовке предметной рубрики

Эффективность

3-й подзаголовок

Детализирует аспекты рассмотрения предмета, выраженные во 2-м подзаголовке предметной рубрики

Математические расчеты

Географический подзаголовок

Отражают географический (территориальный) аспект рассмотрения предмета, показывают его связь с определенной территорией

Географический подзаголовок

Географический подзаголовок

Хронологический подзаголовок

Конкретизируют период времени или определенную дату. Обозначают арабскими цифрами, словесными формулировками эпохи и периодов

2005–2008 гг.

20 в., вторая половина

610: Ненормированные ключевые слова

Ключевое слово (словосочетание из текста документа), которое несет в данном тексте существенную смысловую нагрузку с точки зрения информационного поиска. Целесообразно использовать КС для дополнительного раскрытия содержания документа на более глубоком уровне, т. е. использовать ПР для описания основных предметов документа и их аспектов, КС – для их дальнейшей детализации а также описания побочных тем документа. Выбираются непосредственно из текста документа и вводятся в данное поле, если они отсутствуют в заглавии и предметной рубрики

Писатели

Доплера эффект

Оздоровительные лагеря

600: Персоналия

(о нем) – имя лица

Предметная рубрика, заголовком которой является имя лица, если оно является предметом рассмотрения в документе. Содержит подполя, аналогичные полям 700 «Автор» и 701 «Другие индивидуальные авторы»

Фамилия, инициалы

Расширение инициалов

Татьяна Григорьевна

Неотъемлемая часть имени

Дополнения к именам, кроме дат

Д-р филол. наук (фольклорист), лауреат Гос. премии УР (2004)

Даты жизни

Разночтение фамилий

Персоналия (о нем)

Записывается в одну строчку полное наименование организации

Ижсталь, спортивная команда по хоккею

331: Аннотация

Краткая характеристика документа, поясняющая его содержание, назначение, форму, другие особенности

Процесс индексирования включает следующие этапы:

– выявление основных компонентов содержания документа,

– представление выявленных компонентов содержания средствами информационно-поисковых языков.

В процессе индексирования учитываются:

– информационные потребности пользователей,

– общая и частные методики индексирования.

Предметные рубрики (ПР), присвоенные документу, должны отражать содержание каталогизируемого документа с максимальной полнотой и точностью. Как правило, документу следует присваивать адекватные ПР, формулировка которых выражает объем понятия, наиболее точно соответствующий объему понятия о предмете документа. Обобщающие рубрики, которой выражает объем понятия более широкий, чем объем понятия о предмете документа, присваиваются в том случае, если нерационально использовать адекватные ПР.

Количество ПР, присвоенных документу, может быть различным и зависит от содержания каталогизируемого документа. Индексатор может присвоить документу одну или несколько ПР.

Новые предметные рубрики создаются при наличии документов соответствующей тематики. Для формулирования новых ПР следует использовать термины, соответствующие современному состоянию терминосистем. Использование терминологии должно основываться на

§ отраслевых энциклопедиях;

§ современных терминологических словарях;

§ каталогизируемых документах.

Правила формулирования предметной рубрики

1. В состав ПР могут входить все части речи , но основной языковой формой выражения понятий в ПР являются имена существительные и словосочетания на их основе. Наличие существительного в ПР обязательно.

2. Заголовок и подзаголовки предметных рубрик формулируются в именительном падеже . При инверсировании словосочетаний может применяться родительный падеж . Например: Ома закон.

3. Слова, используемые в предметной рубрики, формулируются во множественном числе . Исключение представляют термины, которые не употребляются во множественном числе. Например: Транспорт. Дыхание. Единственное число принято и для тех слов, которые во множественном числе обозначают другое понятие. Например: Театр – как вид искусства и Театры – как вид учреждения.

4. При употреблении предмета в полной и краткой форме предпочтение отдается полной форме. Исключение составляют слова у которых краткая форма вытеснила полное наименование предмета и сокращение вошло в терминологию. Например: КПСС, ЮНЕСКО.

5. При использовании в формулировке предметных рубрик многозначных слов и слов-омонимов в скобках указывать слова, уточняющие содержание понятия (реляторы). Например: Представления (гносеол.) и Представления (мероприятия).

6. Для того, чтобы в позиции ведущего слова предметной рубрики находилось слово, несущее максимальную смысловую нагрузки, возможно применение инверсии. Инверсия применяется в следующих случаях:

6.1. В отношении таких понятий, как теорема, теория, метод, задача, эффект, явление и т. д. Например: Вероятностей теория, Ферма теорема.

6.2. В отношении так называемых «нехарактерных» прилагательных. В этих случаях существительное является основным словом, определяющим сущность предмета, а прилагательное обозначает не основные свойства предметов, а их частные вторичные признаки

К таким признакам относятся:

– некоторые нехарактерные внешние признаки (величина, объем, форма, цвет и т. д.). Например: Строительные конструкции легкие.

физические свойства и состояния (твердый, жидкий, сухой и т. д.). Например: Пищевые продукты жидкие.

– некоторые количественные, пространственные и временные определения и отношения. Например: Музыкальные фестивали международные.

Исключениями являются те случаи, когда нехарактерное само по себе прилагательное является частью общепринятого термина. Например: Внешняя торговля.

6.3. В случае, если имя собственное входит в географическое название.

Например: Лаптевых море.

Правила формулирования географического термина

1. При формулировании географического термина, вводимого в словарь, следует использовать исторически сложившиеся, более краткое общеупотребительное название государства. Развернутые официальные названия государств используются только при отражении юридической литературы. Например: Конституция – Российская Федерация.

Географическое наименование должно соответствовать историческому периоду, рассматриваемому в документе. Например:

Вятская губерния

Устинов, город.

2. Названия всех географических объектов должны иметь уточнения, к какой категории географических объектов они относятся (город, остров, река и т. д.). Эти уточнения записываются без сокращений через запятую и пробел после наименования объекта. Например.

Одна из важнейших операций аналитико-синтетической переработки информации как средства информационного поиска – индексирование документов и информационных запросов.

Индексирование – процесс выражения содержания документа и (или)запроса наинформационно-поисковом языке (ИПЯ) с помощьютерминов индексирования – классификационных индексов, предметных рубрик (ПР), ключевых слов, дескрипторов, кодов. Иными словами, индексирование – процесс перевода содержания документов и запросов с естественного языка на ИПЯ, в результате чего создается поисковый образ документа (ПОД) и поисковый образ запроса (ПОЗ) . Таким образом, происходит «свертывание» информации, содержащейся в документе, и изложение ее на ИПЯ в виде индекса, предметной рубрики или дескриптора, ключевого слова.

Информационно-поисковый язык (ИПЯ) – это специально созданный искусственный язык, предназначенный для выражения содержания документов и (или) запросов с целью их последующего поиска. ИПЯ – это основной элемент логико-семантического аппарата информационно-поисковой системы (ИПС).

Необходимость создания искусственного языка (для выражения смыслового – семантического содержания документов с целью их поиска) обусловлена тем, что естественный язык обладает рядом свойств, препятствующих его использованию для записи и поиска информации: это неоднозначность и многозначность слов естественного языка. Точное значение многих слов можно определить только из контекста, в котором они употреблены (ударный инструмент, ударная доза и т.д.). Эти факторы не позволяют добиться точного соответствия между содержанием документа и средствами выражения этого содержания.

Трудности использования естественного языка в качестве ИПЯ усиливаются еще и тем, что в ИПС в качестве входных документов могут быть использованы не полные тексты, а рефераты, аннотации, библиографические описания, которые являются результатом свертывания содержания документов.

Основные требования, предъявляемые к ИПЯ:

· Однозначность;

· Достаточная семантическая сила

· Открытость (возможность корректировки языка)

Каждый ИПЯ имеет определенный словарный состав, представляющий совокупность лексических единиц (ЛЕ) – обозначения отдельного понятия, минимального и неделимого в этой функции. В качестве ЛЕ в ИПЯ используется лексика естественных языков – слова, словосочетания предметной рубрики, цифровые или буквенно-цифровые коды и т.д.

Важным моментом при индексировании является создание поискового образа документов (ПОД).Поисковый образ документа – основное смысловое содержание документа (а не вся информация, содержащаяся в нем), выраженное в терминах формализованного ИПЯ. ПОД ставится в однозначное соответствие этому документу, по нему производится отыскание документов в массиве документов.


Индексирование запроса также осуществляется путем перевода его содержания на ИПЯ. Таким образом, совокупность терминов индексирования, выражающих смысловое содержание запроса, называется поисковым образом запроса (ПОЗ ).

Поиск ведется по совокупности терминов индексирования. С целью повышения эффективности поиска информации по запросу ПОЗ может быть дополнен специальными указаниями о последовательности выполнения логических операций в процессе информационного поиска, которые называются поисковым предписанием.

Индексирование реализуется в следующих процессах: предметизации, систематизации и координатном индексировании.

Систематизация – вид индексирования, при котором содержание документа и (или) запроса выражено классификационными индексами, в соответствии с правилами определенного классификационного ИПЯ (КС). Такой принцип индексирования принято считать классификационным. Он обеспечивает возможность организации информационного поиска по иерархическому признаку. Специалисты, осуществляющие процесс систематизации в библиотеках и информационных центрах, называются систематизаторами.

Предметизация – вид индексирования, при котором содержание документа и (или) запроса выражено предметной рубрикой (ПР) в соответствии с правилами определенного предметизационного ИПЯ. Предметизационный принцип индексирования основан на использовании ЛЕ, которые входят в состав предметных рубрик, естественного языка (т.е. предметные рубрики, выражающие ПОД и ПОЗ составляются на основе естественного языка). Предметизационный принцип индексирования обеспечивает возможность организации информационного поиска по алфавитному признаку. Процессы предметизации осуществляются в библиотеках и информационных центрах предметизаторами.

Координатное индексирование – вид индексирования, при котором смысловое содержание документа и (или) запроса многоаспектно выражаются множеством ключевых слов или дескрипторов. ИПЯ, предназначенный для координатного индексирования, называется дескрипторным языком. Специалисты, осуществляющие координатное индексирование, называются индексаторами.

Термины «индексирование» и «индексатор» распространены в англоязычной литературе и широко применяются в международной и отечественной библиотечной практике.

Итак, в зависимости от вида индексирования, выделяются предметизационные, классификационные и дескрипторные ИПЯ. В их состав входит множество ЛЕ и грамматические (парадигматические и синтагматические) отношения между ними. ЛЕ – обозначение отдельного понятия, принятое в ИПЯ и неделимое в этой функции. ЛЕ могут представлять собой принятые в естественном языке слова, устойчивые словосочетания, аббревиатуры, символы, даты, общепринятые сокращения, лексически значимые компоненты сложных слов, а также эквивалентные им кодовые или символические обозначения искусственного языка. Грамматические отношения позволяют организовать ЛЕ в систему.

Требования к ИПЯ :

· Полно и точно передавать содержание документа, отражаемого в данной ИПС;

· Обеспечить однозначное толкования терминов индексирования;

· Допускать многоаспектное индексирование;

· Допускать внесение изменений (дополнений, исправлений);

· Обеспечивать простоту и удобство индексирования, информационного поиска и ведение данной ИПС;

· Отражать современное состояние терминосистемы в данной области знания.

Правила использования ИПЯ фиксируют в справочно-методическом аппарате соответствующей ИПС.

Синтагма (греч. – вместе построенное, соединенное) – смысловое единство, которое, в определенном контексте выражается словом, группой слов или предложением. Отдельно взятые слова (например, « методика», «пособие», «индексирование») вступают в предложении в синтагматические отношения с помощью грамматических средств языка, таких, как склонение, спряжение, предлоги, союзы и пр.

4. ТЕМА: УНИФИКАЦИЯ И СТАНДАРТИЗАЦИЯ ИНДЕКСИРОВАНИЯ ДОКУМЕНТОВ.

Термин «индексирование» был введен в отечественную библиотечную теорию и практику в 1991 г. ГОСТом 7.59 – 90 «Индексирование документов. Общие требования к систематизации и предметизации». Стандарт был введен взамен 3-х предыдущих ГОСТов, разработанных в 80-е гг.:

1. ГОСТ 7.39 – 82 Систематизация и предметизация. Термины и определения.

2. ГОСТ 7.44 – 84 Систематизация документов. Общие требования.

3. ГОСТ 7.45 – 84 Предметизация документов. Общие требования.

Все эти стандарты были разработаны в рамках Системы Стандартов по информации, библиотечному и издательскому делу (СИБИД) для унификации (единообразия) процессов индексирования. Конечная цель стандартизации – повышение качества и эффективности работы – в данном случае – качества индексирования и тех элементов справочно-поискового аппарата, которые связаны с индексированием. Любой стандарт рождается в результате обобщения многолетней практики.

Библиотекари учились по учебникам, использовали практические пособия. Стандартов, регламентирующих технологические процессы, многие десятилетия не было. Появление централизованной каталогизации (например, печатной каталожной карточки), общая для всех или многих библиотек система классификации привели библиотекарей к пониманию целесообразности единых принципов и методов работы. На определенном этапе развития международных связей возникла необходимость максимального согласования отечественной практики каталогизации с зарубежной.

ГОСТ 7.59 – 90 был ориентирован на Международный стандарт МС ИСО 5963 «Документация – методы анализа документов, определения их тематики и выбора терминов индексирования» введенным Международной организацией по стандартизации (ИСО) в 1985 г.

Международный стандарт обладал рядом достоинств, которые учли отечественные разработчики:

· Самостоятельной частью стандарта были определения встречающихся в нем терминов (в отечественных стандартах они были выведены отдельным ГОСТом).

· В МС вводились понятия и определялись требования общего характера, охватывающие как систематизацию, так и предметизацию (в отечественных стандартах эти процессы рассматривались, как самостоятельные несвязанные между собой процессы, в отдельных ГОСТах).

Преимущества МС ИСО были очевидны: проще освоить любой процесс, тем более – совокупность сложных процессов, какими являются систематизация и предметизация, если выделить общее, единичное и особенное. Было решено объединить отечественные стандарты, максимально приблизить их к международному по структуре и содержанию. Кроме того, необходимо было разработать такой стандарт, применения которого не ограничивалось бы ведомственными рамками. Это означало, что предстояло решить ряд терминологических проблем, так как в те годы в стране параллельно функционировали две системы терминов – библиотечная и информационная. Было решено использовать в стандарте современную международную терминологию.

В период разработки ГОСТ 7.59 – 90 было проведено серьезное научное исследование по внедрению предыдущих стандартов. Так, ГОСТом 7.44 – 84 предусматривалось обязательное ведение во всех библиотеках алфавитно-предметного указателя (АПУ) к систематическому каталогу – не в качестве вспомогательного аппарата, а в роли составной части каталога. Поэтому предписывалось составление карточки АПУ в процессе обработки новых поступлений. Это требование основывалось на современных представлениях о том, что СК способен выполнять свои функции, если он обеспечен адекватным АПУ. Вводилось также обязательное редактирование классификационного решения и предметных рубрик АПУ. Соответственно были изменены общегосударственные нормы времени.

Обследование показало, что сотни библиотек выполняли эти процессы, но с введением ГОСТа они становились обязательными для всех библиотек.

С января 2004 г. введен в действие в качестве Государственного стандарта Российской Федерации ГОСТ 7.59 – 2003 «Индексирование документов. Общие требования к систематизации и предметизации».

В соответствии с современными требованиями ГОСТ 7.59 – 2003 «Индексирование документов» состоит из 6 разделов. Структура ГОСТа следующая:

Через несколько лет был разработан и введен в действие другой стандарт, рассматривающий третий процесс индексирования – ГОСТ 7.66 – 92 «Индексирование документов. Общие требования к координатному индексированию», в основе которого также были правила МС ИСО 5963.

Прошло более десяти лет. За эти годы изменилась классификационная практика в стране. Во многих библиотеках появились автоматизированные системы и электронные каталоги. Потребовалось уточнить перечень и наименования классификационных систем. Существенно упорядочена терминология рассматриваемой предметной области. Были утверждены терминологические стандарты:

· ГОСТ 7.73 – 96 СИБИД. Поиск и распространение информации. Термины и определения.

· ГОСТ 7.74 – 96 СИБИД. Информационно-поисковые языки. Термины и определения.

· ГОСТ 7.76 – 96 СИБИД. Комплектование фонда документов. Библиографирование. Каталогизация. Термины и определения.

С января 2004 г. введен в действие в качестве Государственного стандарта Российской Федерации ГОСТ 7.59 – 2003 «СИБИД. Индексирование документов. Общие требования к систематизации и предметизации».

В соответствии с современными требованиями стандарт состоит из 6 разделов. Структура ГОСТа следующая:

1. Область применения

3. Определения

4. Общие положения

4.1 Сущность индексирования

4.2 Объект индексирования

4.3 Условия индексирования

4.4 Принципы индексирования

4.5 Виды ИПЯ и терминов индексирования

5. Требования к ИПЯ

5.1 Общие требования

5.2 Требования к классификационным ИПЯ

5.3 Требования к предметизационным ИПЯ

6. Технологические процессы и общие правила индексирования

6.1 Общие правила индексирования

6.2 Правила систематизации

6.3 правила предметизации.

ГОСТ 7.59 – 2003 устанавливает общие требования к индексированию: систематизации и предметизации документов и информационно-поисковым языкам, применяемым при индексировании. Стандарт предназначен для библиотек, органов научно-технической информации, книжных палат, редакций и издательств.

В журнале «Библиотека», начиная со второго номера за 2004 г. в рубрике «Библиотековедение» проводится «Школа индексирования» Э.Р. Сукиасяном, где публикуется материал, комментирующий содержание ГОСТов по индексированию.

Примеры индексирования документов в конкретной и биографической базе данных

При индексировании документов используется два вида информационно-поискового языка: классификационные индексы и ключевые слова. При формировании базы данных индексирование осуществляется de visu – по полному тексту исходного документа. Такой метод позволяет с помощью набора ключевых слов более полно и адекватно отразить содержание индексируемого документа, а набор ключевых слов по сути может выступать как вспомогательная аннотация документа. Например:

Бандиты, вымогавшие цветные металлы у директора «Росвнештерминала» В. Бурова, представились «кобзоновскими».

Ключевыми словами здесь будут:

Цветные металлы. Вымогательство. Контрабанда. ОПГ – «кобзоновская». Кобзон И. Буров В. Иваньков В. = Япончик. Захаров А. = Захар.

Данный пример хорошо показывает, как можно избежать перегруженности аннотации и при этом не допустить потери информации.

Наиболее сложной частью работы по вводу документа в базу данных является выбор ключевых слов при индексировании этого документа. Эта трудность усугубляется отсутствием какой-либо нормализации лексики, используемой при работе над базами данных. Особую сложность вызывает выбор ключевых слов, отражающих названия учреждений, общественных организаций и т. п. С одной стороны, очевидно, что одному объекту должно соответствовать одно название, но с другой стороны – вольное обращение журналистов с обозначением этих объектов (а выбор ключевых слов происходит на основании текста публикации) приводит к тому, что в базе данных одному объекту соответствует несколько названий.

Например:

Ассоциация правовой защиты и реабилитации инвалидов,

Ассоциация социально-правовой защиты и реабилитации инвалидов,

Ассоциация по реабилитации и социальной поддержке инвалидов.

Это затрудняет пользователю поиск и может снизить его полноту. Поэтому, когда пользователь дает запрос на поиск информации, он тоже должен учитывать, что одно и то же учреждение или организация могут быть зафиксированы под разными названиями. Принятие во внимание этого фактора поможет снизить информационные потери, а в некоторых случаях сведет их до минимума.

Иногда из публикаций не всегда понятно, идет ли речь об одном объекте или это различные объекты со сходными наименованиями. Например:

Антимонопольное территориальное управление,

Антимонопольное управление,

Антимонопольный комитет.

Проблемой является и выбор ключевых слов, соответствующих названиям культовых зданий.

Какое ключевое слово предпочесть создателю базы и пользователю из следующего списка:

Собор Св. Петра и Павла,

Собор Петра и Павла,

Петропавловский собор,

Собор Св. апостолов Петра и Павла.

Порой трудно идентифицировать культовые здания, когда в исходной публикации используется слово «храм», а не «церковь» или «собор». Например, если в документе употреблено словосочетание «Никольский храм», то неясно, идет ли речь о Никольском соборе на площади Коммунаров или о Никольской церкви на улице Марата.

Пользователю при формулировании запроса необходимо помнить и о многочисленных переименованиях, начало которым положила перестройка. Например:

Театр им. Ленинского комсомола, см. Балтийский дом.

Необходимо учитывать при составлении запроса и те случаи, когда имеется два общепринятых названия одного объекта. Например:

Центральный выставочный зал, см. Манеж.

Кунсткамера, см. Институт антропологии и этнографии им. Петра Великого.

В настоящее время идет работа по отбору и систематизации ключевых слов, используемых при создании базы данных, что, безусловно, облегчит пользователю доступ к информации. Выявляются параллельные ряды, существующие в словаре, и для каждого ряда синонимов выбирается слово-представитель – дескриптор. Предполагается, что после завершения этого этапа работ индексирование будет по-прежнему осуществляться на основе текста публикации, но не непосредственно: термин или словосочетание, выбранное в качестве ключевого слова, которое попадает в словарь, будет сравниваться с контролируемым словарем и войдет в документ в той форме, которая в этом словаре зафиксирована.

Для журналиста, независимо от места его работы, электронные базы данных по-прежнему представляют самый оперативный источник новейшей информации. К тому же это еще наиболее экономичный источник. Но почти для всех журналистов поиск в электронных базах данных остается двухступенчатым процессом, и проводят они его не самостоятельно. У журналиста появляется идея статьи, библиограф переводит эту идею в параметры поиска, отбирает базу (или базы) данных, осуществляет поиск и передает результаты журналисту, который смотрит, соответствуют ли они запросу.

Полнота и точность полученной информации зависит не только и не столько от квалификации библиографа, сколько от того, как грамотно был сформулирован запрос журналистом. Например, журналист исследует проблему бензиновых кризисов, которые время от времени будоражат рынок. Из разных источников известно, что рынок нефтепродуктов и нефтеносителей в Санкт-Петербурге контролируется, в частности, «тамбовским» преступным сообществом. Известно также, что сильной стороной баз данных является их способность объединять несоизмеримые понятия с тем, чтобы избавить журналиста и библиографа от необходимости искать иголку в стоге сена, – вся информация, не имеющая отношения к делу, при этом исключается. Для одной части уравнения подбираются такие ключевые слова, как организованная преступность , ОПГ тамбовская , для другой – нефть, бензин, бензиновый кризис . В результате журналист получает миллион ссылок на опубликованные статьи, не отвечающие введенному запросу. Почему так происходит? Да потому, что «бензин» может относиться к бензоколонкам, «нефть» – к нефтедобыче и нефтяным компаниям, а словосочетание «организованная преступность» даст десятки статей, посвященных различным криминальным группировкам. Чаще всего это случается, когда поиск ведется в полнотекстовой базе данных и не ограничен, скажем, заголовками или аннотациями статей. Для того чтобы минимизировать «информационный шум» и информационные потери в данном конкретном запросе, необходимо отсечь лишние ключевые слова, скрестив только лишь понятия «ОПГ тамбовская» и «бензиновый кризис».

При формулировании темы поиска для запроса журналисту следует особое внимание уделять используемой при этом лексике. Ведь языковые средства, которые мы, не задумываясь, применяем в обыденной речи, отличаются от нормативного словаря, с которым работает библиограф. Например, ваше ключевое слово «барахолка» – столь привычное и понятное, но имеющее в словаре помету «просторечное», – лучше заменить на «вещевой рынок», поскольку библиограф занес в словарь, скорее всего, именно этот термин.

Отобрав первичную и вторичную информацию по интересующей его теме и смежным темам из всех доступных (с разумными затратами времени и средств) источников, журналист может систематизировать ее и составить аналитическую справку.

Из книги Гражданский кодекс РФ. Часть первая автора Законы РФ

Статья 259. Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства 1. Членами крестьянского (фермерского) хозяйства на базе имущества хозяйства может быть создано хозяйственное товарищество или

Из книги Инкотермс 2000 автора Международная торговая палата

12. ОБЫЧАИ ПОРТА ИЛИ КОНКРЕТНОЙ ТОРГОВЛИ Так как Инкотермс предлагают комплект терминов для использования в различной сфере торговли и регионах, невозможно всегда точно сформулировать обязанности сторон. До некоторой степени поэтому необходимо ссылаться на обычай

Из книги Гражданский кодекс Российской Федерации. Части первая, вторая, третья и четвертая. Текст с изменениями и дополнениями на 10 мая 2009 года автора Коллектив авторов

СТАТЬЯ 259. Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства 1. Членами крестьянского (фермерского) хозяйства на базе имущества хозяйства может быть создано хозяйственное товарищество или

Из книги Правовые основы судебной медицины и судебной психиатрии в Российской Федерации: Сборник нормативных правовых актов автора Автор неизвестен

КОМПЛЕКТ ДОКУМЕНТОВ И ДАННЫХ, ПРЕДСТАВЛЯЕМЫХ ЗАЯВИТЕЛЕМ ДЛЯ ПРОВЕДЕНИЯ ЭКСПЕРТИЗЫ ЭФФЕКТИВНОСТИ И БЕЗОПАСНОСТИ ЛЕКАРСТВЕННОГО СРЕДСТВА 1. Заявление о проведении экспертизы лекарственного средства, в котором отражаются:– наименование и адрес (почтовый и

Из книги Гражданский кодекс Российской Федерации. Части первая, вторая, третья и четвертая. Текст с изменениями и дополнениями на 1 ноября 2009 г. автора Автор неизвестен

Статья 259. Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства 1. Членами крестьянского (фермерского) хозяйства на базе имущества хозяйства может быть создано хозяйственное товарищество или

Из книги Комментарий к Федеральному закону от 27 июля 2006г. N 152-ФЗ "О персональных данных" автора Петров Михаил Игоревич

Статья 9. Согласие субъекта персональных данных на обработку своих персональных данных Комментарий к статье 91. Комментируемая статья определяет порядок, условия и основания получения согласия субъекта персональных данных на их обработку. Законодатель подчеркивает, что

Из книги Криминология. Избранные лекции автора Антонян Юрий Миранович

Статья 16. Права субъектов персональных данных при принятии решений на основании исключительно автоматизированной обработки их персональных данных Комментарий к статье 161. Комментируемая статья определяет права субъектов персональных данных по отношению к принятию

Из книги Штрафы и пени. ГИБДД, кредиты, ЖКХ, налоги автора Садовая Людмила Леонидовна

Статья 21. Обязанности оператора по устранению нарушений законодательства, допущенных при обработке персональных данных, а также по уточнению, блокированию и уничтожению персональных данных Комментарий к статье 211. Положения комментируемой статьи определяют процедуру

Из книги Покупка и продажа квартиры: законодательство и практика, оформление и безопасность автора Брунгильд Аделина Геннадиевна

3. Роль конкретной жизненной ситуации в совершении преступления Слово «ситуация» происходит от латинского situs (положение, расположение) и означает совокупность, сочетание обстоятельств и условий, создающих те или иные отношения, определенную обстановку или положение.

Из книги Кодекс о Правонарушениях Республики Молдова в силе с 31.05.2009 автора Автор неизвестен

Если вас остановил инспектор ДПС и проверяет по базе неоплаченные штрафы 1. Инспектор ДПС не имеет права останавливать вас для проверки долгов в базе данных. Согласно «Административному регламенту», пришедшему на смену «Наставлению по работе ДПС», у инспектора ДПС есть

Из книги Ипотечный кредит: как получить квартиру автора Шевчук Денис Александрович

Примеры исчисления налога с имущества, переходящего в порядке наследования Пример №1 Налоговый орган 15 февраля 1995 г. получил от нотариуса сведения о том, что наследство открыто с 10 сентября 1994 г. наследником первой очереди. Стоимость наследованного имущества

Из книги Эй, инспектор, ты не прав! Все о том, как противостоять произволу ГИБДД на дорогах автора Нариньяни Алена

Примеры расчета налога с имущества, переходящего в порядке дарения Пример №1 Если в течение 1994 года физическим лицом от одного и того же дарителя, не состоящего с одаряемым в родственных отношениях, по нотариально удостоверенным договорам дарения получены три подарка (в

Из книги Банковское потребительское кредитование [Учебно-практическое пособие] автора Даниленко Светлана Александровна

Статья 74-1. Обработка персональных данных с нарушением законодательства о защите персональных данных (1) Несоблюдение требований по обеспечению безопасности персональных данных при их обработке в информационных системах персональных данных влечет наложение штрафа

Из книги автора

Примеры ипотечных программ Ипотека. Стандартная программа Условия

Из книги автора

Глава 6 ПРИМЕРЫ На примере нескольких типичных дорожно-транспортных происшествий хочется показать, как в несложных ситуациях из-за неграмотных действий водителя обстоятельства столкновения искажаются, и невиновный превращается в виновного.Наезд на стоящий

Из книги автора

Введение В настоящее время особой актуальностью обладают вопросы правового регулирования в сфере потребительского кредитования. Данный институт нуждается в глубоком научном изучении с целью дальнейшего совершенствовании его правового регулирования.Рынок

Индексирование документа обычно организуется через автоматическую обработку его текста и заполнение метаданных. Автоматическая обработка – полнотекстовое индексирование – заключается в преобразовании текста документа в набор слов. Причем обычно для слов сохраняется их позиция в документе, для обеспечения возможности поиска по словосочетаниям. Существуют два принципиально различных метода такого индексирования с учетом применяемых в дальнейшем методов поиска:

    бинарное индексирование – не зависит от языка документа по причине бинарной или словарной индексации;

    морфологическое индексирование – производится с учетом морфологии и семантики языка.

При бинарном индексировании (контекстно-независимом по классификации) поиск ведется на основе алгоритмов “нечеткого поиска”, т.е. поиска с ошибками. В этом случае допускается неполное (с заданным количеством ошибок в начале, середине и конце слова) совпадение слов с шаблоном. При втором методе индексации (контекстно-зависимом по классификации) слова преобразуются в словоформы с отсечением суффиксов и окончаний, что позволяет искать склонения и спряжения шаблонов.

Стандарта на метаданные на текущий момент не существует, но обычно они включают, по крайней мере, дату создания документа, его размер, возможно, тип и автора, краткое содержание – аннотацию и ключевые слова. Стоит отметить, что последние поля (аннотация и ключевые слова) на сегодняшний день заполняются вручную. При этом, если формат документа их предусматривает и автор их заполнил, то все неплохо, но практически всегда в реальных документах они отсутствуют. Поэтому существующие сегодня системы документооборота их обычно игнорируют по причине крайне дорогого и медленного их заполнения оператором, вводящим документы в систему.

Несмотря на несомненные плюсы, полнотекстовое индексирование в любом своем виде имеет и ряд существенных минусов :

    большое количество “мусора” в индексе , т.е. слов никак не характеризующих документ, а связывающих “ключевые” слова – а значит, возможное большое число нерелевантных документов при поиске при попадании шаблона на “мусор”;

    большой объем индекса за счет “мусора” – следовательно, расход ресурсов на его хранение и время на поиск по нему.

Эти недостатки обусловлены самой концепцией такого индексирования – сохранением всего текста за исключением “стоп-слов”. Действительно, с одной стороны наличие в индексе всех слов текста гарантирует его нахождение по любому из них, но с другой стороны встает вопрос: “А насколько это корректно?”. Предположим, мы имеем текст о компьютерных технологиях, в котором приведена пословица: “За двумя зайцами погонишься, ни одного не поймаешь”. При проведении поиска по слову “заяц” система выдаст этот документ, хотя он не будет иметь ни малейшего отношения к фауне. Наглядно иллюстрируют это приведенные чуть выше слова данного текста “предлог”, “союз” и “местоимение”.

Таким образом можно сделать вывод, что индексировать нужно “ключевые” слова документа , а не весь текст, чтобы гарантировать валидность результатов поиска. Только в отличие от документных систем первого поколения, в которых применялось ручное индексирование, данный процесс должен выполняться полностью автоматически в связи со значительно возросшим потоком документов. Все предпосылки в плане технических средств для этого есть. Кроме того, индексирование “ключевых” слов позволит значительно сократить объем индекса, а посему, и время поиска по нему.