Предметизация - вид индексирования

Март 29th, 2009 | Posted by admin | Category: Поиск информации в БДNo Comments

Предметизация - вид индексирования, при котором содержание документа и (или) запроса выражено предметными рубриками в соответствии с правилами какого-либо предметизационного ИПЯ. Тезаурус - своего рода «обращенный» толковый словарь. Если в обычном толковом словаре по слову находится его значение, то в тезаурусе по записанному определённым способом значению находят слово или несколько слов, выражающих искомое значение. Термин «тезаурус» впервые в XIII веке использовал Б. Латини в труде «Книга о сокровище». Первые тезаурусы не были связаны с потребностями информационной деятельности. В библиотечно-информационных системах разработка тезауруса реальна лишь для отдельных отраслей. Тезаурус в ИС можно воспринимать, как её семантическое наполнение. Универсальные библиотеки используют имеющиеся иерархические классификации или предметные рубрики. Дескриптор (от англ. «to describe» - описывать), словарная единица ИПЯ, выраженная словом, словосочетанием или кодом, включающая эквивалентные или близкие по смыслу ключевые слова, используемая для координатного индексирования документов и (или) информационных запросов; лексическая единица информационно-поискового тезауруса (ИПТ), под которой понимается нормализованное слово или словосочетание, выбранное из множества синонимических или близких по значению ключевых слов.

Информационно-поисковый язык

Март 26th, 2009 | Posted by admin | Category: Поиск информации в БДNo Comments

Поскольку автоматизированная система является инструментом, используемым человеком при поиске, а не интеллектуальным автоматом для поиска информации (готовых решений задач основной деятельности), эффективность её использования зависит от того, насколько хорошо человек знает природу объектов и свойства инструмента, посредством которого он с этими объектами работает. Особенностью поискового процесса, рассматриваемого как взаимодействие двух систем представления знаний, является многоуровневость и, часто, неоднородность объектов в цепи информационных преобразований. Операционными объектами, непосредственно участвующими во взаимодействии (сравнении потребности и документов в базе данных), являются поисковый образ документа и поисковый образ запроса, соответствие которых на формальном уровне устанавливается поисковым механизмом АИПС. Установление истинного соответствия предполагает соотнесение содержания на смысловом уровне: пользователь практически реконструирует возможное содержание по перечислению основных понятий и далее полученный образ соотносит с реальной потребностью. При этом адекватность образа действительному содержанию документа определяется не только качеством процесса свертки информации, но и уровнем знания субъектом средств отражения - концептуальной схемы предметной области и возможностей информационно-поискового языка.

Проводные каналы связи

Март 22nd, 2009 | Posted by admin | Category: Поиск информации в БДNo Comments

Проводные каналы связи представляют группу параллельных или скрученных (витая пара) медных проводов, коаксиальные кабели и волоконно-оптические линии связи (ВОЛС). В проводных каналах используют следующие виды кабелей: 1. Витая пара (скорость передачи данных - 1 Мбит/сек). 2. Коаксиальный кабель (типа TV, тонкий и толстый) - скорость передачи данных - 15 Мбит/сек. 3. Оптоволоконный кабель (скорость передачи данных - 400
Мбит/сек). 1. Витая пара (англ. «twisted pair») - изолированные проводники, попарно свитые между собой для уменьшения наводок между проводниками и парами. Выделяют пять категорий витых пар. Первая и вторая категории используются при низкоскоростной передаче данных, причём первая - стандартный телефонный абонентский провод. Третью, четвёртую и пятую категории применяют при скоростях передачи до 16, 25 и 155 Мбит/с соответственно, причём третья (Token Ring) и четвёртая (Ethernet) для частоты до 10 МГц, а пятая - до 100 МГц. Наибольшее распространение получила третья категория. Ориентируясь на перспективные решения, связанные с потребностью увеличивать пропускную способность сети, следует использовать оборудование пятой категории, обеспечивающее передачу данных по обычным телефонным линиям и ЛВС со скоростью до 1 Мбит/с. Такие провода содержат две или четыре пары и могут иметь экран из алюминиевой фольги. В последнем случае они называются -экранированная витая пара (англ. «shielded twisted pair», STP). Неэкранированный провода называют UTP (англ. «unshielded twisted pair»).

Организация данных на машинных носителях

Март 17th, 2009 | Posted by admin | Category: Эффективное управление внешней памятьюNo Comments

Администратор приложений (если таковой специально не выделяется - администратор БД) определяет для приложений подмодели данных. Тем самым разные приложения обеспечиваются собственным «взглядом», но не на всю БД, а только на требуемую для конкретного приложения («видимую») её часть. Вся остальная часть БД для данного приложения «прозрачна». Прикладные программисты имеют, как правило, в своем распоряжении один или несколько языков программирования, с помощью которых генерируются ПП. Основное внимание в этой теме уделено системам управления данными, построенным на основе однородных файлов, а также рассмотрению основ построения систем управления, использующих «однофайловые» страничные модели организации данных. Организация данных на машинных носителях. С общепринятой точки зрения к вопросам организации данных относятся: . выбор типа записи - единицы обмена в операциях ввода-вывода; . выбор способа размещения записей в файле и, возможно метода оптимизации размещения; . выбор способа адресации и метода доступа к записям.

Устойчивость системы к различным сбоям

Март 15th, 2009 | Posted by admin | Category: Процесс архивации данныхNo Comments

Подобные технологии позволяет не только повысить устойчивость системы к различным сбоям, но и, моментально переключившись на другую часть массива, поддерживать постоянную работоспособность системы, что наиболее часто используется в работе серверов. Кроме того, в данном случае можно произвести замену вышедшего из строя накопителя на резервный без отключения электропитания и перезагрузки системы –«горячая» замена. Названные возможности дисковых батарей и библиотек. Сеть хранения данных огромных массивов данных (хранилищ информации) в совокупности обеспечивают высокую надёжность хранения данных. При использовании сетевых технологий для хранения информации применяют различные информационные хранилища - базы обобщённых данных, формируемые из множества различных внешних и внутренних источников. Для сохранности ЭИР применяют и сети хранения данных (Storage Area Network, SAN). В корпоративных сетях широко используются специализированные NAS -серверы (Network Attached Storage), осуществляющие совместимость, интеграцию и администрирование серверов общего назначения и хранение огромных массивов данных. Основная задача таких хранилищ заключается в обеспечении надёжного централизованного хранения ЭИР и необходимого ПО в соответствии с требованиями к их сохранности и защите. В качестве информационных хранилищ используют RAID и CD библиотеки (в том числе DVD).

Цифровые коммуникации

Март 14th, 2009 | Posted by admin | Category: Поиск информации в БДNo Comments

Цифровые коммуникации (каналы связи) надёжнее, чем аналоговые. Они обеспечивают высокое качество передачи информации, позволяют внедрять механизмы, гарантирующие целостность каналов, защиту данных и применение других сервисов. Для передачи аналоговой информации по цифровому каналу, она преобразуется в цифровую форму. В конце 1980-х годов появилась цифровая сеть с интеграцией услуг (Integrated Serviced Digital Network - ISDN). Предполагается, что она станет глобальной цифровой магистралью, соединяющей офисные и домашние компьютеры, обеспечивая им высокоскоростную передачу данных (до 2 Мбит/с и более). Стандартными четырёхпроводными абонентскими устройствами ISDN могут быть: телефон, факсимильный аппарат, устройства передачи данных, оборудование телеконференций и другие. Конкуренцию им могут составить современные технологии, применяемые в сетях кабельного телевидения. По пропускной способности каналы связи делятся на: • низкоскоростные (телеграфные, скорость передачи информации
от 50 до 200 бод/с). Напомним, что 1 бод = 1 бит/сек, • среднескоростные (аналоговые телефонные, от 300-9600 до 56000 бит/с для ЭВМ), • высокоскоростные или широкополосные (скорость передачи информации свыше 56000 бит/с). Так как, 1 байт равен 8 битам, можно легко осуществить пересчёт, например, 56000 бит/с = 7 Кб/с. В зависимости от возможностей организации направлений передачи информации каналы связи делятся на: ♦ симплексные, позволяющие осуществлять передачу информации
только в одном направлении; ♦ полудуплексные, обеспечивающие попеременную передачу информации в прямом и обратном направлениях; ♦ дуплексные или полнодуплексные, допускающие передачу информации одновременно в прямом и обратном направлениях.

Качественные характеристики языков

Март 14th, 2009 | Posted by admin | Category: Эффективное управление внешней памятьюNo Comments

Качественные характеристики языков запросов могут определяться такими свойствами, как полнота, селективная мощность, простота изучения и использования, степень процедурности и модульности, унифицированность, производительность эффективность. Рассмотрим некоторые из этих понятий. Селективная мощность языков запросов характеризует возможность выбора данных по разным критериям. Данное понятие плохо поддается формализации: можно сказать, что язык с большей селективной мощностью позволяет сформулировать большинство запросов так, что ответ на них содержит меньше ненужных данных. Языки, обладающие малой селективной мощностью, в общем случае уже требуют привлечения дополнительных средств для анализа ответов на запросы (например, оценки пользователя). Простота изучения является во многом субъективной оценкой и может быть в некоторой мере охарактеризована степенью его близости к естественному языку, требуемым для его освоения временем и необходимым уровнем подготовки пользователя. Высокий уровень процедурности, свойственный реляционным языкам, определяется присущими реляционной модели свойствами, в частности, полным отделением логической структуры данных от структур хранения и стратегий доступа. Снижение уровня процедурности увеличивает свободу в выборе способов реализации языка, что позволяет осуществить его реализацию более оптимальным способом. Необходимо отметить, что меньшая степень процедурности ещё не означает автоматически меньшую сложность написания запросов. Некоторые сложные запросы можно более просто сформулировать в виде алгоритма поиска ответа, в то время как его формулировка в декларативном виде может оказаться достаточно трудной.

Классификационные системы

Март 11th, 2009 | Posted by admin | Category: Поиск информации в БДNo Comments

Кроме ключевых слов широко используются различные классификации, обычно представляемые в виде таблиц классификации. Под классификацией в данном аспекте понимают совокупность элементов, сгруппированных в классификационную систему, состоящую из кода класса, его названия и методических указаний, раскрывающих содержание деления, ссылок и т.п. Классификационные системы отражаются в таблицах классификации, подразделяющиеся на универсальные и отраслевые. Рубрикатор представляет иерархическую классификационную таблицу, содержащую полный перечень включенных в систему классов и предназначенную для систематизации информационных фондов, массивов и изданий, а также поиска в них. Для обозначения в классификационной системе отдельных понятий в ней используется индексация множества символов и специальные правила их применения. Термин индексирования - одна или несколько связанных лексических единиц (ЛЕ), представленных в поисковом образе документа (ПОД) и оформленных по правилам определенного ИПЯ. В классификации ИПЯ он выражен с помощью полного классификационного индекса, в предметизационном - в виде совокупности предметных рубрик.

Средства поиска, обеспечивающие нормализацию лексики ИПЯ

Февраль 26th, 2009 | Posted by admin | Category: Поиск информации в БДNo Comments

Грамматический строй естественных языков нередко расходится с логической структурой мышления, и поэтому при поиске информации необходимо полностью или частично исключить влияние аффиксов и окончаний слов естественных языков. Для этого можно предусмотреть наращивание документов всеми потенциально возможными словоформами, которые можно составлять, например, на базе основ слов, первоначально содержащихся в документах. Наличие в очередной паре «документ-запрос» словоформ, совпадающих с точностью до общности их корней, в результате такого наращивания привело бы к появлению в документе словоформы, полностью совпадающей со словоформой, имеющейся в запросе. Таким образом, такое наращивание снимало бы различие употреблений словоформ в документах и запросах. Заметим, что наращивание словоформ может осуществляться как на уровне документов, так и на уровне запросов. Другой технологический вариант, позволяющий снимать различие употреблений словоформ, состоит в использовании кодирования слов. Сущность метода автоматического кодирования слов с помощью наперёд заданных словарей аффиксов и окончаний заключается в автоматической проверке на наличие в словах естественных языков элементов, вошедших в наперёд заданные (составленные экспертами-лингвистами) словари аффиксов и окончаний, и отсечении их, если они имеются. От качества составления словарей аффиксов и окончаний в значительной мере зависит качество автоматического кодирования слов естественных языков, а, следовательно, и функциональная эффективность ИПС в целом. Ошибки могут быть следствием такого алгоритма, когда после включения очередной морфемы в словарь, она отсекается из всех слов естественно-языкового употребления в БД, независимо от того, является ли для конкретно рассматриваемого слова морфемой или частью корня. Для каждого естественного языка статистические характеристики вычисляются путём автоматической обработки достаточно представительных фрагментов текстов данного языка.

Лингвистические средства БД

Февраль 24th, 2009 | Posted by admin | Category: Эффективное управление внешней памятьюNo Comments

Многоуровневое представление БД предполагает соответствующие описания данных на каждом уровне и согласование одних и тех же данных на разных уровнях. С этой целью в состав СУБД включаются специальные языки для описания представлений внутреннего и внешнего уровней. Кроме того, в СУБД используется язык манипулирования данными (ЯМД). Желательно, также наличие тех или иных дополнительных сервисных средств, например, средств генерации отчетов. Работа с БД предполагает несколько этапов: • описание БД; • описание частей БД, необходимых для конкретных приложений (задач, групп задач); • программирование задач или описание запросов в соответствии с правилами конкретного языка и использованием языковых конструкций для обращения к БД; • загрузка БД и т. д. Для выражения обобщенного взгляда на данные применяют язык описания данных (ЯОД) внутреннего уровня, включаемый в состав СУБД. Описание представляет модель данных и их отношений, т.е. структур, из которых образуется БД. ЯОД позволяет определять схемы БД, характеристики хранимых и виртуальных данных и параметры организации их хранения в памяти, и может включать средства поддержки целостности БД, ограничения доступа, секретности.