что такое тезаурус в информатике

Информационно-поисковый тузаурус

Федеральное агентство по образованию Российской Федерации

Нижнетагильская государственная социально-педагогическая академия

Кафедра прикладной информатики

студент(ка) 531(д) ИФ (ОЗО)

1. Информационные системы

2. Информационно-поисковый тезаурус: определение, цель разработки

3. Использование информационно-поисковых тезаурусов

4. Структура информационно-поискового тезауруса

5. Построение информационно-поисковых тезаурусов

6. Сфера применения и перспективы развития информационно-поисковых тезаурусов

В настоящее время в связи с возрастанием объема документальной информации, необходимой для принятия эффективного управленческого решения, и возможностями, предоставляемыми новыми компьютерными технологиями, автоматизированные информационно-поисковые системы стали широко использоваться в различных сферах экономики.

Организация быстрого и эффективного поиска документальной информации становится все более неразрешимой проблемой.

Традиционно информационно-поисковые системы (ИПС) применяются для тематического поиска научно-технической информации в крупных библиотеках, научно-технических центрах, архивах, патентных библиотеках.

Таким образом, сфера приложения для технологий информационно-поисковых систем представляется достаточно широкой.

При автоматизации поиска документальной информации важнейшей является задача формализации содержания документа и запроса. При этом поиск происходит по всему тексту документа или по его поисковому образу, а в качестве запроса чаще всего выступают отдельные ключевые слова или их логические комбинации. Именно на этой технологии основано действие информационно-поискового тезауруса (ИПТ). Цель моей работы – дать необходимые определения, определить цели разработки ИПТ, его структуру и построение, а также значение и перспективы развития.

1. Информационно-поисковые системы

Автоматизированный документальный поиск может быть организован на основе различных технологий: поиска по поисковому образу документа, поиска по полному тексту документа, поиска документов по гипертекстовым ссылкам.

Технология полнотекстового поиска является неотъемлемой составляющей таких современных и перспективных информационных технологий, как: системы управления документами (Document management system, DMS), технологии групповой работы над документами (groupware), технологии поиска в Internet/intranet. На технологии гипертекста базируется самый известный сервис Internet World Wide Web (WWW).

Информационно-поисковая система для управленческих документов, как правило, требует раз­работки собственного информационно-поискового языка, адекватного данной предметной области.

Важнейшей структурной составляющей является информационно-поисковый язык.

Перевод текстов документов и запросов на ИПЯ называется индексированием.

Индексирование может быть ручным (когда его производит человек) или автоматическим.

Для общения человека с компьютером разрабатываются специальные искусственные языки, естественный язык (ЕЯ) в этом качестве пока не может быть использован без специального предварительного преобразования. В естественном языке присутствуют: синонимия, омонимия и полисемия, избыточность, субъективность и другие свойства, препятствующие его автоматизированной обработке.

Искусственный язык, как правило, разрабатывается на основе ЕЯ. При этом устраняется многозначность слов ЕЯ.

Слова любого языка в процессе отображения предметов реального мира вступают между собой в определенные отношения. Эти отношения можно разделить на парадигматические и синтагматические.

Наиболее часто в качестве основания деления при классификации ИПЯ используют способ организации понятий. По способу организации понятий различают: предкоординируемые (классификационные) ИПЯ; посткоординируемые (дескрипторные) ИПЯ.

Дескрипторные языки семантически более сильны, чем классификационные, но более сложны для формальной обработки.

Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса.

2. Информационно-поисковый тезаурус: определение, цель разработки

Тезаурус – термин, широко используемый в информатике как составная часть информационно-поисковых систем.

Можно выделить два определения информационно-поискового тезауруса:

1. Информационно-поисковый тезаурус представляет собой словарь, отображающий семантические отношения между лексическими единицами дескрипторного информационно-поискового языка (дескрипторами) и предназначенный для поиска слов по их смысловому содержанию.

2. Информационно-поисковый тезаурус (ИПТ) – контролируемый словарь терминов предметной области, создаваемый для улучшения качества информационного поиска в данной предметной области.

И в том, и в другом случае речь идет о словаре, который призван облегчить поиск необходимой информации.

Возможно два способа расположения слов в словарях: по близости их буквенного состава и по смысловой близости.

Цели разработки ИПТ:

— перевод языка авторов на контролируемый язык, используемый для индексации и поиска;

— обеспечение последовательности в присваивании индексных терминов;

Источник

Статья на тему «Особенности применения тезаурусов в информационных системах»

Особенности применения тезаурусов в информационных системах

Бұл мақалада ақпараттық-іздеу тезаурустары, тезаурустарды рәсімдеу үшін қолданылатын түрлі тәсілдер қарастырылған, ақпараттық жүйелерде тезаурустармен жұмыс істеудің ерекшеліктері, сонымен қатар пайда болатын мәселелер мен тезаурустарды жүзеге асыруға арналған талаптар сипатталған. Дәстүрлі терминология және лингвистикалық тезаурус ресурстары түрлерінің арасындағы айырмашылық пен ерекшеліктер, сонымен қатар тезаурустармен жұмыс істеуге арналған қолданбалы интерфейс жұмысын ұйымдастыру және оны ақпараттық жүйелерде іздеу барысында қолдану, сондай-ақ тезаурустарды басқару интерфейсі қарастырылған.

This article describes the different approaches to the formalization of the thesaurus, information retrieval thesauri are described particularly with thesauri in information systems, as well as problems arise, to implement the requirements of the thesaurus. The peculiarities and differences of classifiers resources and conventional terminology and linguistic thesauri. We also consider the organization of user interfaces for use with a thesaurus and use them when searching for the information system, as well as thesauri administration interfaces.

Основным отношением (связью) между терминами в тезаурусе является связь между более широкими (более выразительными) и более узкими (более специализированными) понятиями. Часто выделяют 2 подвида этого отношения:

Один термин обозначает понятие, являющееся частью понятия, обозначаемого другим термином (например, «наука» и «математика», «математика» и «теория чисел»)

Один термин обозначает элемент класса, обозначаемого другим термином («горные районы» и «Кавказ»).

Это отношение на множестве терминов является отношением частичного порядка, то есть множество терминов с такими связями образует ациклический граф, или полииерархическую структуру.

В многоязычных тезаурусах существуют также связи эквивалентности между терминами на разных языках. Выделяют полную (строгую) эквивалентность, и несколько видов частичной (нестрогой) смысловой эквивалентности терминов на разных языках.

Тезаурус часто содержит комментарии к терминам, раскрывающие для пользователя смысл термина, а также поясняющие, как следует его использовать.

Тезаурусы применяются, прежде всего, для классификации и поиска информационных ресурсов. При этом каждому ресурсу при классификации могут быть сопоставлены одно или более понятий, описываемых терминами в тезаурусе, а пользователь, осуществляющий поиск, может по тезаурусу найти интересующие его понятия в данной предметной области, а также все характеризующие их термины. То есть на основе связей тезауруса происходит расширение поискового запроса (расширение слов запроса синонимичными, более общими или более частными по смыслу терминами). Навигация по связям тезауруса помогает четче сформулировать сам запрос.

Структура классификатора соответствует структуре обычного тезауруса, поскольку связи между его рубриками по смыслу те же, что и между терминами тезауруса, и классификатор является его частным случаем. Однако при классификации в соответствие ресурсам ставятся не термины, а обозначаемые ими понятия. Потому в схеме данных информационной системы понятия тезауруса должны быть выделены в самостоятельные объекты. Это означает, что такая схема должна иметь структуру, отличную от вышеописанных стандартов, в которых понятия не выступают отдельными объектами, а есть лишь термины и связи между ними. В то же время, схема должна позволять работать с тезаурусами, описанными в соответствии с этими стандартами, т.е. быть совместима с ними.

Таким образом, более естественной в схеме данных тезауруса для информационных систем будет привязка языка к терминам, а не к понятиям. Более того, такой подход является единственно возможным для классификаторов, в которых именно независящие от языка понятия классифицируют другие ресурсы. Обычно такие классификаторы изначально создаются как одноязычные, и лишь потом для них делаются переводы на другие языки. В этом случае между терминами на разных языках имеет место только строгая эквивалентность, поскольку при переводе для каждого термина дается его строгий эквивалент (который является эквивалентом по определению, в контексте данного классификатора, даже если фактически перевод не совсем точен). Привязка языка к понятию означала бы необходимость делать отдельную копию одного и того же понятия для каждого языка, и делать отдельную связь между каждой копией понятия и классифицируемым им ресурсом. Привязка языка к термину привязать все эквивалентные термины на разных языках к одному и тому же понятию.

Однако в тезаурусах, где много отношений неполной эквивалентности между разноязычными терминами, а также имеются разные иерархии для терминов на разных языках, даже полностью эквивалентные термины могут оказаться в разных иерархиях, а значит, не могут быть привязаны к одному понятию. Все это означает, что для поддержки многоязычных тезаурусов схема данных должна предусматривать описанные в стандартах ISO и ГОСТ соотношения эквивалентности между терминами на разных языках, как отношения между понятиями. При этом для каждого тезауруса, в зависимости от его специфики, необходимо сделать выбор, каким образом реализовывать отношение полной эквивалентности между разными терминами:

Приписывать термины к разным понятиям, и ставить между понятиями отношение полной эквивалентности.

Приписывать термины к одному и тому же понятию.

Очевидно, для классификаторов необходимо использовать второй подход, а для многоязычных тезаурусов, имеющих разные иерархии на разных языках – первый. Следует заметить, что тезаурус, в котором есть отношение неполной эквивалентности, по смыслу уже подразумевает наличие разных иерархий на разных языках, а значит, необходим первый подход при их реализации.

Еще одним важным атрибутом термина в тезаурусе является комментарий к нему ( ScopeNote ). В тезаурусах-классификаторах, где, по сути, первично понятие, а не термин, комментарий, как правило, также характеризует понятие. Однако, в других тезаурусах комментарий может относиться именно к термину. Например, описывать случаи предпочтительного употребления именно этого синонима перед другими. Таким образом, в разных тезаурусах комментарии могут относиться, как к понятиям, так и к терминам. Выбор зависит от конкретного тезауруса. Универсальная схема данных в информационной системе должна допускать оба варианта применения комментариев.

Интерфейсы работы с тезаурусом в информационных системах

Просмотр тезауруса и поиск ресурсов

В информационной системе тезаурус является не только самостоятельным информационным ресурсом, но и инструментом для классификации или индексации ресурсов. Таким образом, пользователь информационной системы должен иметь возможность:

Осуществлять просмотр тезауруса.

Осуществлять поиск ресурсов по ассоциированным с ними терминам или понятиям.

Поиск ресурсов может вестись двумя способами:

Поиск по ключевым словам, используя тезаурус.

Навигация по тезаурусу. То есть поиск сначала нужного понятия в тезаурусе с последующим запросом ресурсов, соответствующих этому понятию.

Интерфейс просмотра тезауруса должен:

Показывать все атрибуты данного термина или понятия.

Показывать, с какими терминами и понятиями связан данный термин или понятие.

Достаточно наглядно показывать пользователю место термина или понятия в иерархии понятий тезауруса.

Первые 2 пункта выполнимы, если показывать пользователю для каждого понятия тезауруса на отдельном экране (странице) все его атрибуты, все связанные с ним термины (на всех или на определенном языке), и все связанные с ним понятия. Интерфейс должен при этом обеспечивать переход к странице просмотра любого из перечисленных на данной странице понятий. Если в тезаурусе схемой данных разрешена привязка термина более чем к одному понятию, на той же странице для каждого термина должны быть перечислены также понятия, к которым еще привязан данный термин. Если у понятия есть термины на других языках, не полностью эквивалентные данному понятию, или полностью эквивалентные, но прикрепленные в силу структуры данного тезауруса к другим понятиям, на странице должны присутствовать ссылки на страницы этих понятий.

Наглядно показать пользователю место термина или понятия в тезаурусе достаточно сложно, поскольку достаточно наглядное отображение полииерархической структуры на одной странице, в отличие от иерархии, довольно сложно, как для отображения, так и для восприятия пользователем. В частности, в общем случае невозможно будет обойтись без пересекающихся линий, показывающих иерархические связи между понятиями. Потому имеет смысл показать только часть понятий и связей, которая, с одной стороны, была бы легко отображаемой и воспринимаемой, и в то же время достаточно наглядно показывала бы место понятия в общей иерархии понятий.

Если тезаурус имеет строго древовидную структуру, то представление дерева обычно осуществляется следующими способами:

Визуализация пути по дереву от корня к текущему элементу.

Визуализация пути по дереву от корня к текущему элементу, а также соседей каждого предка текущего элемента.

Визуализация всего дерева целиком. Обычно в таких случаях пользователь может открывать и закрывать отображение на экране потомков любых узлов. Например, программа «Проводник» («Explorer») в операционных системах MicrosoftWindows.

Чтобы обеспечить эффективную выборку (одним запросом) требуемых в первых двух случаях разрезов иерархических структур, представляемых рекурсивной связью между узлами этих структур, соответствующие таблицы БД расширяются вспомогательными столбцами и условиями целостности.

В случае полииерархической структуры первые 2 из вышеописанных способов также могут быть применены. Но в этом случае необходимо задать путь от корня полииерархии к текущей вершине, по которому будет произведена визуализация. При этом известные алгоритмы визуализации дерева одним запросом к реляционной БД неприменимы. Однако максимальное количество запросов к БД в этом случае не будет велико. Оно будет равно максимальной длине пути по полииерархии тезауруса, которая, как правило, сопоставима с логарифмом от общего количества понятий тезауруса. Это вполне приемлемо для информационной системы.

Как уже упоминалось. Для первого и второго варианта визуализации окружения текущего элемента полииерархии необходим путь, по которому должна осуществляться визуализация. Если пользователь пришел к данному понятию посредством навигации от корня иерархии, то визуализацию следует осуществлять в соответствии с тем путем, по которому он пришел. Однако если пользователь пришел к просмотру данного элемента другим способом (например, из поискового интерфейса), и путь (или верхняя часть пути) не известен, его (или неизвестную его часть) можно либо вообще не отображать, либо вычислять какой-либо путь по умолчанию, например, самый левый, и отображать именно его. Для этого так же можно генерировать и использовать остовое дерево.

Еще один вариант отображения положения элемента в полииерархии, который будет, вероятно, полезен для пользователя – визуализация всех соседей всех его непосредственных предков. Это будет, по сути, двухмерная таблица, легко отображаемая на экране.

Интерфейсы администрирования тезауруса должны обеспечивать выполнение следующих операций:

Добавить новое понятие к тезаурусу. При добавлении добавляется так же связь с некоторым другим уже существующем в тезаурусе понятием. Указывается тип этой связи.

Добавить связь определенного типа между понятиями. Должно обеспечиваться ограничение: не более одной связи между двумя понятиями. При добавлении иерархической или ассоциативной связи добавляется так же парная к ней обратная связь (A BT B ó B NT A ; A RT B ó B RT A ).

Изменить тип связи между понятиями. Должно обеспечиваться ограничение: Связь RT запрещена между понятиями, одно из которых является предком другого.

Удалить понятие и все его связи. При удалении понятия все его потомки, не имеющие других предков, могут либо удаляться вместе с ним, либо выделяться в отдельную иерархию.

Удалить связь между понятиями. При удалении иерархической связи понятие-потомок и все его потомки, не имеющие других предков, могут либо удаляться вместе с ним, либо выделяться в отдельную иерархию.

Добавить/изменить наиболее подходящий термин для данного понятия на некотором языке. Должно обеспечиваться ограничение: Для каждого понятия не более одного наиболее подходящего термина на каждом языке.

Добавить/изменить менее подходящий термин для данного понятия на некотором языке. При добавлении добавляется также связь к этому термину и указывается тип этой связи.

Добавить связь определенного типа между термином и понятием. Должно обеспечиваться ограничение: для каждого термина не более одной связи с одним и тем же понятием.

Изменить тип связи между термином и понятием.

Добавить/изменить комментарий к связи между термином и понятием на некотором языке.

Удалить термин и все его связи.

Удалить связь между термином и понятием. Если термин не имеет других связей, он также удаляется.

Изменить код (идентификатор) понятия.

Изменить код (идентификатор) термина.

Добавить/изменить комментарий к понятию. Должно обеспечиваться ограничение: не более одного комментария к одному понятию на одном языке.

Добавить/изменить комментарий к термину. Должно обеспечиваться ограничение: не более одного комментария к одному термину на одном языке.

Интерфейсы администрирования должны включать и использовать интерфейсы просмотра тезауруса для поиска тех понятий, терминов, комментариев и связей, которые должны быть изменены. Интерфейсы редактирования могут быть также частично интегрированы в интерфейсы просмотра (в виде добавленных органов управления в окнах просмотра).

Существует 2 способа функционирования тезауруса в системе:

Тезаурус встроен в информационную систему и является ее неотъемлемой частью.

Тезаурус является хранимым ресурсом информационной системы.

Во втором случае для просмотра и редактирования всех таких тезаурусов, а также его использования их для классификации и индексации других ресурсов, используются единые интерфейсы (например, предлагаемые в данной реализации). Тезаурусы могут динамически в процессе работы системы добавляться и удаляться из нее.

Источник

Контрольная работа: Информационно-поисковый тузаурус

Федеральное агентство по образованию Российской Федерации

Нижнетагильская государственная социально-педагогическая академия

Кафедра прикладной информатики

студент(ка) 531(д) ИФ (ОЗО)

1. Информационные системы

2. Информационно-поисковый тезаурус: определение, цель разработки

3. Использование информационно-поисковых тезаурусов

4. Структура информационно-поискового тезауруса

5. Построение информационно-поисковых тезаурусов

6. Сфера применения и перспективы развития информационно-поисковых тезаурусов

В настоящее время в связи с возрастанием объема документальной информации, необходимой для принятия эффективного управленческого решения, и возможностями, предоставляемыми новыми компьютерными технологиями, автоматизированные информационно-поисковые системы стали широко использоваться в различных сферах экономики.

Организация быстрого и эффективного поиска документальной информации становится все более неразрешимой проблемой.

Традиционно информационно-поисковые системы (ИПС) применяются для тематического поиска научно-технической информации в крупных библиотеках, научно-технических центрах, архивах, патентных библиотеках.

Таким образом, сфера приложения для технологий информационно-поисковых систем представляется достаточно широкой.

При автоматизации поиска документальной информации важнейшей является задача формализации содержания документа и запроса. При этом поиск происходит по всему тексту документа или по его поисковому образу, а в качестве запроса чаще всего выступают отдельные ключевые слова или их логические комбинации. Именно на этой технологии основано действие информационно-поискового тезауруса (ИПТ). Цель моей работы – дать необходимые определения, определить цели разработки ИПТ, его структуру и построение, а также значение и перспективы развития.

1. И нформационно-поисковые системы

Автоматизированный документальный поиск может быть организован на основе различных технологий: поиска по поисковому образу документа, поиска по полному тексту документа, поиска документов по гипертекстовым ссылкам.

Технология полнотекстового поиска является неотъемлемой составляющей таких современных и перспективных информационных технологий, как: системы управления документами (Documentmanagementsystem, DMS), технологии групповой работы над документами (groupware), технологии поиска в Internet/intranet. На технологии гипертекста базируется самый известный сервис InternetWorldWideWeb (WWW).

Информационно-поисковая система для управленческих документов, как правило, требует раз­работки собственного информационно-поискового языка, адекватного данной предметной области.

Важнейшей структурной составляющей является информационно-поисковый язык.

Перевод текстов документов и запросов на ИПЯ называется индексированием.

Индексирование может быть ручным (когда его производит человек) или автоматическим.

Для общения человека с компьютером разрабатываются специальные искусственные языки, естественный язык (ЕЯ) в этом качестве пока не может быть использован без специального предварительного преобразования. В естественном языке присутствуют: синонимия, омонимия и полисемия, избыточность, субъективность и другие свойства, препятствующие его автоматизированной обработке.

Искусственный язык, как правило, разрабатывается на основе ЕЯ. При этом устраняется многозначность слов ЕЯ.

Слова любого языка в процессе отображения предметов реального мира вступают между собой в определенные отношения. Эти отношения можно разделить на парадигматические и синтагматические.

Наиболее часто в качестве основания деления при классификации ИПЯ используют способ организации понятий. По способу организации понятий различают: предкоординируемые (классификационные) ИПЯ; посткоординируемые (дескрипторные) ИПЯ.

Дескрипторные языки семантически более сильны, чем классификационные, но более сложны для формальной обработки.

Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса.

2. Информационно-поисковый тезаурус: определение, цель разработки

Тезаурус – термин, широко используемый в информатике как составная часть информационно-поисковых систем.

Можно выделить два определения информационно-поискового тезауруса:

1. Информационно-поисковый тезаурус представляет собой словарь, отображающий семантические отношения между лексическими единицами дескрипторного информационно-поискового языка (дескрипторами) и предназначенный для поиска слов по их смысловому содержанию.

2. Информационно-поисковый тезаурус (ИПТ) – контролируемый словарь терминов предметной области, создаваемый для улучшения качества информационного поиска в данной предметной области.

И в том, и в другом случае речь идет о словаре, который призван облегчить поиск необходимой информации.

Возможно два способа расположения слов в словарях: по близости их буквенного состава и по смысловой близости.

Цели разработки ИПТ:

— перевод языка авторов на контролируемый язык, используемый для индексации и поиска;

— обеспечение последовательности в присваивании индексных терминов;

— обозначение отношений между терминами;

— облегчение информационного поиска.

3. Использование информационно-поисковых тезаурусов

Тезаурусы используют в своей работе специалисты, в той или иной степени связанные с подготовкой и обработкой текстовой информации: переводчики, редакторы, научные работники, референты и др.

Информационно-поисковые тезаурусы используются при индексировании документов и запросов.

Различают безтезаурусное индексирование и индексирование с тезаурусным контролем лексики.

При безтезаурусном индексировании поисковый образ документа представляется в виде списка ключевых слов, выбранных непосредственно из текста документа. Такое индексирование требует меньше времени и менее трудоемко. Однако такой режим индексирования обладает рядом недостатков: возможна синонимия; нельзя отразить парадигматические отношения.

При индексировании с тезаурусным контролем лексики для выражения содержания документа и запроса используют только дескрипторы, входящие в информационно-поисковый тезаурус, что позволяет исключить синонимию и учесть парадигматические связи, и, в конечном счете, повышает эффективность поиска.

Таким образом, информационно-поисковые тезаурусы используются для:

— перевода текста с ЕЯ на дескрипторный ИПЯ путем замены ключевых слов соответствующими дескрипторами, при этом исключается многозначность;

— отображения парадигматических связей между дескрипторами.

4. Структура информационно-поискового тезауруса

Тезаурус имеет вид словаря, в котором в определенном порядке расположены термины и зафиксированы связи между ними.

Как правило, тезаурус состоит из введения, алфавитного указателя (словарная часть) и систематического указателя.

Алфавитный указатель включает алфавитный перечень дескрипторных статей.

Дескрипторная статья может иметь следующую структуру:

— ключевые слова из класса эквивалентности;

— дескрипторы, подчиняющие заглавный;

— дескрипторы, подчиненные заглавному;

— дескрипторы, ассоциированные с заглавным.

Систематический указатель служит для раскрытия, учета и контроля парадигматических отношений между дескрипторами. Для каждого дескриптора ИПЯ должны быть найдены соответствующие родовые и видовые дескрипторы. Причем предварительно необходимо сформулировать критерии, определяющие число уровней иерархии. Определение степени отображения парадигматических отношений зависит от требований, предъявляемых к системе. Чем шире эти отношения отображены, тем выше полнота выдачи, но одновременно происходит увеличение словарного запаса, усложняется система ссылок и может произойти уменьшение точности поиска.

5. Построение информационно-поисковых тезаурусов

Тезаурусы разрабатываются для отдельных отраслей. Например, существует «Тезаурус по документации», «Дескрипторный словарь по информатике» и т.п. Тезаурус может быть разработан и для обслуживания конкретной информационно-поисковой системы.

Построение тезауруса состоит из нескольких взаимосвязанных этапов.

Критерием включения слов в класс эквивалентности является семантическая значимость этого слова при поиске документов, т.е. если данное слово при поиске документа может быть заменено другим словом, так, что на любой запрос выдача документов будет такой же, как и до замены, то такие два слова объявляются условными эквивалентами и включаются в один класс эквивалентности. Ключевые слова, относящиеся к одному классу эквивалентности, помещаются в соответствующую дескрипторную статью и помечаются символом «с».

В процессе построения тезауруса и выделения множества дескрипторов происходит устранение синонимии, омонимии, полисемии ключевых слов, а также выявление парадигматических связей между дескрипторами.

В ЕЯ многие слова могут быть правильно истолкованы только с учетом контекста. В ИПЯ для правильной трактовки ключевых слов необходимы средства для исключения многозначности трактования слов.

Для устранения многозначности (омонимии и полисемии) ключевое слово, которое можно неоднозначно трактовать, снабжается пометой, в которой указывается в каком значении данное ключевое слово используется в ИПЯ.

Большинство автоматизированных методов создания тезауруса основано на автоматическом подсчете частоты слов, содержащихся в документах, считающихся типичными для данной предметной области. Результаты такой обработки обычно представляются в виде матрицы «документ-термин», (рис.1). Элемент матрицы на пересечении строки и столбца, трактуется как вес слова в документе. На основе полученной матрицы вычисляются коэффициенты подобия между словами, определяемые в зависимости от частоты, с которой слова совместно встречаются в анализируемых документах, и формируется структура тезауруса.

Название: Информационно-поисковый тузаурус
Раздел: Рефераты по информатике, программированию
Тип: контрольная работа Добавлен 09:47:34 27 июля 2009 Похожие работы
Просмотров: 1070 Комментариев: 20 Оценило: 3 человек Средний балл: 5 Оценка: неизвестно Скачать
ДокументыЧастота слова в документе
1234567
D1 D2 D3 D4

Рис.1. Пример матрицы «термин-документ»

Автоматические информационно-поисковые тезаурусы являются составным элементом систем автоматического индексирования документов и запросов. В словарной статье автоматического тезауруса, как правило, зафиксированы отношения условной эквивалентности (синонимии), отношение подчинения и ассоциативные отношения.

6. Сфера применения и перспективы развития информационно-поисковых тезаурусов

В настоящее время происходит расширение сфер применения автоматических тезаурусов. При этом тезаурусы выступают составной частью современных систем подготовки текстов, осуществляя лингвистическую поддержку процесса подготовки и обработки текстов на естественном языке.

Среди наиболее перспективных направлений развития автоматических тезаурусов можно указать следующие:

1. Получение справки по используемому слову. Указав слово, в качестве ключа для запроса, пользователь в ответ получает соответствующий фрагмент словаря, содержащий лингвистическую информацию о данном слове. Например, автоматический тезаурус получает от пользователя некоторое существительное и в ответ выдает совокупность устойчиво сочетающихся с ним глаголов или все наиболее часто сопровождающие его определения. При этом автоматически выполняется процедура нормализации входного слова (т.е. приведение существительного к именительному падежу).

2. Контекстные замены по требованию пользователей. В данном случае тезаурус не только подбирает вместо одного словосочетания другое, которое пользователь счел более соответствующим контексту по смысловым или стилистическим соображениям, но и автоматически переоформляет параметры слов (например, род прилагательного) в соответствии с контекстом. Это означает, что синтаксические операции, производимые тезаурусом, существенно усложняются.

3. Автоматическая оценка стиля. Если слова и словосочетания в тезаурусе снабдить стилистическими пометками, то он может использоваться для стилистической оценки текста с выделением слов и словосочетаний, выпадающих, из общего стиля документа.

В условиях конкурентной борьбы, необходимости постоянного повышения качества работы органа управления и всего предприятия в целом на руководителя обрушивается мощный поток информации, прежде всего документальной, и у него возникают проблемы с ее переработкой. Необходимы специальные методы информационной обработки документов, организации быстрого и эффективного поиска документальной информации. Именно информационно-поисковые тезаурусы служат решению этой проблемы.

Считаю, что в моей работе достаточно подробно и логично изложены способы использования и построения информационно-поискового тезауруса, а также сфера его применения и перспективы развития.

1. Ивасенко А.Г. Информационные технологии в экономике и управлении: учебное пособие / А.Г.Ивасенко, А.Ю.Гридасов, В.А.Павленко.- 2-е изд., стер.- М.: КНОРУС, 2007.- 160с.

2. Информатика для юристов и экономистов / Симонович С.В. и др.- СПб.: Питер, 2001.- 688с.: ил.

3. Информатика: Базовый курс/С.В.Симонович и др.- СПб.: Питер, 2002.- 640с.: ил.

4. Михеева Е.В. Информационные технологии в профессиональной деятельности: учебное пособие.- М.: ТК ВЕЛБИ, Изд-во Проспект, 2007.- 448с.

5. Организация работы с документами: Учебник / Под ред.проф.В.А.Кудряева.- 2-е изд., перераб. и доп.- М.: ИНФРА-М, 2001.- 592с.- (Серия «Высшее образование»).

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *