Принципы автоматического индексирования и реферирования.

Индексирование документа - это процедура отображения текста документа в определенную форму, созданную для автоматической обработки (индекс документа).
Различают ручное и автоматическое индексирование. При ручном индексировании этот процесс производит информационный работник. На базе анализа содержания документа спец показывает текст документа в набор ключевиков либо дескрипторов. Преимущество ручного индексирования состоит в его Принципы автоматического индексирования и реферирования. качестве, недочетом является низкая производительность и, как следует, высочайшая цена. Не считая того, при ручном индексировании полностью вероятна ситуация, когда один и тот же документ, обработанный разными спецами, может получить разные индексы.2) При автоматическом индексировании (АИ) индексирование осуществляется it системой. Формально текст документа представляет собой огромное количество знаков, разбитых пробелами Принципы автоматического индексирования и реферирования.. Эти отрезки текста именуют словоформами. Основная задачка автоматического индексирования состоит в распознавании в словоформе соответственного словарного слова. С этой целью употребляют автоматический морфологический анализ текста.
Морфологический анализ текста - анализ структур словоформ, рассматриваемых изолированно с целью определения принадлежности словоформы слову.
Задачками морфологического анализа текста являются:

· выделение из текста словоформ;

· определение слов Принципы автоматического индексирования и реферирования. либо их сочетаний;

· нормализация словоформ (приведение слова к словарному виду);

· определение грамматических признаков словоформ (часть речи, падеж и т.п.).

Грамматические признаки, приписываемые в итоге морфологического анализа, могут употребляться на последующих шагах обработки начального текста.
Для анализа текста в системах АИ употребляются разные автоматические словари, которые можно поделит на Принципы автоматического индексирования и реферирования. два типа:1) словари, применяемые для определения словоформ и их нормализации (словарь словоформ, словарь основ слов, словарь окончаний, словарь словосочетаний). Словарь словосочетаний содержит устойчивые последовательности слов. Считается, что в развитом языке насчитывается 10-ки миллионов понятий, а слов — около миллиона. Потому большая часть понятий выражена комбинациями слов.2) информационно-поисковые тезаурусы, которые Принципы автоматического индексирования и реферирования. содержат информацию об отношениях условной эквивалентности, отношениях подчинения и ассоциативных отношениях меж словами.
В неких системах АИ заместо словарей для нормализации слов употребляются методы, созданные для преобразования слов в разные грамматические формы. При всем этом исчезает необходимость вносить в словарь все вероятные формы слов, миниатюризируется объем словарей, возрастает Принципы автоматического индексирования и реферирования. эффективность поиска, потому что в тексте могут быть найдены все грамматические формы слова, данного в запросе.
Сложность формальной обработки текста на ЕЯ состоит сначала в том, что текст нельзя представить как ординарную совокупа слов, имеющих тот либо другой смысл. Большая толика смысла текста содержится не в самих словах, а в отношениях Принципы автоматического индексирования и реферирования. меж словами. Потому для более полного и четкого определения смысла текста в развитых системах АИ кроме морфологического анализа осуществляется и автоматический синтаксический анализ текста.
Синтаксический анализ текста представляет собой исследование структуры предложения текста с целью установления синтаксических связей меж членами предложения. В процессе синтаксического анализа употребляются результаты морфологического Принципы автоматического индексирования и реферирования. анализа. Основой для разработки способов синтаксического анализа систем АИ являются исследования в области математической лингвистики и опыт сотворения, систем машинного перевода.
Результаты синтаксического анализа текста обычно представляются в виде дереву отношений меж словами с указанием их типов. К примеру, для российского языка различают до 50 типов отношений меж Принципы автоматического индексирования и реферирования. словами.
Сначала 90-х гг. появились другие, другие технологии автоматического индексирования текста. К примеру, разработка “адаптивного определения образов”, при которой любая словоформа представляется в виде собственного двоичного кода, который является ее “образом”. При всем этом становится вероятен так именуемый нечеткий поиск, при котором можно игнорировать опечатки и преломления слов.

· Преимуществом этой технологии является Принципы автоматического индексирования и реферирования. существенное ускорение индексирования и поиска инфы, минимизация объема индекса.

· Недочетом - понижение полноты и точности поиска вследствие отсутствия семантического анализа текста, который в особенности важен в случае российского языка.

Для выбора из огромного количества слов текста информативных ключевиков в системах АИ используются способы статистического анализа текста. Как демонстрируют Принципы автоматического индексирования и реферирования. исследования, в ЕЯ наблюдается тенденция повторять старенькые слова, а не использовать новые, так что 70% словоупотреблений приходится на 20% слов.
В базе статистических способов анализа текста лежит мысль о способности использования числовых характеристик для оценки информативности лексических единиц, составляющих текст. Считается, что как очень редчайшие, так и очень нередко встречаемые определения не могут Принципы автоматического индексирования и реферирования. употребляться в качестве информативных слов, а пик информативности приходится на слова со средней частотой встречаемости.
При статистическом анализе текста рассчитывают разные количественные оценки:

· число вхождений слова в документ;

· общее число вхождения слова в документы,

· относительная частота вхождения слова в документ и др.

Статистические способы комфортны тем, что позволяют Принципы автоматического индексирования и реферирования. автоматом, средством довольно обычных операций, получить сведения о данной лексической единице в документе либо массиве документов. B тоже время внедрение только статистических способов при определении информативности слов не всегда приводит к адекватным результатам. К примеру, удаление нередко встречающихся определений уменьшает полноту, а удаление изредка встречающихся определений понижает точность поиска Принципы автоматического индексирования и реферирования.. Потому статистические способы не могут полностью оценить информативность слов текста, а ручное индексирование по качеству всегда будет превосходить автоматическое.
В современных информационно-поисковых системах нередко предвидено и ручное и автоматическое индексирование.

Автоматическое реферирование (Automatic Text Summarization) - это составление маленьких изложений материалов, инстракций либо дайджестов, т.е. извлечение более Принципы автоматического индексирования и реферирования. принципиальных сведений из 1-го либо нескольких документов и генерация на их базе лаконичных отчетов.
Существует много путей решения этой задачки, которые достаточно верно разделяются на два направления - квазиреферирование и короткое изложение содержания первичных документов.
Квазиреферирование основано на экстрагировании фрагментов документов - выделении более информативных фраз и формировании из их квазирефератов.
В Принципы автоматического индексирования и реферирования. рамках квазиреферирования выделяют три главных направления, которые в современных системах используются вместе:
- статистические способы, основанные на оценке информативности различных частей текста по частоте возникновения, которая служит главным аспектом информативности слов, предложений либо фраз;
- позиционные способы, которые опираются на предположение о том, что информативность элемента текста находится в зависимости от Принципы автоматического индексирования и реферирования. его позиции в документе;
- индикаторные способы, основанные на оценке частей текста, исходя из наличия в их особых слов и словосочетаний - маркеров значимости, которые охарактеризовывают их содержательную значимость.
Определение веса фрагментов (предложений либо абзацев) начального текста производится в согласовании с методами, которые стали уже классическими. Общий вес текстового блока при всем Принципы автоматического индексирования и реферирования. этом определяется по формуле:
Weight = Location + KeyPhrase + StatTerm
Слагаемое Location определяется расположением блока в тексте и находится в зависимости от того, где возникает данный кусок - сначала, посреди либо в конце, также употребляется ли он в более принципиальных с содержательной точки зрения разделах текста, к примеру, в выводах.
Главные фразы Принципы автоматического индексирования и реферирования. (KeyPhrase) представляют собой конструкции-маркеры, которые резюмируют содержание, типа "в заключение", "в данной статье", "в итоге анализа" и т.п. Весовое значение слагаемого KeyPhrase может зависеть также от оценочного термина, к примеру, "хороший".
Статистический вес текстового блока (StatTerm) рассчитывается как нормированная по длине блока сумма весов входящих в Принципы автоматического индексирования и реферирования. него слов и словосочетаний.
После выявления определенного (задаваемого, обычно, коэффициентом нужного сжатия) количества текстовых блоков с наивысшими весовыми коэффициентами, они соединяются воединыжды для построения квазиреферата.
Преимущество способов квазиреферирования заключается в простоте их реализации. Но выделение текстовых блоков, не учитывающее отношений меж ними, нередко приводит к формированию несвязных рефератов. Некие Принципы автоматического индексирования и реферирования. предложения возможно окажутся пропущены, или в их могут встречаться слова либо фразы, которые нереально осознать без предыдущего пропущенного текста. Пробы решить эту делему, в главном сводятся к исключению таких предложений из рефератов. Пореже делаются пробы разрешения ссылок при помощи способов лингвистического анализа.
Короткое изложение содержания первичных документов основывается Принципы автоматического индексирования и реферирования. на выделении из текстов более принципиальной инфы и порождении новых текстов, содержательно обобщающие первичные документы. В отличие от частотно-лингвистических способов, обеспечивающих квазиреферирование, подход, основанный на базах познаний, опирается на автоматизированныйкачественный контент-анализ, состоящий, обычно, из 3-х главных стадий:
Первая- сведение начальной текстовой инфы к данному числу фрагментов - единиц значения, которыми являются Принципы автоматического индексирования и реферирования. категории, последовательности и темы.
На 2-ой стадии делается поиск постоянных связей меж единицами значения, после этого начинается 3-я стадия - формирование выводов и обобщений. На этой стадии создается структурная инструкция, представляющая содержание текста в виде совокупы концептуально связанных смысловых единиц.
Семантические способы формирования рефератов-изложений подразумевают два Принципы автоматического индексирования и реферирования. главных подхода:
- способ синтаксического разбора предложений и способы, опирающиеся на осознание естественного языка. В первом случае употребляются деревья разбора текста. Процедуры автоматического реферирования манипулируют конкретно деревьями, выполняя перегруппировку и сокращение веток на основании соответственных критериев. Такое упрощение обеспечивает построение реферата - структурную "выжимку" начального текста.
- 2-ой подход основывается на системах искусственного Принципы автоматического индексирования и реферирования. ума, в каких также на шаге анализа производится синтаксический разбор текста, но синтаксические деревья не порождаются. В данном случае формируются семантические структуры, которые скапливаются в виде концептуальных подграфов в базе познаний. А именно, известны модели, дозволяющие создавать реферирование текстов на базе психических ассоциаций сходства и контраста. В базах познаний лишная Принципы автоматического индексирования и реферирования. и не имеющая непосредственного отношения к тексту информация устраняется методом отсечения неких подграфов. Потом информация подвергается агрегированию способом слияния оставшихся графов либо их обобщения. Для выполнения этих преобразований производятся манипуляции логическими догадками, выделяются определяющие шаблоны в текстовой базе познаний. В итоге преобразования формируется концептуальная структура текста - инструкция, т.е Принципы автоматического индексирования и реферирования.. концептуальные "выжимки" из текста.
Многоуровневое структурирование текста с внедрением семантических способов позволяет подходить к решению задачки реферирования методом:
- удаления малозначащих смысловых единиц. Преимуществом способа является гарантированное сохранение означающей инфы, недочетом - низкая степень сжатия, т.е. сокращения объема реферата по сопоставлению с первичными документами;
- сокращения смысловых единиц - подмена Принципы автоматического индексирования и реферирования. их основной лексической единицей, выражающей основной смысл;
- гибридного метода, заключающегося в уточнении реферата при помощи статистических способов, с внедрением семантических классов, особенностей контекста и синонимических связей.
Есть общедоступные программки квазиреферирования, к примеру, в состав сервисных способностей системы Microsoft Word заходит режим «Автореферат».



princip-podrazdeleniya-v-iskusstve.html
princip-postepennogo-narashivaniya-razvivayushe-treniruyushih-vozdejstvij.html
princip-povtora-lotman-yu-m-struktura-hudozhestvennogo-teksta.html