Delphi. Текст. Стеммер Портера для русского языка

На предыдущую страницу…

Среда: Delphi 10.2 Tokyo


Стеммер Портера — алгоритм стемминга, опубликованный Мартином Портером в 1980 году. Оригинальная версия стеммера была предназначена для английского языка и была написана на языке BCPL (см. Википедия).

Стемминг (англ. stemming — находить происхождение) — это процесс нахождения основы слова для заданного исходного слова. Основа слова не обязательно совпадает с морфологическим корнем слова (см. Википедия).

Стеммер Портера используется при обработке текстов на естественных языках.
Преследуемые цели (в том числе):
  нечеткое сравнение текстов;
  интеллектуальный поиск и выделение информации в текстах;
  латентно-семантический анализ текстов;
  построение онтологических связей в области знаний на основании поиска и анализа текстовых ссылок
  и другие...

Исходные тексты соответствующих функций (где реализован алгоритм Стеммера Портера для русского языка), включая и конкретный пример, см. здесь (zip-архив).

Функционал содержится в файлах:
__PS_rus.pas
__PS_rus_add.pas

Информация и львиная часть исходников (для этого примера) была взята отсюда:
http://saxmms.blogspot.com/2010/12/delphi.html


На предыдущую страницу…


Дата: 09.12.2021