/ telegram

Stemming

При обработке естественных языков возникает множество проблем. Например не мало сложности доставляют разные формы слов, окончания и суффиксы. Если мы пытаемся классифицировать текст, то разные формы слова вызывают проблемы, т.к. по факту одно и то же слово может иметь много разных форм, но при этом нужно учитывать все его появления независимо от формы.

Помните как в школе нас заставляли находить основу слова? Так вот Stemming (Сте́мминг) это и есть выделение основы слова.

пример:

знаменитый цикл научной фантастики

после обработки

знаменит цикл научн фантастик

Вообще тема довольно старая, и уже у 60-х начали появляться первые работы. И сейчас достаточно много алгоритмов для разных языков (да, по факту не получается использовать один подход для английского и русского).

Классическое применение - поиск. Там не так важны формы слова, куда важнее найти совпадения по запросу независимо от формы слова. Тут конечно сразу же напрашивается ещё несколько проблем, что нужно учитывать синонимы и контекст..

Поиграться с разными алгоритмами можно здесь http://text-processing.com/demo/stem/

Про разные алгоритмы расскажу в другой раз.

Читать в телеграм: https://t.me/tj4me/31

Stemming
Share this

Subscribe to Yet another blog