/ telegram

NLP

Посматриваю на NLP, пока самые основы, вот список основных основных понятий. Несколько услышал впервые:

Natural Language Processing (NLP) - обработка естественных языков, по-простому это область обработки текстов и языка, как есть в сыром виде. Всё что связано с натуральным текстом и пониманием его смысла, часть NLP.

Information Extraction - извлечение информации. Извлечение структурированной информации из неструктурированных текстовых источников.

Named Entity Recognition (NER) - распознавание именованных сущностей. Выявление по описанию сущностей, о которых идёт речь (фирм, названий мест и т.д.)

Corpus (Corpora) - корпус - это большая коллекция документов, которые могут быть использованы для обучения и проверки некоторых лингвистических правил

Sentiment Analysis - извлечение субъективной информации о каком-то товаре или услуге. Извлечение реакции аудитории на какой-то объект из комментариев, новостей, постов в соц. сетях

Word Sense Disambiguation - устранения двусмысленности. Ну например алгоритм должен понимать что значит слово apple, фрукт или компанию, в зависимости от контекста.

Bag of Words - способ кодирования текста в виде вектора. Например можно использовать для классификации текста.

Explicit Semantic Analysis (ESA) - используется для извлечения информации, классификации документов, и семантических связей между документами.

Latent Semantic Analysis (LSA) - процесс анализа связей между документами по терминам, которые они содержат. Основано на идеи, что слова, которые близки по значению появляются в похожих участках текста.

Latent Dirichlet Allocation (LDA) - подход для моделирования тем, основан на предпосылке, что каждый фрагмент текста представляет собой набор небольшого количества тем и что каждое слово в документе относится к одной из тем.

https://www.datasciencecentral.com/profiles/blogs/10-common-nlp-terms-explained-for-the-text-analysis-novice

NLP
Share this

Subscribe to Yet another blog