/ telegram

Библиотеки для NLP

В дополнение к посту выше, набор библиотек для работы с текстом:

https://spacy.io/ - хорошая библиотека для работы с текстом, во многом превосходит аналоги, но не так много языков поддерживает из коробки

https://textacy.readthedocs.io/en/latest/ - дополнение к spacy, поможет с извлечением фактов из текста

https://github.com/huggingface/neuralcoref - дополнение к spacy поможет с разрешением кореференций

https://www.nltk.org/ - самая известная библиотека обработки языков для python

https://radimrehurek.com/gensim/ - просто замечательная библиотека, их слоган topic modeling for humans, от части так и есть. Вы легко можете загрузить готовые обученные word2vec вектора и найдёте большое число полезных функций.

Как преобразовать текст в числа? Здача не простая, но есть решения:

https://nlp.stanford.edu/projects/glove/ - здесь вы найдёте обученные вектора на разных корпусах и можете воспользоваться кодом на github, чтобы обучить свои

https://fasttext.cc/ - замечательная библиотека, и хорошо обученные вектора для разных языков

Читать в телеграм: https://t.me/tj4me/64

Библиотеки для NLP
Share this

Subscribe to Yet another blog