Введение Python spacy

04 Окт 2019 , 1585

В этой статье речь будет идти о замечательной библиотеке spacy

Возможности

Токенизация

Разделение текста на слова, знаки препинания и т.д.

Part-of-speech (POS) Tagging

Присвоение типов слов токенам, таким как глагол или существительное

Анализ зависимостей

Назначение синтаксических меток зависимостей, описывающих отношения между отдельными токенами, такими как субъект или объект..

Лемматизация

Процесс приведения словоформы к лемме - ее нормальной словарной форме

Для английского слова "was" леммой является "be", а для слова "rats" леммой является "rat" В русском языке нормальной формой для существительного является именительный падеж в единственном числе. Например, кошки - кошка , собаки- собака Для прилагательного нормальной формой является именительный падеж, единственное число, мужской род; бежал → бежать

Отличие лемматизации от стемминга можно ярко проследить на следующем примере:

«Caring» -> Лемматизация -> «Care»

«Caring» -> Стемминг -> «Car»

Сте́мминг — это процесс нахождения основы слова для заданного исходного слова. Основа слова не обязательно совпадает с морфологическим корнем слова.

Sentence Boundary Detection (SBD)

Поиск и сегментирование отдельных предложений.

Named Entity Recognition (NER)

Маркировка именованных объектов «реального мира», таких как люди, компании или места.

Связывание сущностей(EL)

Устранение неоднозначности текстовых объектов с уникальными идентификаторами в Базе знаний.

Сходство

Сравнивая слова, текстовые промежутки и документы и насколько они похожи друг на друга.

Классификация текста

Назначение категорий или меток всему документу или частям документа.

Соответствие на основе правил

Поиск последовательностей токенов на основе их текстов и лингвистических аннотаций, аналогичных регулярным выражениям.

Обучение

Обновление и улучшение прогнозов статистической модели.

Сериализация

Сохранение объектов в файлы или в байтовые строки.

Заключение

В этой статье были перечислены основные возможности библиотеки spacy

comments powered by Disqus

Подписка

Подпишитесь на наш список рассылки, чтобы получать обновления из блога

Рубрики

Теги