19 septembre 2024
Le NLP est un sous-domaine de la linguistique, de l’informatique et de l’intelligence artificielle.

Définition

Le NLP est un sous-domaine de la linguistique, de l’informatique et de l’intelligence artificielle. Il s’agit du traitement de la langue, des mots et de la parole, par un ordinateur.

Il s’agit de développer des interactions entre les ordinateurs et le langage humain, et surtout de programmer les ordinateurs pour traiter et analyser de grandes quantités de données en langage naturel.

Grâce au NLP, une machine peut « comprendre » le contenu des documents, y compris les nuances contextuelles de la langue qui les constitue. Une machine peut également extraire des informations contenues dans les documents ainsi que catégoriser et organiser les documents eux-mêmes.

L’analyse de sentiments

L’analyse de sentiment (ou sentiment analysis) vise donc à déterminer la tonalité émotionnelle d’un discours en le classifiant dans différentes catégories comme positif, négatif ou neutre par exemple. Elle permet de mesurer le niveau de satisfaction des clients vis-à-vis des produits ou services fournis par une entreprise ou un organisme. Elle peut même s’avérer bien plus efficace que des méthodes classiques comme les sondages.

Reconnaissance d’entités

Les entités nommées (Named Entities) sont des objets qui existent dans le monde réel. Des exemples d’objets peuvent être le nom de toute personne, lieu ou chose qui peut être représenté dans n’importe quelle donnée avec son nom propre. Des exemples d’entités nommées sont Jean Martin, Paris, etc. ou tout ce qui peut avoir un nom, une référence…

La reconnaissance d’entités nommées ou NER consiste à reconnaître des entités nommées dans un corpus (ensemble de textes) et de leur attribuer une étiquette telle que « nom », « lieu », « date », « email », etc. Si le NER désigne au départ l’extraction de noms propres, de noms de lieux et de noms d’organisations, ce concept s’est étendu à d’autres entités telles que la date, le courriel, le montant d’argent, etc. Dans bien des cas, il est utilisé pour extraire des termes propres à un domaine comme le numéro IBAN pour la gestion des paiements bancaires ou l’extraction de noms de gènes dans le domaine biomédicale.

Détection des PII

Les informations personnellement identifiables (PII) sont toutes les entités/données qui peuvent être utilisées pour identifier une personne, telles que les noms, le numéro de permis de conduire, les SSN, les numéros de compte bancaire, les numéros de passeport, les adresses électroniques, etc. De nombreuses réglementations, du RGPD à l’HIPPA, exigent une protection stricte de la confidentialité des utilisateurs.

Classification de texte

Cela consiste à attribuer un ensemble de catégories prédéfinies à un texte donné. Les classificateurs de texte peuvent être utilisés pour organiser, structurer et catégoriser un ensemble de textes.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *