Classifications Automatisées - IA pour la Classification d'Articles de Presse

Cet article traite de la mise en œuvre de mon projet de classification par IA utilisant des algorithmes de tri et de classification.

Cover du projet

Vue d'ensemble du Projet

Nous avons développé une intelligence artificielle pour classifier des articles de presse en fonction de leurs catégories (Politique, Sport, Culture, etc.). GitHub a été utilisé pour la collaboration en groupe.

Image de la structure de mon code

Pour y parvenir, nous avons dû appliquer plusieurs principes algorithmiques (Recherche binaire et séquentielle, Tri fusion) appris en début d'année. Nous devions respecter les contraintes de performance et de coût énergétique afin d'optimiser les performances de notre application.

Image de la complexité de l'algorithme

Méthode utilisée

Pour classifier les dépêches, un lexique spécifique à chaque catégorie est d’abord construit en deux phases :

Initialisation : on parcourt toutes les dépêches déjà étiquetées pour la catégorie cible, on compte l’apparition de chaque mot, puis on rescane l’ensemble des dépêches pour ajuster ces compteurs : on incrémente pour les occurrences dans la même catégorie, on décrémente pour celles dans d’autres catégories.
Pondération : chaque score net de mot est converti en poids discret (0 à 3) selon des seuils, et seuls les mots à poids > 0 sont conservés dans le lexique final.

Lors de la classification proprement dite, chaque lexique est chargé par une instance Categorie, qui parcourt les mots d’une dépêche et cumule leur poids pour produire un score total. La dépêche est alors affectée à la catégorie dont le score est le plus élevé. Le tri fusion accélère les recherches de mots dans le lexique, garantissant une exécution rapide même sur de gros volumes de texte.

Résultats du Projet

L’analyse comparative des méthodes de recherche et de tri a mis en évidence des écarts significatifs en termes de performances, soulignant l’importance du choix algorithmique selon les contraintes du problème.

Notre système a atteint un taux de classification supérieur à 50 % sur un échantillon de 21 dépêches, ce qui valide la pertinence de l’approche lexicale malgré ses limites. Des améliorations sont envisageables, notamment par l’utilisation de modèles plus avancés, tels que les réseaux de neurones entraînés sur de grandes bases de données via des algorithmes de rétropropagation ou de descente de gradient.

L’ensemble du travail a été présenté lors d'une démonstration et formalisé dans un rapport en anglais soumis à l’équipe enseignante.

Note finale : 17/20

Classifications Automatisées - IA pour la Classification d'Articles de Presse

Vue d'ensemble du Projet

Méthode utilisée

Résultats du Projet

SZ