diff --git a/README.md b/README.md index 6dd321c4e6cd4d1d78dbaf18bb193da0ccb05a9b..e200d479f100651a7d91208e7a5905811dbbcecd 100644 --- a/README.md +++ b/README.md @@ -37,11 +37,11 @@ Analyser le titre et la liste d’ingrédients à l’aide d’un modèle NLP ou ## Description de la tâche -La tâche consiste à classifier des documents textuels en fonction de leur contenu. L'objectif est de prédire une catégorie donnée en s'appuyant sur des descripteurs textuels et des méthodes d'apprentissage automatique. +La tâche consiste à classifier des documents textuels en fonction de leur contenu. L'objectif de la tâche à effectué est de trouver automatiquement en fonction du titre et des instructions d'une recette s'il s'agit d'un Plat principal, une Entrée ou bien un Dessert. Vous avez à votre disposition un corpus de recettes de cuisines séparé en ensemble d'entrainement et de test. Exemple de documents : -Dans les documents csv, on peut trouver ces lignes de données : +Dans les documents csv, on peut trouver ce genre de lignes de données : - **recette_26585** : Croissants aux amandes, Dessert, Moyennement difficile, moyen, "- 250g de farine, ...", "La veille, préparer..." - **recette_65190** : Quiche tomates, mozza, pancetta et pesto, Plat principal, Très facile, Bon marché, "- une pâte feuilletée, ...", "Préchauffer le four à 200°C..." @@ -49,12 +49,12 @@ Dans les documents csv, on peut trouver ces lignes de données : ## Statistiques corpus - **Nombre de documents** : - - Train : XXXX - - Test : XXXX -- **Répartition des étiquettes** : - - Catégorie A : XX% - - Catégorie B : XX% - - Catégorie C : XX% + - Train : 12474 + - Test : 1388 +- **Répartition des classes** : + - Classe Dessert : ~29% + - Classe Entrée : ~24% + - Classe Plat principal : ~47% ## Méthodes proposées @@ -147,8 +147,5 @@ Bon score global, mais une confusion non négligeable avec la classe **Entrée** #### 4. Quels sont les descripteurs les plus décisifs ? -On affiche les poids des features dans le modèle SVM. - - Interprétation :