Mesures de Qualité pour la Fouille de Données

H. Briand, M. Sebag, R. Gras, Fabrice Guillet. Mesures de Qualité pour la Fouille de Données. Volume E1 of revue Nationale des Technologies de l'Information (RNTI), Cépaduès, 2004.

Abstract

La fouille de données est considérée (MIT Technology Review, 2001) comme l’une des dix technologies émergentes du XXIe siècle.

Cette discipline vise à exploiter les amoncellements de données électroniques disponibles partout où l’informatique est présente, des supermarchés aux banques, des hôpitaux aux laboratoires scientifiques, en passant par les secteurs industriels et l’agroalimentaire. Ces données sont vues comme les traces de connaissances ou de modèles : les préférences et les habitudes des clients, les tempéraments et les pathologies des humains, les phénomènes physiques ou les logiciels de calcul, les biais des machines et les savoir-faire des opérateurs. Reconstituer les connaissances à partir des données, tel est l’objectif de la fouille de données. Pratiquement, l’exploitation des données permet de construire des hypothèses. Que ces hypothèses soient ou non reconnues comme des connaissances dépend de plusieurs facteurs : leur validité ou efficacité prédictive, leur intelligibilité, leur nouveauté, et enfin, le fait que l’expert puisse s’en servir à ses fins. Or, une des caractéristiques essentielles de la fouille de données et de l’apprentissage artificiel, est qu’un très grand nombre d’hypothèses est en général compatible avec les données existantes. La question se pose donc de les évaluer, de les ordonner, et plus généralement de permettre à l’expert de naviguer commodément parmi ces hypothèses. Ainsi, l’une des tâches de la fouille de données constitue à élaborer des mesures permettant d’évaluer la qualité des hypothèses extraites. Les questions posées sont de plusieurs natures : s’agit-il de qualité subjective ou objective? La qualité des résultats dépend évidemment de la qualité des données initiales ; comment peut-on évaluer la qualité des données? La qualité des résultats dépend également des algorithmes utilisés ; peut-on évaluer la qualité d’un algorithme en fonction des caractéristiques des données? (Ce qui nous conduirait à la question débattue du méta-apprentissage, déterminer le meilleur algorithme d’apprentissage pour une application donnée).Et enfin, comment comparer deux hypothèses?

Dans ce numéro spécial, le lecteur trouvera un recueil de travaux récents proposant un état de l’art sur la mesure de qualité en fouille de données. On y présente des éléments de définition de la notion de qualité, des mesures pour l’évaluation de la qualité des données, des règles d’association, des arbres de décision, des règles floues, des règles redondantes, des règles d’exception, ainsi que des études comparatives sur la résistance au bruit, la validation et l’analyse multicritères.