Représentation des Données et des Connaissances (RDC'05)

21 Mars 2005

Titre et résumé des interventions



"Les données ne sont pas données : réflexions sur les processus de production d'information" par Pascal Rivière (INSEE)

Accès aux transparents de cette conférence

La riche littérature sur les bases de données aborde de multiples questions : modélisation (conceptuelle, logique, physique), analyse fonctionnelle en vue de spécifier la base, langages de requête, outils de conception, de développement, ... mais un sujet se révèle très peu présent : comment sont obtenues les données en question ? Cette lacune est tout aussi frappante dans la plupart des cours de statistique, où l'on raisonne sur des "xi", "yj", "zk" dont on ne se soucie pas vraiment de la provenance.
Or dans les faits, lorsqu'elle s'effectue en masse, cette fabrication des données résulte d'un processus complexe et méconnu, semé de failles et d'embûches, et que l'on ne peut négliger lorsqu'il s'agit de représenter les connaissances. Notre propos est de le présenter au travers du cas des données statistiques, en mettant en évidence les principales étapes, les types de données qui interviennent, et les conséquences sur le contenu des bases de données.
En quoi consiste la production de données statistiques ? En simplifiant quelque peu, ce processus de production assure la fabrication d'une matrice de données dont les lignes seraient les unités statistiques (ex : entreprises, établissements, individus) et dont les colonnes seraient les variables à mesurer. Pour cela, plusieurs étapes sont nécessaires : expression du besoin, constitution de la base de sondage, tirage de l'échantillon, mise au point du support de questionnement, préparation de la collecte, collecte proprement dite, saisie - mise au format, codage des libellés, calcul de variables dérivées, vérification - apurement, traitements automatiques finaux (traitement des réponses manquantes et agrégation statistique). Dès lors, dans les bases de données associées, on trouve des données de natures très diverses : variables collectées, dérivées directement de la collecte, provenant d'une source d'information externe ; variables de gestion du processus (ex : le fait qu'un individu ait répondu ou non) ; métadonnées (ex : date d'obtention d'une information).
Cette production s'appuie elle-même sur deux types de socles fondamentaux ou "référentiels" : les répertoires (ex : le répertoire d'entreprises Sirene), qui découlent d'un processus complexe et permanent de mise à jour ; et les nomenclatures (ex : la nomenclature d'activités française), qui fournissent un découpage en catégories de sens, en intention, et nécessitent un travail de conception et de mise à jour régulière pour tenir compte des évolutions du monde réel. Sans répertoire, pas de population de référence pour échantillonner, sans nomenclatures, pas de questionnement efficace possible.
L'importance des référentiels n'est pas spécifique à la statistique, dont le mode d'obtention ne fait ici qu'illustrer une question plus générale : lorsqu'il s'agit de produire de façon industrielle des quantités importantes de données, une organisation rationnelle et cohérente de l'ensemble de ces flux est indispensable pour avoir un minimum de maîtrise de l'ensemble, car les données subissent de multiples transformations qui sont autant de sources d'erreur. Elles sont d'autant plus délicates à traiter qu'il faut souvent, dans de tels processus, interpréter, modéliser le réel, ce qui est toujours sujet à caution ; or rien ne permet de garantir la validité des interventions humaines fondées sur l'interprétation, étant donné l'absence d'un référentiel absolu. Les erreurs dans les bases de données sont ainsi un phénomène inévitable : dans une optique qualité, il s'agit plus d'en contrôler l'ampleur et l'impact que de chercher vainement à les éradiquer.$


"Le tableau de données, une structure unique, des réalités multiples" par Yves Lechevallier (INRIA Rocquencourt)

Accès aux transparents de cette conférence

L’analyse de données a pour objectif d’extraire d’une grande masse de données des informations utiles. A première vue, cette grande masse de données parait être un ensemble assez informe mais s’appuie sur une structuration des données qui paraît intuitive, c’est la représentation matricielle, celle que l’on retrouve dans les tableurs (Excel par exemple) ou comme des vues dans les bases de données. Ce tableau de données permet de mettre en correspondance deux ensembles ayant une sémantique différente. Les étapes préliminaires à une analyse de données sont la définition des deux ensembles qui seront mis en relation, l’ensemble des individus et l’ensemble des variables, puis la construction d’un tableau de données qui se déduit de la définition de l’ensemble des individus et de l’ensemble des variables. Par des exemples de tableaux de données nous montrerons les différentes correspondances que l’on peut construire. Bien que la structure « informatique » soit identique, ces tableaux de données représenteront des modèles de correspondances ou de relations très différents. Ces modèles joueront un rôle primordial dans l’application de méthodes d’analyse ou de visualisation sur ces tableaux. Les tableaux présentés seront les tableaux de données quantitatives, qualitatives, binaires, de contingence simple et multiples, de préférences, de fréquences, de similarités et de distances, et les tableaux multidimensionnels. Les problèmes des données manquantes ou non applicables seront abordés. Les approches tableau de données symboliques et tableau de données complexes peuvent être vues comme des extensions du tableau de données par le fait que la valeur associée à cette correspondance ne soit plus monovaluée.


"Des individus aux concepts : l’analyse des données symboliques", par Edwin Diday (Université Paris 9 Dauphine)

Accès aux transparents de cette conférence

Notre thèse est qu’au carrefour de l’intelligence artificielle, des bases de données, des systèmes d’information, de l’extraction et la gestion des connaissances et du fait des progrès de ces domaines, on n’est plus dans une situation d’utilisation normale des outils standards de la Statistique, du  Data Mining ou de l’Analyse des Données plus ou moins complexes, car le fait de s’intéresser aux connaissances et aux concepts qui en forment les atomes en tant qu’unités d’étude remet totalement en cause ces outils et nécessite leur renouvellement complet aussi bien dans leur théorie que dans leur pratique et dans la façon de les penser.
En effet, pour tenir compte de la variation interne aux concepts, on est conduit à utiliser des variables non purement numériques (donc dites " symboliques ") à valeur intervalle, histogramme, fonction ou ensemble muni parfois de règles et de taxonomies.  Afin de modéliser une classe de concepts, différentes approches seront présentées utilisant les histogrammes de concepts, les capacités de Choquet, les copules de Sklar, l’extension des treillis de Galois ou des pyramides classifiantes aux données symboliques etc. On montrera en quoi l’Analyse des Données Symbolique est innovante par rapport à des techniques standards de la statistique descriptive, de l’analyse de données exploratoire ou du Data Mining (classification automatique, analyse factorielle, arbres de décision, histogrammes de concepts, décomposition de mélanges, règles d’associations, …). En plus de l’extension des méthodes classiques aux concepts et à leur description symbolique, une problématique et des stratégies nouvelles apparaissent.
L'Analyse des Données Symboliques et son logiciel SODAS (issu de deux projets Européens soutenus par EUROSTAT où 18 équipes de 9 pays ont œuvrés ensemble) a pour but d'étendre la Statistique, le Data Mining et l'Analyse des Données classiques ou complexes aux concepts pour extraire de nouveaux concepts qui peuvent être à leur tour analysés.

"Evolution et fédération des modèles de données" par Georges Gardarin (Université de Versailles Saint-Quentin)
 
Accès aux transparents de cette conférence

Le séminaire rappellera selon une perspective historique les principaux modèles de données : relationnel, objet et XML. Partant d'un modèle conceptuel UML, il est aujourd'hui possible de générer l'un quelconque de ces modèles logiques. Quels sont les avantages et inconvénients de chacun ? L'auteur passera en revue les mérites des modèles au regard des applications. La fédération de sources de données hétérogènes nécessite un modèle global. XML est aujourd'hui le modèle qui s'impose en médiation de données. Un point particulier sera fait sur les standards associés dont XQuery et les architectures de médiation.


"Construction de modèles conceptuels à partir de textes" par Nathalie Aussenac-Gilles (IRIT, Toulouse)

Accès aux transparents de cette conférence

Cet exposé abordera la question de la représentation de connaissances issues de l'analyse de textes dans le cadre de la modélisation conceptuelle. L'objectif est donc de construire des modèles utiles à des applications ciblées et ce en s'appuyant sur une analyse informatique de textes en langage naturel. Nous nous intéresserons donc à une gamme de modèles comme les ontologies, les terminologies et les thesaurus, en nous attachant à souligner leurs spécificités. Nous présenterons un éventail de ces structures de données ainsi que les langages et normes utiles pour leur représentation. La particularité de ces structures est, entre autres, de servir de ressources dans des applications documentaires, de recherche d'information, de gestion des connaissances mais aussi pour des systèmes à base de connaissances ou à des agents logiciels sur le web. Elles sont d'autant plus pertinentes qu'elles sont construites à partir des textes ou documents au coeur de ces applications. Elles sont donc à la fois ressources et produits d'une analyse du langage à l'aide de systèmes de traitement automatique des langues. Nous présenterons quelques logiciels et approches permettant de les construire, ainsi que des exemples d'applications les utilisant. Nous évoquerons en particulier le web sémantique, où un des rôles attendus des ontologies est de fournir des méta-données partageables. La discussion évoquera la nécessité d'aborder de manière
pluri-disciplinaire la mise au point de telles ressources à partir de textes, puisqu'elle touche le problème de la détermination d'un sens à des concepts "artificiels" à partir de l'usage de la langue en corpus. Nous ferons également référence aux différents courants et point de vue des chercheurs sur l'ontologie formelle et les ontologies au sein d'applications. Enfin, nous évoquerons quelques limites avant un réel passage à l'échelle et une plus grande diffusion de ces structures de données, comme les questions du coût de leur construction, de leur adéquation aux besoins et de la difficulté de leur maintenance. Nous soulignerons les espoirs actuellement mis dans l'apprentissage automatique à partir de textes pour réduire les coûts de construction, ou encore la perspective à plus long terme, d'envisager un processus dynamique d'adaptation du contenu de ces structures à leur contexte d'usage.


"Abstraction: a fundamental issue in reasoning and learning" par Lorenza Saitta (Università del Piemonte Orientale, Alessandria, Italy)

Accès aux transparents de cette conférence

It is well known since long that a "good" representation is often the key to a successful solution of a problem. In Artificial Intelligence there is a consensus that this ability to “distill the essence from its superficial trappings” [Goldstone & Barsalou, 1998] is a fundamental issue, and that finding an adequate representation is often the hard part of the problem to be solved when building ”intelligent” systems. In Data Mining and Machine Learning this is even more true, as learning can be considered as a change of representation per se (from an extensional representation – the data – to an intentional representation – the model).
Among the various types of representation change we will focus on abstraction, intended as the capability of forming new concepts, changing level of details in the world representation, focusing on relevant aspects of a problem. Abstraction is a pervasive activity in human perception, conceptualization and reasoning. The common idea underlying the use of the word “abstraction” in different disciplines refers to the ability to find “simpler”, yet useful descriptions. Various theories have been proposed in the attempt to capture a general notion of “simplicity”, a very fascinating topic, but also a very difficult one. Simplicity has been widely acknowledged as a criterion for evaluating descriptions. The adoption of this criterion in Machine Learning – Occam's razor – is widespread and has been justified with many argumentations.
Even though the use of abstraction is ubiquitous, and notwithstanding its acknowledged fundamental importance, the very richness of the notion has eluded, up to now, the efforts to capture its essence in one definition. Today researchers do believe that it is probably better to abandon the dream of a general theory of abstraction, and rather to speak of several distinct “abstractions”, each one tailored to a particular class of tasks.
In this talk, a model of abstraction, called the KRA model, will be described [Saitta & Zucker, 1998]. The model envisages four levels of representation of the world, from perception to theory. In this model, the notion of simplicity is based on a computable approximation of Kolmogorov algorithmic complexity. The epistemological and cognitive plausibility of the model has already been assessed, both in cognitive modelling [Goldstone & Barsalou, 1998; Fabre-Thorpe, 2003] and in two applicative domains, namely robotic vision for symbol grounding [Saitta & Zucker, 2001] and cartography [Mustière, Zucker & Saitta, 1999].