Représentation des Données et des Connaissances
(RDC'05)
21 Mars 2005
Titre et résumé des interventions
"Les données ne sont pas données : réflexions
sur les processus de production d'information" par Pascal Rivière
(INSEE)
Accès aux transparents de cette conférence
La riche littérature sur les bases de données aborde de
multiples questions : modélisation (conceptuelle, logique, physique),
analyse fonctionnelle en vue de spécifier la base, langages de requête,
outils de conception, de développement, ... mais un sujet se révèle
très peu présent : comment sont obtenues les données
en question ? Cette lacune est tout aussi frappante dans la plupart des
cours de statistique, où l'on raisonne sur des "xi", "yj", "zk" dont
on ne se soucie pas vraiment de la provenance.
Or dans les faits, lorsqu'elle s'effectue en masse, cette fabrication
des données résulte d'un processus complexe et méconnu,
semé de failles et d'embûches, et que l'on ne peut négliger
lorsqu'il s'agit de représenter les connaissances. Notre propos
est de le présenter au travers du cas des données statistiques,
en mettant en évidence les principales étapes, les types de
données qui interviennent, et les conséquences sur le contenu
des bases de données.
En quoi consiste la production de données statistiques ? En simplifiant
quelque peu, ce processus de production assure la fabrication d'une matrice
de données dont les lignes seraient les unités statistiques
(ex : entreprises, établissements, individus) et dont les colonnes
seraient les variables à mesurer. Pour cela, plusieurs étapes
sont nécessaires : expression du besoin, constitution de la base
de sondage, tirage de l'échantillon, mise au point du support de
questionnement, préparation de la collecte, collecte proprement dite,
saisie - mise au format, codage des libellés, calcul de variables
dérivées, vérification - apurement, traitements automatiques
finaux (traitement des réponses manquantes et agrégation statistique).
Dès lors, dans les bases de données associées, on trouve
des données de natures très diverses : variables collectées,
dérivées directement de la collecte, provenant d'une source
d'information externe ; variables de gestion du processus (ex : le fait qu'un
individu ait répondu ou non) ; métadonnées (ex : date
d'obtention d'une information).
Cette production s'appuie elle-même sur deux types de socles fondamentaux
ou "référentiels" : les répertoires (ex : le répertoire
d'entreprises Sirene), qui découlent d'un processus complexe et
permanent de mise à jour ; et les nomenclatures (ex : la nomenclature
d'activités française), qui fournissent un découpage
en catégories de sens, en intention, et nécessitent un travail
de conception et de mise à jour régulière pour tenir
compte des évolutions du monde réel. Sans répertoire,
pas de population de référence pour échantillonner,
sans nomenclatures, pas de questionnement efficace possible.
L'importance des référentiels n'est pas spécifique
à la statistique, dont le mode d'obtention ne fait ici qu'illustrer
une question plus générale : lorsqu'il s'agit de produire
de façon industrielle des quantités importantes de données,
une organisation rationnelle et cohérente de l'ensemble de ces flux
est indispensable pour avoir un minimum de maîtrise de l'ensemble,
car les données subissent de multiples transformations qui sont autant
de sources d'erreur. Elles sont d'autant plus délicates à
traiter qu'il faut souvent, dans de tels processus, interpréter,
modéliser le réel, ce qui est toujours sujet à caution
; or rien ne permet de garantir la validité des interventions humaines
fondées sur l'interprétation, étant donné l'absence
d'un référentiel absolu. Les erreurs dans les bases de données
sont ainsi un phénomène inévitable : dans une optique
qualité, il s'agit plus d'en contrôler l'ampleur et l'impact
que de chercher vainement à les éradiquer.$
"Le tableau de données, une structure unique, des réalités
multiples" par Yves Lechevallier (INRIA Rocquencourt)
Accès aux transparents de cette conférence
L’analyse de données a pour objectif d’extraire d’une grande masse
de données des informations utiles. A première vue, cette
grande masse de données parait être un ensemble assez informe
mais s’appuie sur une structuration des données qui paraît intuitive,
c’est la représentation matricielle, celle que l’on retrouve dans
les tableurs (Excel par exemple) ou comme des vues dans les bases de données.
Ce tableau de données permet de mettre en correspondance deux ensembles
ayant une sémantique différente. Les étapes préliminaires
à une analyse de données sont la définition des deux
ensembles qui seront mis en relation, l’ensemble des individus et l’ensemble
des variables, puis la construction d’un tableau de données qui
se déduit de la définition de l’ensemble des individus et
de l’ensemble des variables. Par des exemples de tableaux de données
nous montrerons les différentes correspondances que l’on peut construire.
Bien que la structure « informatique » soit identique, ces tableaux
de données représenteront des modèles de correspondances
ou de relations très différents. Ces modèles joueront
un rôle primordial dans l’application de méthodes d’analyse
ou de visualisation sur ces tableaux. Les tableaux présentés
seront les tableaux de données quantitatives, qualitatives, binaires,
de contingence simple et multiples, de préférences, de fréquences,
de similarités et de distances, et les tableaux multidimensionnels.
Les problèmes des données manquantes ou non applicables seront
abordés. Les approches tableau de données symboliques et
tableau de données complexes peuvent être vues comme des extensions
du tableau de données par le fait que la valeur associée à
cette correspondance ne soit plus monovaluée.
"Des individus aux concepts : l’analyse des données
symboliques", par Edwin Diday (Université Paris 9 Dauphine)
Accès aux transparents de cette conférence
Notre thèse est qu’au carrefour de l’intelligence artificielle, des
bases de données, des systèmes d’information, de l’extraction
et la gestion des connaissances et du fait des progrès de ces domaines,
on n’est plus dans une situation d’utilisation normale des outils standards
de la Statistique, du Data Mining ou de l’Analyse des Données
plus ou moins complexes, car le fait de s’intéresser aux connaissances
et aux concepts qui en forment les atomes en tant qu’unités d’étude
remet totalement en cause ces outils et nécessite leur renouvellement
complet aussi bien dans leur théorie que dans leur pratique et dans
la façon de les penser.
En effet, pour tenir compte de la variation interne aux concepts, on
est conduit à utiliser des variables non purement numériques
(donc dites " symboliques ") à valeur intervalle, histogramme, fonction
ou ensemble muni parfois de règles et de taxonomies. Afin de
modéliser une classe de concepts, différentes approches seront
présentées utilisant les histogrammes de concepts, les capacités
de Choquet, les copules de Sklar, l’extension des treillis de Galois ou
des pyramides classifiantes aux données symboliques etc. On montrera
en quoi l’Analyse des Données Symbolique est innovante par rapport
à des techniques standards de la statistique descriptive, de l’analyse
de données exploratoire ou du Data Mining (classification automatique,
analyse factorielle, arbres de décision, histogrammes de concepts,
décomposition de mélanges, règles d’associations, …).
En plus de l’extension des méthodes classiques aux concepts et à
leur description symbolique, une problématique et des stratégies
nouvelles apparaissent.
L'Analyse des Données Symboliques et son logiciel SODAS (issu
de deux projets Européens soutenus par EUROSTAT où 18 équipes
de 9 pays ont œuvrés ensemble) a pour but d'étendre la Statistique,
le Data Mining et l'Analyse des Données classiques ou complexes
aux concepts pour extraire de nouveaux concepts qui peuvent être
à leur tour analysés.
- L. Billard, E. Diday (2003) "From the statistic of data to the statistic
of knowledge". JASA. Journal of the American Statistical Association. Juin
2003.
- Bock H.H., Diday E. (2000) "Analysis of Symbolic Data". Study in
Classification, Data Analysis and Knowledge Organisation. Springer
Verlag.
- Electronical Journal of Symbolic Data Analysis (JSDA) sur http://www.jsda.unina2.it/newjsda/volumes/index.htm
- Informations, formation et chargement de SODAS sur http://www.ceremade.dauphine.fr/%7Etouati/sodas-pagegarde.htm
"Evolution et fédération des modèles de
données" par Georges Gardarin (Université de Versailles
Saint-Quentin)
Accès aux transparents de cette conférence
Le séminaire rappellera selon une perspective historique les principaux
modèles de données : relationnel, objet et XML. Partant
d'un modèle conceptuel UML, il est aujourd'hui possible de générer
l'un quelconque de ces modèles logiques. Quels sont les avantages
et inconvénients de chacun ? L'auteur passera en revue les mérites
des modèles au regard des applications. La fédération
de sources de données hétérogènes nécessite
un modèle global. XML est aujourd'hui le modèle qui s'impose
en médiation de données. Un point particulier sera fait
sur les standards associés dont XQuery et les architectures de
médiation.
"Construction de modèles conceptuels à
partir de textes" par Nathalie Aussenac-Gilles
(IRIT, Toulouse)
Accès aux transparents de cette conférence
Cet exposé abordera la question de la représentation de connaissances
issues de l'analyse de textes dans le cadre de la modélisation conceptuelle.
L'objectif est donc de construire des modèles utiles à des
applications ciblées et ce en s'appuyant sur une analyse informatique
de textes en langage naturel. Nous nous intéresserons donc à
une gamme de modèles comme les ontologies, les terminologies et les
thesaurus, en nous attachant à souligner leurs spécificités.
Nous présenterons un éventail de ces structures de données
ainsi que les langages et normes utiles pour leur représentation.
La particularité de ces structures est, entre autres, de servir
de ressources dans des applications documentaires, de recherche d'information,
de gestion des connaissances mais aussi pour des systèmes à
base de connaissances ou à des agents logiciels sur le web. Elles
sont d'autant plus pertinentes qu'elles sont construites à partir
des textes ou documents au coeur de ces applications. Elles sont donc à
la fois ressources et produits d'une analyse du langage à l'aide
de systèmes de traitement automatique des langues. Nous présenterons
quelques logiciels et approches permettant de les construire, ainsi que
des exemples d'applications les utilisant. Nous évoquerons en particulier
le web sémantique, où un des rôles attendus des ontologies
est de fournir des méta-données partageables. La discussion
évoquera la nécessité d'aborder de manière
pluri-disciplinaire la mise au point de telles ressources à
partir de textes, puisqu'elle touche le problème de la détermination
d'un sens à des concepts "artificiels" à partir de l'usage
de la langue en corpus. Nous ferons également référence
aux différents courants et point de vue des chercheurs sur l'ontologie
formelle et les ontologies au sein d'applications. Enfin, nous évoquerons
quelques limites avant un réel passage à l'échelle
et une plus grande diffusion de ces structures de données, comme
les questions du coût de leur construction, de leur adéquation
aux besoins et de la difficulté de leur maintenance. Nous soulignerons
les espoirs actuellement mis dans l'apprentissage automatique à
partir de textes pour réduire les coûts de construction, ou
encore la perspective à plus long terme, d'envisager un processus
dynamique d'adaptation du contenu de ces structures à leur contexte
d'usage.
"Abstraction: a fundamental issue in reasoning and learning"
par Lorenza Saitta (Università del Piemonte Orientale, Alessandria,
Italy)
Accès aux transparents de cette conférence
It is well known since long that a "good" representation is often the key
to a successful solution of a problem. In Artificial Intelligence there
is a consensus that this ability to “distill the essence from its superficial
trappings” [Goldstone & Barsalou, 1998] is a fundamental issue, and
that finding an adequate representation is often the hard part of the problem
to be solved when building ”intelligent” systems. In Data Mining and Machine
Learning this is even more true, as learning can be considered as a change
of representation per se (from an extensional representation – the data
– to an intentional representation – the model).
Among the various types of representation change we will focus on abstraction,
intended as the capability of forming new concepts, changing level of details
in the world representation, focusing on relevant aspects of a problem.
Abstraction is a pervasive activity in human perception, conceptualization
and reasoning. The common idea underlying the use of the word “abstraction”
in different disciplines refers to the ability to find “simpler”, yet useful
descriptions. Various theories have been proposed in the attempt to capture
a general notion of “simplicity”, a very fascinating topic, but also a very
difficult one. Simplicity has been widely acknowledged as a criterion for
evaluating descriptions. The adoption of this criterion in Machine Learning
– Occam's razor – is widespread and has been justified with many argumentations.
Even though the use of abstraction is ubiquitous, and notwithstanding its
acknowledged fundamental importance, the very richness of the notion has
eluded, up to now, the efforts to capture its essence in one definition.
Today researchers do believe that it is probably better to abandon the dream
of a general theory of abstraction, and rather to speak of several distinct
“abstractions”, each one tailored to a particular class of tasks.
In this talk, a model of abstraction, called the KRA model, will be described
[Saitta & Zucker, 1998]. The model envisages four levels of representation
of the world, from perception to theory. In this model, the notion of simplicity
is based on a computable approximation of Kolmogorov algorithmic complexity.
The epistemological and cognitive plausibility of the model has already
been assessed, both in cognitive modelling [Goldstone & Barsalou, 1998;
Fabre-Thorpe, 2003] and in two applicative domains, namely robotic vision
for symbol grounding [Saitta & Zucker, 2001] and cartography [Mustière,
Zucker & Saitta, 1999].
- Fabre-Thorpe M. (2003). "Visual categorization: Accessing abstraction
in non-human primates". In L. Saitta (Ed.), A Path to Abstraction, Special
Issue on Abstraction of the Philosophical Trans. of the Royal Society, London,
pp. 1215-1224.
- Goldstone R., and Barsalou L. (1998). "Reuniting Perception and Conception".
Cognition, 65, 231–262
- Mustière S., Zucker J-D., and Saitta L. (1999). "Abstraction
and Representation in Map Generalization". In Proc. ACM/GIS Conference,
Kansas City, MS, pp. 162-164.
- Saitta L., and J-D. Zucker (1998). "Semantic Abstraction for Concept
Representation and Learning". In Proc. of Symp. On Abstraction, Reformulation
and Approximation (Asilomar, CA), pp. 103-120.
- Saitta L. and Zucker J.D. (2001). "A Model of Abstraction in Visual
Perception". Int. J. of Applied Intelligence, 80, 134-155.