Le catalogage et les métadonnées

La difficulté d'accès aux données est l'un des principaux obstacles au développement de l’utilisation des SIG. Cette difficulté tient à des aspects techniques (formats), financiers (tarifs) et législatifs (propriétés intellectuelles, diffusion des données publiques), mais aussi à la méconnaissance des données existantes.

Le catalogue de données est le moyen d'améliorer cette situation. Il accompagne l'évolution à laquelle nous assistons aujourd'hui : le passage de la circulation des représentations - la carte toute faite - à la circulation des informations à partir desquelles seront faites les cartes.

La norme européenne sur les métadonnées

La normalisation européenne concernant l’information géographique a intégré l’importance de l’information sur la donnée géographique. Il en résulte la norme ENV 12657, intitulée " Information Géographique - description de données - métadonnées ". Cette prénorme a un caractère expérimental qui lui confère un statut provisoire ; en conséquence son application est facultative. Elle a été traduite en norme française par l’AFNOR. Elle définit les informations nécessaires ou souhaitables, appelées métadonnées, décrivant les caractéristiques d'un lot de données géographiques ou localisées.

Les métadonnées y sont définies comme "des informations décrivant les données". Cette définition assez vaste est précisée dans la norme par une spécification détaillée des informations à saisir. Cela comprend les informations relatives au contenu, à la structure de la base, à son étendue, au système de référence spatiale utilisé, à la qualité et aux conditions d’accès à ces données, ainsi que les cordonnées de tout organisme jouant un rôle vis à vis des données. Il est prévu aussi que chaque objet et attribut du lot de donnée soit décrit en faisant référence aux termes d’un thésaurus.

La norme répond ainsi clairement à des besoins aussi divers que la documentation (au sens informatique du terme), le catalogage ou à la simple information. Elle prévoit pour cela plus de 150 champs d’information différents, dont une bonne vingtaine sont obligatoires.

Les catalogues de données géographiques

La réalisation d’un catalogue - celui d’un organisme de vente par correspondance comme celui d'un producteur de données géographiques - répond à un souci plus limité : connaître soi-même et faire connaître à d’autres les produits dont dispose un service, particulièrement ceux qu'il peut diffuser. Il ne s’agit donc pas de donner le détail de l’information disponible sur le produit, mais d’en indiquer les caractéristiques principales, afin de faciliter le choix des utilisateurs.

A partir de la norme européenne sur les métadonnées, l’AFNOR et le CNIG ont cherché à dégager les champs d’information nécessaires à la description minimale des données géographiques, dans le but d'en produire un catalogue. Les informations les plus utiles aux utilisateurs devant choisir entre divers lots de données ont été privilégiées, au détriment des champs trop complexes à remplir pour un producteur occasionnel.

Le résultat comporte environ 60 champs dont, évidemment, tous ceux rendus obligatoires par la norme européenne sur les métadonnées. Cette liste est publiée par l’AFNOR et le CNIG, sous forme d’une recommandation de l’AFNOR, CN InfoGéo N 165, intitulée "  Information géographique, métadonnées, guide de mise en œuvre de la norme expérimentale ENV 12657 ".

REPORTS, un outil logiciel permettant de manipuler les métadonnées retenues, a été développé par le CERTU pour le compte du CNIG et de l’AFNOR. Il s’agit d’un outil "minimaliste", permettant principalement la saisie, la consultation et l’import-export des fiches de métadonnées. Il est diffusé, libre de droit, par le CNIG.

Les besoins de métadonnées des producteurs et des utilisateurs

Les catalogues de données mobilisent deux groupes d'acteurs : les producteurs qui doivent documenter leurs données pour les faire connaître ; les utilisateurs, qui cherchent à apprécier si une donnée convient à l’usage particulier qu’ils veulent en faire.

Selon les cas, chacun de ces acteurs aura des attentes particulières vis-à-vis d’un catalogue.

En général, un producteur institutionnel connaît parfaitement les données qu'il produit et leurs conditions de diffusion. Il n’éprouvera donc pas de difficulté à proposer un catalogue très complet. A l’inverse, un producteur/utilisateur (un service déconcentré d’une administration ou une petite collectivité locale) n’aura souvent pas complètement documenté ses informations. Alimenter un catalogue très détaillé lui demandera un effort important. Cependant, ce sera pour lui l’occasion de se poser des questions sur les conditions de diffusion de sa production. Il pourra ainsi engager un processus de "rétro-documentation" de ses bases de données, facilitant ainsi le réemploi en interne de son patrimoine de données.

Les utilisateurs auront, quant à eux, le souci de trouver dans un catalogue la réponse à une question du type " existe-t-il des bases de données concernant un territoire particulier, dont l'échelle et le contenu répondent à des besoins précis ?  et si oui, où et comment se les procurer ? ". Il leur faudra donc trouver, tout à la fois, des informations sur la qualité et les usages, des informations plus ou moins détaillées sur le contenu de la base, et des informations sur les conditions de diffusion de ces données.

La mise en place d’un catalogue

La création d’un catalogue de données est un travail important, la mise en forme d'une seule fiche pouvant réclamer une demi-journée de travail. Elle constitue une surcharge de travail, et les principaux acteurs n’en sont pas les bénéficiaires immédiats. Il faut donc réfléchir à la meilleure stratégie permettant de réaliser au mieux cette saisie.

Le choix des données à enregistrer dans un catalogue est primordial. Selon les objectifs que l’on assigne au catalogage des données géographiques, et selon la possibilité de mobiliser les personnes concernées, il faudra essayer de définir quelles données seront à saisir, et quels moyens mettre en œuvre pour aboutir.

Pour un producteur institutionnel, cela est assez simple : il s’agit a priori de toutes celles qu’il propose à ses clients.

En revanche, un service utilisateur/producteur de données est confronté à un grand nombre d’informations produites au jour le jour, au gré des études réalisées. Il lui faut donc choisir celles des données qu'il souhaite cataloguer. Une majorité d’entre elles peuvent être retenues sous réserve qu'elles soient décrites (en particulier en ce qui concerne leur qualité propre), et que leur contenu soit validé. Mais les critères de qualification seront appliqués différemment, selon que ce catalogue vise principalement à réorganiser la production interne - en débusquant les doublons par exemple - ou à la diffusion des données à l’extérieur.

Le choix des données que l'on catalogue ne doit pas être dicté par des considérations a priori sur leur intérêt potentiel pour autrui ; il est difficile de juger de l’intérêt d’une donnée pour un autre service qui reste seul juge de son utilité. La réalisation d’un catalogue est l’occasion de faciliter la circulation de l’information géographique et sa valorisation par la multiplication des usages. Il faut donc éviter d’avoir une position restrictive ou frileuse.

Mais il faut également rester conscient du risque représenté par la diffusion d’une donnée dont la fiabilité n'est pas certaine, ou qui n’a pas subi une phase de qualification suffisante.

Conclusion

Le développement de l’usage des SIG a permis de prendre conscience de la valeur patrimoniale et de la valeur d’usage des données. Aussi, leur catalogage se développe rapidement, et de nombreuses initiatives ont vu le jour avant même la parution de la norme européenne.

Ces démarches, locales ou thématiques, visent à proposer des catalogues plus ou moins étendus. Ceux-ci devront pouvoir être consultés par tout acteur, même s’il n’est concerné que de manière ponctuelle par une thématique ou un territoire. Le besoin d’une certaine cohérence nationale et d’inter-opérabilité entre les catalogues devient évident. Il trouve des éléments de réponse dans les travaux de normalisation, mais pourrait aboutir à la création " de catalogues de catalogues ". Internet, qui apparaît naturellement comme le vecteur privilégié de la diffusion de ces catalogues, devrait faciliter cette évolution.

Il restera à assurer aussi une bonne compréhension du contenu de ces catalogues. Un travail particulier sur les nomenclatures ou les thésaurus devra être réalisé, afin de donner un sens non ambiguë aux mots, et de comprendre partout de la même manière le rapport entre la représentation d’un objet géographique et la réalité.

Fiche établie par Laurent Coudercy, CERTU

avril 1999