OWNI

DataLift: un catalyseur pour le web de données

Nicolas Cynober — Wed, 07 Jul 2010 16:22:31 +0000

Malgré mon optimisme naturel, la polémique monte sur la capacité de l’APIE à développer l’accès aux données gouvernementales en tant que service public. Robin Berjon a récemment mis en garde contre un modèle cherchant à en monétiser l’accès. Cela rajouterait en effet une barrière considérable à l’innovation nécessaire dans l’exploitation de ces données. Dans ce contexte, il est intéressant de noter le développement de projets parallèles sur le territoire français. Je pense au déjà connu Regards Citoyens, à Data Publica, dont je parlerai bientôt plus en détail, et également au tout jeune projet DataLift, dont François Scharffe a accepté de nous parler.

Nicolas Cynober : Salut François, est-ce que tu peux nous présenter DataLift en quelques mots ainsi que ton rôle dans le projet ?

François Scharffe : DataLift est un projet visant à créer une plateforme permettant à des éditeurs de données de publier leurs données sur le web de données. Le projet est découpé en tâches correspondant à des problèmes à résoudre le long de la chaîne de publication. Il faut tout d’abord sélectionner les ontologies qui permettront de décrire les données brutes. Ensuite il faut convertir les données dans le format du web sémantique, RDF. Puis il faut publier ces données selon les principes du web de données, ce qui suppose en parallèle d’interconnecter ces données avec d’autres jeux de données existants.

La plateforme d’outils qui sera construite au sein du projet a un caractère expérimental. C’est-à-dire que d’une part il y a dans DataLift une composante de recherche : nous allons développer de nouvelles techniques permettant d’automatiser le processus de publication. D’autre part nous allons expérimenter ces techniques pour effectivement publier des jeux de données. Le projet vient d’être retenu par l’ANR au sein de l’appel CONTINT et commencera en octobre. Je suis le coordinateur scientifique du projet.

Que signifie “interconnecter les données”, à quoi cela sert-il ?

Lorsque l’on publie un jeu de données, un principe du web de données est qu’il faut interconnecter ce jeu de données à d’autres jeux existant. Cela revient à identifier les ressources déjà publiées sur le web de données qui correspondent à des ressources dans le jeu de données à publier. Par exemple si l’IGN publie un jeu de données sur les localités en France, il sera utile d’indiquer les équivalences entre ces localités et les ressources leur correspondant dans DBPedia.

Interconnecter les jeux de données est une étape cruciale.

C’est une tâche ardue, mais sans laquelle il n’y aurait pas de web de données. Ce serait un peu comme avoir le web sans liens entre les pages.

Peux tu nous parler un peu plus de vos fournisseurs de données, qu’attends-tu de l’APIE ?

Nous commençons le projet avec deux importants partenaires fournisseurs de données : l’IGN et l’INSEE. Ce seront donc les premiers à bénéficier des services de la plateforme. À coté de cela nous avons contacté un certain nombre d’institutions, associations et entreprises qui souhaitent rejoindre le projet et expérimenter la plateforme DataLift. Parmi eux je peux citer l’association Regards citoyens, le projet Data Publica, la DILA, la Fédération des parcs régionaux de France. La plateforme est ouverte et j’invite les lecteurs à me contacter s’ils sont intéressés pour nous rejoindre.

Nous sommes aussi en contact avec l’APIE qui souhaite développer un portail de données gouvernementales. L’APIE effectue un travail de sensibilisation auprès des ministères pour obtenir l’ouverture de leurs données. Les données que l’APIE pourra rassembler pourront être enrichies par la plateforme DataLift. La discussion reste aujourd’hui ouverte sur la manière dont l’APIE construira son portail.

Comment va se passer l’interconnexion de données ayant des licences très hétérogènes ?

C’est une très bonne question. Au sein de DataLift, l’équipe Edelweiss de l’INRIA va étendre les langages de représentation et les mécanismes d’interrogation des données afin de prendre en compte les licences et les informations de provenance attachées aux données. Des techniques vont donc être développées afin que rien n’empêche un fournisseur de données ayant un modèle de revenus basé sur une consultation payante de publier ses données, mais aussi d’attacher des information de qualité et de confiance aux données publiées afin que les consommateurs de données s’y retrouvent.

DataLift est un projet de recherche, des points communs avec le projet du Tetherless World ?

Oui plusieurs. Tout d’abord nous sommes issus de la même communauté de recherche autour du web sémantique et croisons régulièrement Jim Hendler lors de la conférence internationale ISWC. Cela dit, les Américains ont la chance de pouvoir s’appuyer sur un catalogue de données gouvernementales déjà constitué. Nous devons directement contacter les institutions en attendant l’émergence d’un éventuel données.gouv.fr. Je pense que nous allons aussi plus loin en proposant une plateforme permettant à chaque fournisseur de données de publier ses données sur un serveur interne de façon décentralisée. Nous allons travailler afin que la plateforme devienne une référence mondiale en matière d’outils de publication de données.

À ton avis, quand pourrons-nous voir les premiers mashup basés sur les données de DataLift ?

Les premiers jeux de données publiés sont prévus à six mois et la première version de la plateforme est prévue à un an du début du projet. À coté du développement technique sur la plateforme, nous sommes content d’avoir à bord la FING avec laquelle nous allons constituer une communauté de développeurs autour des données de la plateforme. Plusieurs évènements sont prévus mais je préfère garder le suspense de ce côté-là. À coté de cela, la société Atos Origin va travailler à une interface de programmation web de données pour smartphones. Tout cela devrait permettre l’émergence d’applications innovantes autour de la plateforme. Nous encourageons les propositions de projets et communiquerons bientôt sur le sujet.

Le projet a été financé pour trois ans par l’Agence Nationale de la Recherche, peux-tu nous parler un peu de vos ressources et de ton équipe ?

Le projet est actuellement constitué de sept partenaires : les équipes EXMO et Edelweiss de l’INRIA, Eurecom, la société Mondeca, Atos Origin Integration, l’IGN, L’INSEE, et la FING. Un huitième partenaire, l’équipe Tatoo du LIRMM va nous rejoindre sous peu. La plateforme est ouverte et nous accueillerons de nouveaux partenaires notamment fournisseurs de données. Le projet est assez gros pour un projet ANR et son budget total dépasse les trois millions d’Euros. C’est beaucoup d’argent et nous remercions l’ANR de nous faire confiance et de porter un projet sur ce thème. Nous devons maintenant montrer que cet argent sera utilisé à bon escient. Les subventions accordées vont notamment nous permettre de recruter des étudiants, chercheurs et ingénieurs. Avis aux amateurs, des positions sont ouvertes chez les divers partenaires.

L’équipe EXMO est située à l’INRIA Grenoble Rhône-Alpes, elle est dirigée par Jérôme Euzenat. Nous travaillons sur le web sémantique et en particulier sur l’alignement d’ontologies. Quand à moi je vais m’en aller vers Montpellier à partir de la rentrée comme maître de conférence au LIRMM. Je resterai tout de même rattaché à EXMO, on ne quitte pas une si bonne équipe comme ça !

Merci François, bonne continuation à toi et ton équipe !

—

Billet initialement publié sur all about web, le blog de Nicolas Cynober ; le Twitter de Nicolas : http://twitter.com/cyno/

À consulter aussi, son pearltree sur la publication de données en France

Image CC Flickr illustir

Les enjeux d’une bibliothèque sur le web

Christian Fauré — Thu, 10 Jun 2010 08:45:20 +0000

La plupart des débats sur le rôle et la présence des bibliothèques sur web s’est jusqu’à présent concentré fortement sur les enjeux de numérisation des fonds et sur son corolaire de diffusion des œuvres numériques. Autre thème, mais dans une moindre mesure (surtout à l’échelle du grand public) : la mise en ligne des catalogues et la disponibilité des métadonnées des institutions qui les gèrent. Ces questions sont importantes, mais j’aimerais en proposer une troisième, qui s’appuie sur l’exposition des métadonnées, et constitue à mes yeux la clé de voute pour une stratégie des bibliothèques sur le web.

1. Avoir des ressources facilement identifiables et consultables sur le web

Chacun aura remarqué qu’il n’est pas facile de faire un lien vers l’URL d’un livre qui pointe vers les catalogues en ligne que proposent les bibliothèques. Moi-même, quand je parle d’œuvres ou d’auteurs, je privilégie un lien vers la page associée chez Amazon ou Wikipedia, c’est tellement plus rapide. Mais, à part amener du trafic à ces sites, ce geste de faire un lien n’est pas valorisé en lui-même. Une bibliothèque doit donc commencer par augmenter la visibilité de ses ressources pour ensuite pouvoir donner de la valeur à mon lien.

L’exposition des métadonnées passe par la mise à disposition d’URLs pérennes pour l’ensemble des ressources signifiantes. Ces URLs doivent donc être pérennes (je vous renvoie chez figoblog pour la littérature et les réflexions associées), mais aussi facilement identifiable (voire inférençable : par exemple, je peux déduire l’URL d’un auteur à partir de celle d’un autre), ainsi que déréfençables (cf. Qu’est-ce qu’une URI déréférençable ?). Point d’autre salut dans cette démarche que d’embrasser les standards du web sémantique et d’emboîter le pas à l’initiative Linked Data.

2. Exploiter la vie de ces ressources sur le web

On n’envoie plus un satellite dans l’espace pour pouvoir dire « je sais le faire », mais pour exécuter une mission bien précise qui repose sur la collecte et la récupération de données. Par analogie, c’est cet objectif qui manque souvent aux stratégies d’ouverture et d’exposition des données. Je suis le premier à dire qu’il faut mettre à disposition les données sur le web, tout comme je suis le premier à dire qu’il faut du très haut débit. Mais si ces initiatives sont nécessaires, elles n’en sont pas pour autant suffisantes, car elles ne sont que les prémices d’une politique, il manque encore quelque chose. C’est notamment la raison pour laquelle je terminais mon texte dans « Pour en finir avec la mécroissance » en écrivant :

« Pire peut-être, ces politiques se limitent à favoriser l’accès à Internet et à offrir des débits de connexion toujours plus important, mais pour quoi faire ? » p. 278.

Je crois qu’il faut partir de là : accéder à des contenus ou des données sur le web, d’accord, mais « pour quoi faire ? » Je balaye ici d’un revers de main toute la rhétorique qui consiste à dire : « ouvrez vos données et vous verrez ce sera formidable ». Oui, je crois effectivement que ce sera formidable, mais ce discours ne favorise pas la prise de décision pour celui qui doit faire l’effort : il faut donc trouver d’autres motivations.

La logique et la stratégie de l’accès orientent trop souvent les débats autour d’une stratégie de diffusion. C’est très bien de diffuser, surtout quand il s’agit de ressources culturelles comme celles que gèrent les bibliothèques, mais je pense que ce n’est pas là que les choses se jouent. La plupart des bibliothécaires ne peuvent pas se satisfaire de concevoir le web comme un simple outil de communication et de diffusion. Le métier de bibliothécaire croule tellement sous la charge de travail que représente la politique d’acquisition, de conservation, de gestion des catalogues, d’archivages, plus tous les aspects fonctionnels d’accueil du public, de relation avec les chercheurs etc. que la perspective du web comme nouvel outil de diffusion ne représente à leur yeux qu’une contrainte de plus qui va surtout donner lieu à une énième refonte du système informatique.

Faire tous ces efforts simplement parce que cela semble inéluctable n’est pas la meilleure des motivations qui soit. On revient donc à notre question « pour quoi faire? », car si la réponse est « parce que c’est nécessaire », on peut être sûr que c’est l’inertie qui va s’installer (pourquoi faire des efforts si la situation est tellement inéluctable ?).

Il faut donner une motivation aux bibliothèques : pénétrer dans l’économie générale du web, cela ne doit pas représenter uniquement un surplus de travail et d’effort, même si la diffusion et la valorisation sont des missions essentielles d’une bibliothèque.

Concernant les bibliothèques, ma proposition sera donc la suivante : il faut développer les « orages sémantiques ». Par cette expression on entend l’ensemble des discussions, polémiques, argumentations autour d’une ressource (auteur, oeuvre, thème, etc.). Dans cette perspective, il faut considérer que chaque ressource disponible en ligne est un paratonnerre dont le but est de capter les polémiques et les discussions dont elle fait l’objet.

Avec cette approche, l’activité de catalogage s’étend au-delà du catalogage des œuvres puisqu’il couvre le catalogage des débats sur autour des ressources sur le web. Grâce à ce catalogage des « orages sémantiques », une bibliothèque peut commencer à fournir de nouveaux services, comme par exemple une sorte de « Zeitgeist », un esprit du temps.

Aujourd’hui la Library of Congress archive, plus qu’elle ne catalogue, les messages plubliés sur la plateforme de Twitter. La question qui est posée aux biblitohèques est la suivante : souhaitez-vous être condamnées à négocier avec des acteurs privés le catalogage des orages sémantiques via leur plateforme commerciale, ou souhaitez-vous développer vous-même ces dispositifs ? C’est-à-dire être pro-actif dans la conception de ces dispositifs pour réinventer le catalogage et les services d’une bibliothèque sur le Web. Voulez-vous n’être que des archivistes sous-traitants des plateformes commerciale ou des promoteurs d’une politique économico-culturelle de la contribution ?

Parlant de contribution, je me dois ici de préciser que je ne parle pas de crowdsourcing, de site participatifs ou autres espaces personnalisés de contribution dont pourrait se doter un site web de bibliothèque. Il ne s’agit pas de ici de rajouter des fonctions de tags ou des folksonomies car le squelette de la démarche repose sur l’autorité des métadonnées de la bibliothèque. Le dispositif de captation des orages sémantiques doit reposer sur les acquis des catalogues et des notices d’autorités pour faire la révolution copernicienne du catalogage : elle ne se fait pas en marge de lui ou contre lui mais avec lui, avec ce trésor des métadonnées.

Ne cherchez pas l’outil magique pour faire cela, je crois qu’il n’existe pas, et il reste à faire. Il y a en fait deux dispositifs qui peuvent répondre à cet enjeu des orages sémantiques :

Le premier est un dispositif indirect basé sur l’analyse traces, celui dont je parle ici.
Le deuxième est un dispositif direct basé sur des outils critiques offrant des fonctionnalités d’annotation et de traçabilité des polémiques (le modèle que j’ai en tête étant les outils de gestion des sources dans les projets de développement informatique). De celui ci je ne parle pas dans cette note.

La démarche indirecte doit se construire à partir de plusieurs briques fonctionnelles :

du « web analytic » au travers de l’ensemble des services qui permettent d’analyser des trafics de sites web ;
du text-mining pour dégager des métadonnées des sources qui pointent vers les ressources exposées de la bibliothèque ;
du data-mining
des technologies d’indexation
bien sûr, si l’effort a été fait d’avoir les données structurées en RDF, la granularité des informations de consultations et de requêtes n’en sera que plus fine et plus facilement exploitable.

Il s’agit donc bien d’un panaché de technologies pour ne pas avoir en sortie un simple hit parade ou un moteur de recommandation à la Amazon. De plus, les expérimentations de publication des statistiques brutes de consultations ont montré que c’est Mein Kampf ou Le Kamasutra qui vont trôner en haut des classements. Je précise également qu’il ne s’agit pas uniquement d’utiliser des informations de consultations, mais surtout des informations provenant de la source des liens qui pointent vers ce lieu de référence qu’est une bibliothèque (pensez ici à BackRub, l’ancêtre de Google).

Un petit résumé de ce qui change avec cette approche des orages sémantiques :

Les bibliothécaires et conservateurs en « back office » ont un feed-back de ce qui se passe sur le web autour des ressources dont ils ont la gestion. Retour appréciable, me semble-t-il, quand on doit gérer l’évolution de son catalogue : les orages sémantiques placent le bibliothécaire au coeur de son temps, des polémiques et de ce qui fait débat ;
La bibliothèque peut ajouter des services innovants sur son site web. Par exemple, je n’irai pas spontanément sur la page d’un auteur sur le site web d’une bibliothèque mais plutôt sur Wikipedia à cause de la richesse des informations. Mais si la page en question me donne une « météo culturelle » de cet auteur, alors cela peut changer mes pratiques ;
enfin, au delà du Zeitgeist, c’est une extension de la pratique de catalogage qui révolutionne l’activité d’une bibliothèque en la plaçant au cœur de l’économie générale du web.

Je termine par un dernier point car, les bibliothèques, en ces temps budgétaires difficiles, cherchent à augmenter leurs fonds propres, or je serai le premier à acheter une œuvre (papier ou numérique) qui comprenne un appareil critique issu des informations collectées via le dispositif des orages sémantiques géré par une institution publique telle qu’une bibliothèque. Cela changerait à coup sûr les rapports entre les bibliothèques et les éditeurs, ces derniers ayant beaucoup trop tendance à les mépriser. C’est d’ailleurs quelque chose qui m’a frappé en m’intéressant à la chaîne du livre : l’indifférence et le mépris règne entre les acteurs ce milieu tandis que de nouvelles industries arrivent et raflent la mise, le sourire en coin.

J’espère que les bibliothécaires me pardonneront mon ingérence dans leur domaine de compétence.

—

Billet initialement publié sur le blog de Christian Fauré ; images CC Flickr beelaineo, Reini68, jakebouma

Les interfaces graphiques du web sémantique

Christian Fauré — Tue, 11 May 2010 09:01:33 +0000

Bien souvent, quand je vois les interfaces graphiques des applications du web sémantique, cela me fait penser à du Picasso.

Paradoxe : quand les données sont structurées, les interfaces graphiques donnent mécaniquement une impression de dé-structuration.

Si le document Word est le modèle de document qui a inspiré la page du web de document, alors on pourrait peut-être penser que c’est le tableur qui représente le modèle de document du web de données? On pourrait certainement le croire quand on regarde le très justement nommé Tabulator de Berners-Lee, outil pour « surfer sur du RDF » :

Et bien non, c’est la carte et la localisation qui « prennent ». Ainsi, lorsque Tim Berners-Lee a présenté les résultats des démarches d’ouverture des données publiques à TED 2010, il n’a présenté que des interfaces basées sur la géolocalisation des données :

Cliquer ici pour voir la vidéo.

Retour aux fondamentaux finalement, puisqu’on se souvient que les APIs et les mashups du web 2.0 ont commencé avec Google Maps. Ce qui tend à montrer que la mise à disposition de données structurées sur le web s’inscrit dans une logique de re-territorialisation : rien n’est plus démonstratif que de projeter les données sur une carte.

Imaginez par exemple que vous soyez une bibliothèque et que vous vouliez publier vos données en RDF : que pouvez-vous espérer qu’il en ressorte ? Et quelles interfaces pourront être proposées, par des tiers, quand les données seront disponibles ? Avoir les données agrégées autour d’une œuvre ou d’un auteur est bien utile mais l’on retombe sur un web documentaire classique même si le moteur est en RDF.

Alors on repense à cette histoire de re-territorialisation, et on imagine immédiatement des services de localisation des ouvrages dans les bibliothèques. On revient encore à la carte en projetant sur elle les données, même si, en l’occurrence, c’est typiquement un réflexe d’institution que de vouloir in fine « router » et ramener le public dans ses murs.

Si nous devions formuler correctement la question, il faudrait dire : « Quelles sont les informations territoriales que je possède ? » Et dans notre cas : « quelles informations territoriales possède une bibliothèque ? », si l’on retient l’idée qu’il y a corrélation entre l’ouverture des données structurées et une logique de re-territorialisation.

Pour y répondre, il faudrait tirer le fil d’une grappe RDF par les concepts de localisation : tout voir au travers du filtre d’un territoire : maison, rue, quartier, ville, région, pays, etc. Cette « perspective de données » nous dirait certainement beaucoup de choses et stimulerait l’intérêt d’avoir des interfaces graphiques appropriées. Pour l’heure, j’ai l’impression que cela tend vers une interface à la SimCity avec Google Maps, Open StreetView ou l’IGN qui fourniraient le fond d’écran des applications du web sémantique.

J’ai parlé du territoire, c’est-à-dire de l’espace, mais c’est aussi vrai du temps, ici le projet Simile avait déjà tracé la voie. Ce sont les informations avec une métadonnée temporelle ou spatiale dont le « marché » a besoin en priorité.

—

Billet initialement sur le blog de Christian Fauré

Illustration CC Flickr par yoyolabellut

Libérons les données ! De quelques aspects juridiques

Michèle Battisti — Fri, 05 Mar 2010 15:46:03 +0000

A l’heure où l’on évoque la libération des données publiques [1] et le Web des données [2], ou encore le data journalisme, il semblait utile d’approfondir cette question que l’on avait abordée en 2006 pour les données de la recherche.

Les enjeux

Dans le domaine scientifique, il est essentiel de partager les informations. Pouvoir reconnaître la qualité de biens collectifs aux résultats de la recherche devient donc un impératif. Quant au Web de données, autre exemple retenu, il implique que l’on puisse relier et interroger de manière simple les données dispersées sur le web [3], mais aussi d’en disposer sans se heurter à des obstacles juridiques.

Or, pour accéder à des données et avoir le droit de les utiliser, on s’aperçoit qu’il faut bien souvent contacter les ayants droit et négocier des licences, ce qui s’avère généralement lent et coûteux.

Pour pallier les risques croissants de réappropriation des données, liés à l’expansion actuelle de la propriété intellectuelle, ont été développées parallèlement, depuis plusieurs années, des approches techniques et juridiques dites « ouvertes ».

Les données libres et ouvertes permettent ainsi de disposer d’un fonds commun de données dans lequel n’importe qui peut puiser et ce, malgré les différences importantes des contextes juridiques et institutionnels de leur création.

Quelques rappels

DÉFINITIONS

donnée : un fait, notion ou instruction représentée sous forme conventionnelle convenant à la communication, l’interprétation ou au traitement par des moyens humains ou automatiques (afnor)

donnée publique : donnée collectée ou produite dans le cadre de sa mission, par un service public, sur des fonds publics.

donnée libre : une donnée que l’on est libre d’utiliser, de modifier et de rediffuser

donnée ouverte : l’ouverture s’applique la notion d’interopérabilité, assurée par des standards.

licence libre : contrat par lequel un titulaire d’un droit de propriété intellectuelle concède à un tiers tout ou une partie de la jouissance d’un droit, en accordant au moins la possibilité de modifier, de rediffuser et de réutiliser l’œuvre dans des œuvres dérivées. Ces libertés peuvent êtres soumises à conditions [4] (Wikipédia).

domaine public : des œuvres protégées par le droit d’auteur dont la durée des droits patrimoniaux a expiré (droit d’auteur) ou des choses communes qui n’appartiennent à personne mais dont l’usage est commun à tous (art. 714 Code civil).

LE CADRE JURIDIQUE

Le droit d’auteur. Les données « brutes » ne sont pas protégées par le droit d’auteur, mais leur mise en forme (sous forme de graphiques, diagrammes, etc.) pourrait l’être, dès lors que celle-ci s’avère originale et que la présentation des données ne découle pas automatiquement de l’utilisation d’un procédé technique ou d’un logiciel. Si, par ailleurs, la structure et choix des données sont originaux, la base de données sera protégée par le droit d’auteur.

Le droit sui generis des bases de données. Si le producteur de la base de données peut en outre prouver avoir investi de manière substantielle pour constituer et gérer sa base, il peut s’opposer à toute extraction ou réutilisation substantielle de celle-ci.

Le droit de réutilisation des données publiques. Dans ce cadre, l’administration met à la disposition du public les données qu’elle a produites ou qu’elle détient [5].

D’autres mécanismes. L’accès aux données peut être protégé a priori par un contrat et a posteriori par une action en concurrence déloyale, pour parasitisme ou pour enrichissement sans cause.

Libérer les données

Pourquoi adopter une licence ?

Même dans le cas où les données ne sont pas protégées par un droit (droit d’auteur, droit sui generis du producteur de base de données), il est recommandé de les diffuser accompagnées d’un contrat de licence.

Les utilisateurs ont, en effet, besoin de savoir d’où viennent les données (notion d’attribution), si celles-ci elles ont été modifiées (souci d’intégrité et de validation) et de connaître toutes les modalités de réutilisation autorisées.

Les recours à des contrats de licences reconnus dans le monde entier, même si celles-ci nécessitent une adaptation au droit national, permet d’organiser le partage des données en évitant, puisque les contrats sont la loi des parties, de se pencher sur le problème de la loi applicable et de se heurter à des concepts juridiques différents.

L’extrême diversité des licences

Dans son rapport, le Conseil supérieur de la propriété littéraire et artistique (CSPLA) note qu’il existe des œuvres sous licences mixtes (contenant des éléments sous licences libres et d’autres sous contrats propriétaires) ou encore des licences doubles (permettant d’opter soit pour une licence libre qui impose certaines contraintes, soit pour une licence propriétaire).

A côté des « domaines historiques d’expansion » que sont les logiciels libres, des modèles « généralistes » (licences Creative Commons ou Art Libre, par exemple), diverses communautés (informaticiens, chercheurs [6], musiciens, …) ont développé des licences qui répondent à leurs priorités. En outre, afin de les améliorer, pour s’adapter à de nouvelles pratiques ou de nouvelles législations, ces licences ont pu évoluer dans le temps et se présenter sous de nouvelles versions numérotées [7]. Le mouvement ne s’est étendu qu’ensuite et plus récemment aux données [8].

Quelle licence choisir ?

Pour s’assurer que les données restent libres et bâtir un fonds commun de données, il est important de pouvoir contrôler leurs usages. Abandonner tous ses droits de manière anticipée, en choisissant une licence qui fait entrer son œuvre dans le domaine public (comme l’Open Data Commons – Public Domain Dedication & Licence (PPDL) ou la licence CC Zéro), permet certes de les utiliser pour créer des œuvres dérivées, mais ne répond pas obligatoirement à un tel objectif, puisqu’il n’oblige pas à partager les résultats obtenus à partir des données utilisées. N’importe qui, une entreprise par exemple, pourrait se réapproprier ces données, d’où le paradoxe qui consiste à créer un droit de propriété, qui ne devrait pas exister, pour empêcher cette action.

Si l’on entend bâtir un fonds commun de collaboration, il s’avère de ce fait prudent d’adopter une logique de Copyleft qui « force » le partage. Classées dans le rapport du CSPLA parmi les licences offrant une liberté pérenne, les licences Copyleft[9] ne « se limitent pas à l’octroi du droit d’utiliser, de modifier et de diffuser l’oeuvre : elles veillent à ce que l’usage de l’œuvre copiée ou modifiée demeure libre. Dès lors que sont combinés les éléments de l’oeuvre mise à disposition, l’oeuvre seconde devra obéir au même régime », ce qui permet de s’assurer de l’existence d’un fonds commun d’oeuvres que l’on peut utiliser librement.

La licence Creative Commons BY-SA [10] qui oblige à citer la source et à partager les données obtenues à partir des données utilisées sous la même licence CC BY-SA, a été adoptée notamment par les concepteurs du projet OpenStreetMap, projet qui connaît un grand succès, qui vise à cartographier des villes à partir de données géographiques libres. Considérant toutefois qu’une licence CC vise à protéger des œuvres protégées par le droit d’auteur, les concepteurs d’OpenStreetMap songent à adopter la licence ODbL, adaptée au droit sui generis des bases de données

Le choix d’une licence n’est pas neutre

S’il convient, en préalable, de s’assurer que l’on est en mesure de céder tous les droits que la licence va conférer (coauteurs éventuels, droits d’auteur sur les œuvres incorporées, …), il convient aussi d’en apprécier l’impact avant d’opter pour l’une d’entre elles.

Kobé

Mes plus vifs remerciements à Benjamin Jean, Linagora

Ce texte sera également publié sur le site de l’ADBS

Notes

[1] Les portails gouvernementaux en Australie, aux Etats-Unis, ou encore au Royaume-Uni proposent tous des données en libre accès. Mais ces portails seraient moins riches en données que le portail français, tel que préfiguré aujourd’hui. Le niveau « d’ouverture » des données publiques accessibles via le portail français d’accès aux données publiques annoncé par l’Agence du patrimoine immatériel de l’Etat (APIE), variera selon les administrations. Le Chapitre français Creative Commons a interrogé les candidats aux élections régionales pour les sensibiliser à l’utilité de libérer les données publiques régionales.

[2] Voir aussi : L’avenir de l’information : le web de données, Hubert Guillaud, InternetActu.net, 4 décembre 2008

[3] Démontrant ainsi la nécessité de l’intéropérabilité, une condition facilitée par le mouvement Libre.

[4] La licence libre GPL (General Public License), par exemple, impose que l’on redistribue le logiciel « enrichi » après l’avoir récupéré, étudié et amélioré.

[5] Le principe d’une réutilisation des informations publiques ne s’applique pas aux informations élaborées dans le cadre d’une mission de service public à caractère industriel et commercial, ni à celles dont les tiers détiennent des droits de propriété intellectuelle, ni à celles qui contiennent des données personnelles non anonymisées lorsque l’accord des personnes concernées n’a pas pu être obtenu.

[6] Des licences spécifiques ont été développées pour certaines disciplines, BiOS Open source dans le domaine des biotechnologies, par exemple.

[7] La version 3.0 des licences Creative Commons, par exemple, tient compte du droit sui generis qui peut être conféré à certains producteurs de bases de données.

[8] Les réflexions autour des Science Commons [12] et le succès d’OpenStreetMap [17] ont joué à cet égard un rôle majeur

[9] La licence CC BY SA ou la licence Art Libre, par exemple

[10] Licence CC qui oblige à mentionner la source (BY) qui autorise les modifications, mais qui impose que les oeuvres dérivées soient proposées au public avec les mêmes options Creative Commons que l’œuvre originale.

Références

1. Rennes et Keolis: ils ont osé ! LiberTic, 1^er mars 2010

2. Vers des données régionales en libre accès, Michaël Szadkowski, blog du Monde, 10 février 2010

3. Rennes passe à l’open source pour diffuser ses infos pratiques, Christophe Guillemin, 01Net, 24 février 2010
4. Atelier Communia « Les institutions de mémoire et le domaine public » – Barcelone 1 & 2 oct. 2009 (Compte-rendu et impressions), Calimaq, S.I.Lex, 13 octobre 2009

5. The legal status of raw data : a guide for research practice, Madeleine de Cock Buning, Allard Ringnalda, CIER and Tina van der Linden (Centre for Intellectual Property Law, Surf Foundation, July 2009

6. La mise à disposition ouverte des œuvres de l’esprit, Valérie-Laure Bénabou et Joëlle Farchy, Conseil supérieur de la propriété littéraire et artistique juin 2007

7. CC0 : une nouvelle licence Creative Commons pour « marquer » le domaine public en ligne , Calimaq, S.I.Lex, 17 mars 2009

8. Mon œuvre est dans le domaine public, Michèle Battisti, Actualités du droit de l’information, 16 mars 2009

9. (Petit) Guide à l’usage des licences libres, Benjamin Jean, Intervention lors de la matinée juridique, Syntec informatique du 14 mars 2008.

10. Comment puis-je mettre mes documents sous licence Creative Commons ? Michèle Battisti, Actualités du droit de l’information, janvier 2008

11. Principes pour des données publiques ouvertes, Hubert Guillaud Internet Actu, 20 décembre 2007

12. Science Commons : une solution pour le partage des résultats scientifiques, Michèle Battisti avec la collaboration d’Arabelle Baudette, Actualités du droit de l’information, n° 67, mars 2006

13. Les contrats Creative Commons, Michèle Battisti, Actualités du droit de l’information, n° 52, novembre 2004

Définitions. Guide

14. Open Definition. Un tableau des licences. Sur le site Open Definition

15. Guide to Open Data Licensing. Sur le site Open Knowledge Foundation Wiki

16. Openstreetmap. Sur le site Wikipédia

Présentations ppt

17. Le statut juridique de la donnée libre, Benjamin Jean, Linagora, 17 septembre 2008

18. Data sharing : social and normative, Kaitlin Thaney, 25 octobre 2009

19. Rights Statements on the Web of Data, Leigh Dodds, 25th October 2009

Présentation audiovisuelle

20. Le web des données. Emmanuelle Bermès, 5 à 7, ADBS (en ligne prochainement)

Billet initialement publié sur Paralipomènes

Image bionicteaching sur Flickr

Data data data

Benoit Vidal — Mon, 25 Jan 2010 07:24:49 +0000

Ce billet a été rédigé par Benoit Vidal, étudiant en 4ème année à l’École des Hautes Études des Technologies de l’Information et de la Communication.

Cela fait déjà quelques temps que l’on peut considérer que nous sommes en pleine infobésité. Avec les blogs, les réseaux sociaux, le temps réel, les addicts de l’information ont de quoi assouvir leur dépendance. C’est dans cet espace que l’on voit apparaître un désir de traitement de l’information différent, plus proche des besoins du récepteur. Du journalisme de liens à l’hyperlocal (ou micro local), l’enjeu est bien celui des données. Ce que l’on appelle data(base) journalism, le journalisme de données, s’inscrit clairement dans trois trajectoires de l’ère de l’Information dans laquelle nous venons à peine d’entrer.

Le premier point, sur lequel je ne m’épancherai pas car Caroline Goularddresse un état des lieux lucide dans un mémoire, est la crise/disparition de la presse papier, l’avènement du web et les changements profonds qu’ils provoquent dans l’économie de la presse.

Raw Data Now

La seconde trajectoire est plus scientifique et concerne le web sémantique, un web des données. Avec un approfondissement et une complexification du web, c’est un saut quantitatif et qualitatif sans précédent, aux conséquences socio-économiques encore largement insoupçonnées. Afin de donner de l’élan à ce web de données, Tim Berners Lee (créateur du web) a lancé le paradigme Linked Data ou données liées. Son slogan Raw Data Now suppose de libérer les données telles qu’elles. C’est la première étape inévitable pour un web avec plus de sens, un web « sémantisé ». Lancé par le gouvernement Obama et leur data.gov, ou des organismes tels que la Sunlight Foundation, on assiste aujourd’hui à de véritables lâchés de données.

La visualisation de données est un des grands défis de ce siècle.

Que faire de ces données brutes ? La réussite des visualisations graphiques interactives du New-York Times relève de leur capacité à faire travailler ensemble journalistes, interaction designers et développeurs afin de donner du sens à l’intéractivité, un sens visuel… à des données qui n’en ont pas, de leur donner une lisibilité, une accessibilité. C’est là toute la difficulté et c’est de la synergie des différents métiers que naîtra la cohérence. Ce traitement de l’information est vraiment pertinent lorsque l’on pense que nous n’en sommes qu’au début du tout numérique. Le lecteur des journaux gratuits chaque matin trouvera certainement un intérêt dans des e-books (Kindle, Tablet Mac) s’ils apportent une réelle plus-value à un canard papier, s’il peut prendre part à ce qu’il regarde, s’il peut jouer avec l’information. L’expérience sera pour lui plus enrichissante, en opposition avec le journalisme narratif. Je vous invite à regarder cette vidéo avec Manuel Lima, Interaction Designer et fondateur deVisualComplexity.com, au sujet de la visualisation de données.

Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write.

George Wells n’avait pas tort. Cependant, nous ne sommes pas encore dans un contexte de data-obésité comme on peut connaître aujourd’hui uneinfobésité réelle. Tout comme l’information signifie pouvoir, il y a beaucoup de réticences à libérer des données, notamment en France. Data War ?

En conclusion, je vous laisse lire Eric Scherer, directeur stratégie et relations extérieures de l’AFP :

L’an dernier, la page la plus visitée du site du New York Times fut une infographie interactive. Le problème, c’est que les groupes de presse français disent ne pas savoir où trouver les talents pour faire un travail de cette qualité.

Avons-nous ici la seule raison ?

—

» Article initialement publié sur le site de Benoît Vidal et repris sur Database Journalism /-)

« On l’a pas en format ordinateur »

Nicolas Kayser-Bril — Thu, 17 Dec 2009 17:58:20 +0000

Nicolas Kayser-Bril, data journaliste et blogueur invité, propose un retour d’expérience sur un projet qu’il publiera au printemps prochain

Un projet de database journalisme commence toujours par la récolte des données. Très opportunément, plein d’organismes étatiques adorent collecter des données, que ce soit le nombre de plantations de kiwi dans le Tarn-et-Garonne (187 d’après Agreste) ou le nombre de menaces ou chantage dans le Nord (384 en octobre d’après Cartocrime).

L’administration adore les bases de données. Et souvent, elle ne rechigne pas à les mettre en ligne.

Là où le bas blesse, c’est qu’elle fait tout pour que ces données restent cloisonnées, en dehors du web. La preuve ? Impossible de faire un lien vers les ressources que j’ai citées plus haut.

Je travaille en ce moment sur un projet agrégeant des données départementales. Ce qui implique d’appeler chaque préfecture. A quelques exceptions près, les fonctionnaires transmettent les fichiers demandés (faut dire que ce sont des données déjà publiées hors-ligne).

La qualité des documents, en revanche, laisse à désirer. 20% des fichiers sont au format Excel. 10% au format Word. Le reste, du PDF. En enlevant les tableurs faits avec les pieds et en rajoutant les pdfs convertis depuis Excel, environ 25% des données sont structurées, c’est-à-dire lisibles par un ordinateur.

Exemple imaginaire :

Donnée non-structurée : « Les classes de CM2 de l’école du quartier Saint-Jean sont fermées pour cause de grippe A. Les élèves concernées sont priés de rester chez eux, sauf ceux inscrits à la chorale, qui pourront répéter à l’école Jean Moulin. »

Donnée structurée :

Au-delà du problème de la structuration des données, force est de constater que les administrations ont du mal à passer à l’informatique. Un nombre non-négligeable de préfectures, environ 10%, n’y comprennent tellement rien que j’ai eu du mal à ne pas mourir de rire au téléphone.

La palme de l’inefficacité revient à celles qui ont pris le temps de scanner des documents Word imprimés. Mais le meilleur reste cette réplique d’un charmant fonctionnaire d’Evreux : « Désolé, on l’a pas en format ordinateur ».

Ouvrir les données, c’est bien. Les rendre exploitables, c’est mieux. Dans la plupart des pays moins corrompus que la France, l’accès aux données est une question réglée depuis plusieurs années. Le nouveau débat concerne leur format et leur facilité d’accès.

Le Sénat américain propose le résultat des votes au format XML depuis mai dernier. Beaucoup plus simplement, le gouvernement suédois tente de rassembler en un même portail l’ensemble des bases de données de ses ministères en indiquant leur degré de structuration (opengov.se).

Le problème a apparemment été discuté à l’Opendata Barcamp à Paris vendredi dernier (mais pas moyen de savoir quelles en ont été les conclusions).

—

» Article initialement publié sur Databasejournalism

Des réponses intéressantes aux questions soulevées par l’auteur ont été ajoutées en commentaires /-)

Nicolas Kayser-Bril, data-journaliste

Tatiana Kalouguine — Tue, 10 Nov 2009 12:42:44 +0000

Nicolas Kayser-Bril est jeune et il cherche à vivre du journalisme. Comme des centaines d’autres. Mais celui-là a de l’or dans les doigts : des idées excellentes, un talent pour se faire ouvrir les portes et dénicher les données qui l’intéressent, des compétences en programmation et surtout l’art de mettre tout cela à profit pour créer des outils interactifs et malins. NKB nous parle de son métier : data-journaliste …

Cliquer ici pour voir la vidéo.

Le genre journalistique a fait ses preuves aux Etats-Unis et aussi outre-Manche. Quelques exemples :

- Data & Taxes 2010, par WallStats.com (site de Jess Bachman, 28 ans). Répartition du buget fédéral américain, révélant les véritables « priorités » de l’administration US.

- EveryBlock, du journaliste Adrian Holovaty, qui vous permet de connaître les crimes et comportements antisociaux qui ont eu lieu près de chez vous (on peut apprécier l’outil et réprouver les fins, of course)

- Crime Mapper, une moulinette de la britannique National Policing Improvement Agency (!!) , pâle copie de la précédente.

- Stock Ticker Orbital Comparizon, qui utilise la métaphore d’un système planétaire pour représenter les valeurs de l’indice S&P500.

(Bon, il y en a des centaines d’autres…)

Ce que ces outils très différents ont en commun c’est qu’ils nous permettent à vous et moi d’apprécier des bases de données plutôt mastoc grâce à une interface ludique, pratique ou simplement agréable à regarder. Avec en plus un côté interactif qui en fait tout l’intérêt par rapport à un simple graphique en deux dimensions.

En France pourtant (quelle surprise), ce type de documents interactifs a bien du mal à convaincre les sites des grands journaux et même les site d’infos « pure players » sur le web. Je n’en connais qu’un : la Carte de la crise sociale de Mediapart, en fait un simple « mashup » de GoogleMaps, renseigné par la rédaction et régulièrement mis à jour.

Et qui c’est d’après-vous qui se trouve derrière ce classement des députés cumulards sur Le Monde/Le Post ? Un certain NicolasKB…

Si vous connaissez d’autres exemples de dataJ français, je suis preneuse!

Pour faire connaître son boulot, Nicolas a donc créé son propre blog, Windows on The Media. Il publie aussi sur le site d’Owni et a quelques projets en cours, notamment pour le Monde.fr.

Ce petit gars aurait-il 10 ans d’avance ? Manifestement les promoteurs ne se bousculent pas au portillon. Quelques contacts sont en vue, mais rien de très consistant pour le moment. Le data-journalisme ne nourrit pas encore son homme.

Pour le contacter sur Twitter : @nicolasKB

—
» Interview réalisée par Tatiana Kalouguine pour son blog La Voix du Dodo