Accès direct au contenu

English flag English

Recherche avancée

ADBS
L'association des professionnels de l'information
et de la documentation


Vous êtes ici : Accueil > Accéder à la doc professionnelle > Droit de l’information > ADI

Droit de l’information

Une exploration juridique du datamining

publié le 28 juin 2011

Web des données, libération des données publiques, ou journalisme de données, ces thèmes, si souvent évoqués aujourd’hui, représentent des questions juridiques passionnantes.

Lead Type ADI 120 « L'avenir est dans les données », a-t-on entendu lors du congrès I-Expo 2011. Puisque les données sont amenées à avoir un tel poids, le datamining [1], bien que mode traditionnel d'exploitation des données, reste approprié pour illustrer ce sujet à partir de quelques exemples.

 

  Le datamining pour faire parler les données

Le datamining consiste à extraire des informations pertinentes et non décelables immédiatement par des méthodes automatiques ou semi-automatiques, à partir d'une base constituée d'un très grand volume de données internes et/ou de données rapatriées.

En combinant le datamining et lalinguistique, on peut traiter de grandes masses de données textuelles, découvrir rapidement les thèmes abordés et les structurer sans les connaître a priori.

Le datamining a de nombreuses applications commerciales ou scientifiques. Dans le monde de l'entreprise, il permet de générer automatiquement des baromètres de satisfaction, des rapports sur l'image de l'entreprise ou l'état de la concurrence. Il sert aussi à découvrir des informations cachées (par exemple, les nouveaux domaines de recherche dans les brevets déposés), à communiquer avec ses clients en utilisant leur vocabulaire, etc.

 

Un enchevêtrement d'usages et de droits

Regrouper des corpus, en extraire des parties pour diffuser les résultats d'une analyse soulève des questions de droit d'auteur, de respect de la vie privée, de droit de la concurrence et de droit des contrats.

 

Pour accéder au corpus

Le droit des contrats. L'accès aux données est libre, mais les conditions d'utilisation seront définies par le site qui les héberge. Si l'on prend pour exemple Google Livres, selon le premier projet de Règlement, seuls des chercheurs « qualifiés », accrédités par Google, seraient autorisés à explorer le corpus par des techniques de datamining pour des recherches qui, entreprises à des fins non commerciales, ne doivent pas concurrencer l'un des services de Google. Les conditions générales d'utilisation (CGU) de Facebook [2] interdisent d'utiliser des logiciels de moissonnage, même s'ils n'ont aucun impact sur le système informatique.

Dans certains cas, l'accès au corpus lui-même sera réservé à des utilisateurs dûment autorisés. Il convient alors de négocier avec les ayants droit pour définir les modalités de cet accès et les responsabilités de chacune des parties afin d'obtenir des garanties supplémentaires. Des outils d'analyse des médias, c'est ce que proposent ainsi aujourd'hui les agrégateurs de presse, dans une prestation globale où la consultation des articles n'occupe plus qu'un second plan.

Pour numériser des textes

Le droit d'auteur. Reproduire un texte protégé par le droit d'auteur sur un nouveau support nécessite l'autorisation des titulaires des droits.

Pour réaliser les différentes copies de corpus, simples instruments intermédiaires d'une analyse (qui elle seule sera diffusée), ne bénéficierait-on pas de l'exception au droit d'auteur qui permet d'effectuer, sans autorisation expresse, des copies techniques, transitoires et accessoires n'ayant aucune signification économique indépendante ?

Dans le cadre d'un procès opposant un journal danois à un prestataire de veille, la Cour de justice de l'Union européenne (CJUE) [3]  a estimé que seules les copies faites de manière automatisée et dont la durée de vie est limitée à ce qui est techniquement nécessaire relèvent de cette exception [4].

Le droit des contrats. Ce droit intervient aussi lorsque l'on recourt à un prestataire pour héberger les corpus sélectionnés, qu'il s'agisse d'outsourcing classique ou de cloud. Comme toute autre prestation informatique, il faut veiller à ce que les contrats pallient tous les risques, notamment au regard de la discontinuité du service, de la divulgation de données confidentielles, de la perte des données, de l'interopérabilité, ou encore de la réversibilité (la possibilité d'opter pour un autre système...) [5].

Pour extraire des données

Le droit d'auteur. L'indexation, qui consiste à caractériser les idées contenues dans un texte ou un ensemble de données par plusieurs mots-clés, est libre, le droit d'auteur ne protégeant pas les idées mais uniquement leur mise en forme.

Dans le procès danois déjà évoqué, les mots-clés sélectionnés dans les articles de presse étaient accompagnés des cinq termes qui les encadraient. Chaque article étant susceptible de contenir plusieurs mots-clés, la reproduction de tous les termes retenus constitue une reproduction partielle de l'œuvre, ce qui pourrait impliquer une autorisation expresse des ayants droit. Invoquer le droit de citation ? Il faudrait que l'indexation soit humaine, pré requis exigé par les juges [6].

Quant aux programmes utilisés pour les opérations de datamining, ils font également appel au droit d'auteur du logiciel et leurs conditions d'utilisation, définies par contrat, doivent être respectées. Attention toutefois aux outils grand public proposés sur les réseaux : on s'engage bien souvent à en faire un usage personnel, ce qui interdit a priori tout usage collectif au sein d'une organisation.

Le droit des bases de données. Le producteur d'une base de données qui a investi de manière importante pour la construire et la mettre à jour peut s'opposer à toute extraction quantitativement ou qualitativement substantielle de sa base, même si celle-ci est constituée d'éléments non protégés par le droit d'auteur. Cette disposition s'applique donc aux éléments factuels, aux œuvres dénuées d'originalité, à celles appartenant au domaine public du fait de l'expiration des droits patrimoniaux de l'auteur, c'est-à-dire à tout corpus de données, comme une base de métadonnées par exemple.

Le droit de l'informatique. Aspirer un site pose un problème au regard de la loi Godfrain qui protège les biens et moyens de traitements informatiques. Elle sanctionne l'intrusion informatique qui se traduit par la suppression ou la modification de données, par une altération ou un obstacle au fonctionnement du système ou par l'introduction frauduleuse de données. Encore faut-il le prouver ! Le 11 janvier 2011, le TGI de Bordeaux a relaxé le veilleur qui avait utilisé un logiciel pour aspirer les données d'un site concurrent, aucune preuve n'ayant été donnée sur l'entrave au bon fonctionnement du site par le passage de son logiciel. Pourtant, même en l'absence de tout préjudice, le simple fait d'accéder ou de se maintenir frauduleusement dans tout ou partie du système est déjà passible de 2 ans d'emprisonnement et de 30 000 € d'amende.


(suite) >>>>>>


Rédigé par Michèle BATTISTI

mise à jour le 6 juillet 2011


Ill. Lead type. jm3. CC by-sa. Flickr

Références

[1] Actualisation d'un article publié en juillet 2010 dans Actualités du droit de l'information (ADI)

[2] Intelligence économique et veille stratégique : une approche juridique de l'utilisation des logiciels, Frédéric Martinet, Actulligence, 29 mars 2011

[3] Infopaq International A/S contre Danske Dagblades Forening. Affaire C-5/08. Arrêt de la Cour du 16 juillet 2009. JOUE du 12 sep. 2009

[4] Autour de l'indexation, Michèle Battisti, ADI, octobre 2009

[5] Le cloud computing : un mode d'exploitation risqué ? M. B., ADI, septembre 2009. Le cloud computing : une révolution contractuelle ? M. B., ADI, octobre 2010

[6] Pas d'exception de courte citation pour Google Livres ? M. B., ADI, 11 février 2010

contact 

[Publicité]

haut de la page

ADBS.fr - Site du premier réseau européen de documentalistes