Les politiques publiques n’ont pas encore pris la pleine mesure de la révolution numérique. C’est en particulier le cas pour ce qui est des données. Or, seule une politique ambitieuse de production et de circulation de données, du secteur public vers le secteur privé mais aussi du secteur privé vers des usages collectifs de l’information. Les données ne peuvent plus être considérées comme une propriété strictement privée et leur qualité doit être contrôlée. Une telle politique, pro-active, de « données ouvertes » (open-data) peut soutenir la recherche dans des domaines clés comme la santé et la mobilité, venir en appui des choix publics, porter des activités économiques durables et assurer la concurrence quand elle est souhaitable, renforcer la démocratie, protéger les consommateurs et les citoyens. Certes, le couplage de banque de données, indispensable pour doper les retombées positives du big data, doit protéger la vie privée, mais il faut éviter une interprétation excessive des dispositifs légaux de protection des données personnelles.
La collecte, le traitement et l’utilisation de données à des fins commerciales ou autres (recherche, action publique…) ne datent pas d’hier. Les enjeux des données ne sont donc pas neufs :
- Qui produit de l’information et dans quels buts ?
- Quelle place des acteurs privés et quelle place des acteurs publics ?
- Où et comment les données sont-elles stockées ?
- Qui y a accès ? A quelles conditions et par quelles techniques ?
Est-ce à dire que la révolution numérique ne change pas grand-chose à ces questionnements ? Non, bien sûr, il y a trois évolutions majeures :
- Le traitement d’informations par des dispositifs d’intelligence artificielle (IA), qui génère des questions spécifiques.
- Les quantités énormes de données produites, qu’il faut contrôler, stocker, gérer et exploiter.
- L’ampleur et le détail de données « personnelles ».
Dans ce contexte, en pleine évolution, la note de l’Institut pour un Développement Durable vise à éclairer cinq catégories d’enjeux liés aux données à l’ère du numérique :
- le contrôle (de la qualité et de la pertinence) des données
- la qualité/justesse des informations contenues dans les banques de données et de celles qui en découlent
- l’accès à l’information
- la numérisation de données qui ne le sont pas
- quelques autres enjeux.
La note de l’IDD conclut l’analyse avec quelques pistes d’action (point 6).
1. Le contrôle (de la qualité et de la pertinence) des données, notamment de celles injectées dans des dispositifs d’IA basés sur l’apprentissage profond, et des résultats qui en découlent
Par définition, ce qui sort comme analyses ou impulsions d’un dispositif d’IA basé sur l’apprentissage dépend étroitement des données qui sont injectées pour activer les réseaux de neurones. Tout utilisateur d’un tel dispositif devrait donc être en droit de connaître les données qui ont servi à alimenter le dispositif. L’exemple de la technologie de la reconnaissance faciale, parfois « orientée », illustre bien cet enjeu.
2. D’une manière générale se pose la question de la qualité/justesse des informations contenues dans les banques de données et de celles qui en découlent
Le contrôle de la qualité/justesse des données se pose d’une manière globale. La quantité d’informations rend difficile le contrôle de chaque donnée. Des altérations volontaires (ex : les logiciels truqués concernant les émissions de voitures, des manipulations comptables…) ou involontaires (erreurs de codage, différences de classements ou définitions…), sont possibles, compromettant dès lors les résultats issus du traitement de ces données.
Cette problématique n’est pas spécifique aux big data. Mais la grande taille des banque de données comme leur utilisation diffuse nécessitent de mettre en place des garde-fous spécifiques comme des techniques de repérage d’erreurs.
3. L’accès à l’information : pour une libre circulation des données, dans le respect de la vie privée
C’est pour moi le défi essentiel, parce que c’est la libre circulation des données qui permettra de contrôler leur qualité, de lutter contre la constitution de monopoles ou oligopoles, de susciter et d’alimenter de nouvelles activités, de booster la recherche scientifique et industrielle, d’éclairer et d’orienter l’action publique. Les difficultés d’accès à l’information prennent de nombreuses formes :
- Les difficultés d’accès liées à la non-numérisation, non seulement d’archives passées mais aussi d’une partie de l’information produite aujourd’hui.
- Les difficultés d’accès liées aux manques de moyens des fournisseurs publics d’informations.
- Les difficultés d’accès liées à une interprétation trop stricte de la protection de la vie privée. Il doit être possible de développer des techniques protectrices, par exemple en intervenant à distance sur des données sans y avoir un accès direct.
- Les difficultés d’accès liées aux réticences des « propriétaires » de données, propriétaires commerciaux certes, ceux auxquels on pense le plus souvent, mais aussi les propriétaires agissant dans le domaine du non marchand.
- La lenteur d’arrivée de certaines données les rend moins intéressantes une fois disponibles.
- Le non accès à des données privées mais d’intérêt général. Un exemple très parlant est celui de la non publication par des laboratoires de recherche de résultats négatifs ce qui entraîne, par exemple, le financement par d’autres acteurs privés et/ou publics de recherches dont on aurait pu savoir dès le début qu’il s’agissait d’impasses.
- D’une manière générale de nombreux domaines de recherche dépendent aujourd’hui de l’accès à des banques de données spécifiques (celles relatives à des recherches menées par d’autres ou des banques de données « généralistes » détenues par les GAFA, les banques, les détaillants, les assureurs, les mutuelles et beaucoup d’autres acteurs) mais plus encore de l’accès à des banques de données couplées. C’est notamment le cas en matière de santé.
- L’accès différencié de candidats ou partis à des données stratégiques (pour des raisons financières et/ou partisanes) risque de poser autant de problèmes démocratiques que l’inégal accès à des ressources financières.
- De même l’accès difficile à des documents internes à l’administration ou aux cabinets ministériels est un frein à la vigueur démocratique. L’existence même de certains rapports n’est pas connue.
- L’action publique aussi a besoin d’informations détenues dans des banques de données privées. Les données collectées par UBER (ou entreprises équivalentes, y compris les sociétés de taxis) ou les opérateurs de téléphonie mobile peuvent être d’une grande utilité dans la définition et le suivi d’une politique de mobilité.
- La création de monopoles liée au non-accès aux données pour des « entrants » (potentiels) sur le marché. C’est ainsi que des start-up peuvent être limitées dans leur développement parce qu’elles n’ont pas accès aux données nécessaires pour « entraîner » leurs dispositifs d’IA.
- L’accès à des résultats de la mise en Å“uvre de dispositifs d’IA ou d’applications spécifiques est aussi un enjeu en matière de diffusion de l’information. C’est ainsi, par exemple, que les résultats de démarches d’IA effectuées sur des simulateurs de vol peuvent intéresser tous les acteurs de la sécurité aérienne.
- Le coût trop important d’accès à des revues scientifiques, parfois même à des articles basés sur des financements publics, est un frein pour la recherche, en tout cas pour les chercheurs/pays les plus pauvres et les experts indépendants.
C’est une véritable politique d’open-data proactive qu’il faut mettre en route. Les données ne peuvent plus être considérées comme une propriété strictement privée. Comme le souhaitent les économistes de l’Economic Prospective Club, « il convient de protéger l’usage qui est fait des données plutôt que les données en tant que telles. »
4. La numérisation de données qui ne le sont pas
De nombreuses données, en particulier de la responsabilité du secteur public, ne sont pas numérisées, souvent par manque d’ambition statistique. En tout état de cause une excuse facile – les données ne sont pas structurées rendant leur numérisation et leur organisation impossibles ou trop coûteuses – ne tient plus la route : une des caractéristiques des outils d’IA est précisément de pouvoir lire et interpréter des données mêmes non structurées.
5. D’autres enjeux
J’en vois six principaux :
- Les problèmes liés au stockage des données.
- La formation d’un nombre suffisant de spécialistes des questions liées aux big-data.
- Le risque de lock-in socio-culturel lié aux « prescriptions » découlant de l’exploitation d’informations par des dispositifs d’IA. C’est ainsi que les « suggestions » proposées par des sites d’informations, commerciaux ou de vidéos à la demande risquent d’enfermer leurs utilisateurs et de les conforter dans leurs visions et leurs habitudes. Le cas de la justice dite prédictive est à cet égard tout aussi parlant. Elle doit être un outil d’aide à la décision, pas la décision.
- Les nombreux échecs ou en tout cas retards, explosion des coûts… liés à la mise en place de banques de données.
- La nécessaire réforme du droit d’auteur pour « permettre d’autoriser les pratiques de fouille de texte et de données (text and datamining) dans un objectif de compétitivité de la recherche publique. »
- L’intégration de données micro-économiques du big data dans l’analyse macro-économique et le suivi conjoncturel est encore à développer.
6. Pistes d’action
Il m’apparaît qu’il faut centrer l’action publique autour de cinq axes (en plus des politiques mises en place ou souhaitables en matière de protection des données personnelles et des politiques visant à diminuer l’empreinte écologique de la filière des données, politiques pas abordées dans cette note) :
- Développer une culture statistique, portant sur les données en général, big data bien sûr y compris, mais pas seulement.
- Susciter/encourager la production et la diffusion d’informations d’intérêt général.
- Activer les moyens nécessaires pour que des organisations belges (entreprises, pouvoirs publics, universités) puissent participer, ou continuer à la faire, à des activités, publiques et privées, générant des données dans des secteurs stratégiques (exploration spatiale, exploitation des océans, santé personnalisée, véhicules autonomes…). On notera à cet égard que les partenaires de telles collaborations seront de plus en plus des entreprises privées investissant stratégiquement dans des activités de récolte de données nouvelles dans l’espoir de se rendre incontournable dans le domaine d’activité choisi.
- Développer l’intégration d’informations (données et schémas comportementaux) issues de l’analyse du big data dans l’analyse macroéconomique et le suivi conjoncturel, notamment via le web scraping. D’une manière générale l’exploitation du big data, en particulier à une époque de déclin dans les taux de réponse aux enquêtes, peut aider à comprendre, mieux qu’aujourd’hui, les évolutions des comportements susceptibles d’éclairer les choix politiques dans divers domaines d’action (logement, santé, mobilité…) des gouvernements.
- Développer la constitution de banques de données et leur exploitation. Voici, à titre exemplaire, quelques axes qui pourraient structurer une politique des données :
- Dans le domaine de la santé, la constitution d’une banque de données portant sur les analyses de sang ; son couplage à d’autres banques de données relatives à la santé (en particulier les informations détenues par les mutuelles) devrait permettre, via des techniques d’IA, de tirer un maximum d’enseignements et d’orientations en matière de recherche.
- Dans le domaine de l’enseignement, une banque de données, à constituer progressivement, reprenant depuis l’enseignement fondamental les parcours des élèves/étudiants, avec le plus de caractéristiques possibles pour mieux qu’aujourd’hui éclairer les choix politiques sensibles.
- Dans le domaine de la mobilité, il faut forcer le couplage, via des techniques d’IA, de données issues d’opérateurs privés, de celles dont disposent les sociétés de transport, des flux mesurés localement (il faut ici stimuler les autorités locales pour les produire) et d’informations obtenues par web scraping.
- Dans le domaine social, où les données détenues par la Banque Carrefour de la Sécurité Sociale constituent un excellent point de départ, la mise en perspective et l’analyse des parcours, grâce à l’exploitation d’autres données (formations initiales et au long de la carrière, interruptions de carrière, secteurs d’activité, mobilité géographique …), pourraient éclairer de nombreux débats concernant les politiques sur le marché du travail.
- Enfin, dans le domaine social toujours, l’analyse fouillée des dossiers et décisions des CPAS dans le domaine des aides sociales devrait permettre de mieux comprendre les « logiques » à l’œuvre, leurs évolutions et leurs différences entre CPAS.
Plus d’analyses et d’illustrations dans la note jointe. Comme cette note propose de nombreuses illustrations, citations et notes de bas de page, le lecteur plus pressé trouvera une note allant à l’essentiel (Version courte).