For the English version, go here.
Les banques classiques proposent désormais à leurs clients une application permettant d’effectuer des transactions sur un smartphone. Mais les données en provenance du smartphone sont le plus souvent décodées et rentrées dans le système central pendant la nuit, puis sont traitées et finalement recodées le lendemain pour être renvoyées à l’application du smartphone. Résultat: il faut deux jours pour que votre compte soit mis à jour après une transaction sur votre téléphone.
Par contraste, dans les systèmes bancaires qui datent du XXIe siècle, tous les traitements ont lieu dans le même centre de données accessible par Internet. De plus, l’application du portable et celles des services centraux communiquent de manière immédiate parce qu’elles utilisent le même format et la même catégorisation des données. Résultat : les comptes sont mis à jour instantanément après une transaction sur le smartphone. On dit que les systèmes d’information des nouvelles banques sont conçues dès l’origine de manière data-centrique. En fluidifiant la circulation de l’information, l’enjeu central de l’organisation data-centrique est d’améliorer l’expérience du client ou, selon une autre formulation, de créer plus de valeur pour le bénéficiaire d’un service.

La chaîne de valeur
La notion de valeur possède un champ sémantique étendu. Il peut s’agit de valeurs éthiques, comme la justice, le courage, la sagesse ou l’harmonie des relations humaines. Ces valeurs-là n’ont évidemment pas de contreparties monétaires. Quant aux biens et services qui s’échangent sur le marché, au-delà d’un ajustement provisoire et local de l’offre et de la demande, il est bien difficile d’assigner une essence à leur valeur. La valeur proprement économique peut correspondre à une nécessité (comme celle de manger), à un désir de distraction ou de beauté, à l’accélération d’un travail ennuyeux, à un espoir de gagner de l’argent (loterie ou instrument de spéculation), à une amélioration de la qualité de vie, à l’acquisition de compétences, à une compréhension élargie qui nous rendra capable de mieux décider, à un avantage compétitif, à une image plus flatteuse, etc. La valeur n’est donc pas une fonction simple du travail investi dans la production d’un bien ou d’un service. Elle dépend de l’appréciation subjective et des comparaisons de ceux qui en bénéficient, le tout prenant place dans un contexte économique et culturel changeant. Malgré le caractère évanescent de son essence, qui tient probablement à son rapport au désir, la valeur est au cœur de la théorie économique et de la pratique des entreprises. Toute organisation crée de la valeur pour ses clients (une entreprise privée), son public (un service municipal) ou ses patients (un hôpital) et cette création constitue la principale justification de son existence.
Il est souvent utile de distinguer entre deux personnes distinctes, le client, celui qui paye pour le bien ou le service, et l’utilisateur ou le consommateur, qui s’en sert. Par exemple, le service informatique d’une entreprise (le client) achète un logiciel, mais ce sont les employés (les consommateurs) qui s’en servent. Dans l’analyse qui suit, je me concentrerai sur les relations entre les producteurs et les consommateurs de la valeur. Chaque collaborateur crée de la valeur pour les collègues qui viennent après lui sur la chaîne, la bonne exécution de leur travail dépendant de la sienne. La chaîne de valeur ne s’arrête pas nécessairement aux frontières d’une seule organisation. Elle peut connecter des réseaux d’entreprises, qui peuvent elles-mêmes être implantées dans plusieurs pays, chaque type d’entreprise contribuant qui à la conception, qui à la production des pièces, qui à l’assemblage, qui au transport, qui à la vente. Les chaînes d’approvisionnement, dont on parle tant depuis la pandémie de COVID-19, sont un cas de chaîne de valeur qui concerne plus particulièrement les activités matérielles et les transports au sein d’une filière particulière. Le consommateur final bénéficie de la valeur créée à chaque étape de la production du bien ou du service.
L’augmentation de la productivité des organisations et des filières fonde la prospérité économique. Cette augmentation vient d’innovations permettant de créer plus de valeur à moindre coût. Or la performance globale d’une entreprise – ou d’une plus vaste chaîne de valeur – dépend de la performance de chaque activité ou métier, mais aussi de la liaison qui existe entre ces activités. Nous rejoignons ici le thème de l’organisation data-centrique, car les activités – et plus encore les liaisons entre les activités – nécessitent la réception, le traitement et l’échange d’informations.
De l’informatique centrée sur les applications à l’informatique centrée sur les données
Dans la seconde moitié du XXe siècle, lors de la première vague d’informatisation, chaque “métier” d’une entreprise avait développé des applications pour augmenter ses performances: le système de conception assisté par ordinateur, les automatismes de production, la gestion des stocks, la paye des employés, la comptabilité de l’entreprise, la base de données des clients, etc. Chaque application particulière était conçue selon les normes culturelles et le vocabulaire de son milieu d’utilisation. Les données d’entrées étaient formatées spécialement pour l’application qui les utilisait tandis que les données de sortie étaient mises en forme pour les besoins de leurs utilisateurs immédiats. On avait donc une informatisation “en silos” centrée sur les applications, chaque application commandant la structure de ses données d’entrée et de sortie.
la banque classique du début de ce texte est un bon exemple de cette informatique du XXe siècle, dont le principal défaut est la difficulté de communication entre les applications. En effet, le découpage conceptuel et le formatage des données de sortie d’une application ne correspondent pas forcément à ceux de l’entrée d’une autre application. Par exemple, si le logiciel de gestion de stock ne partage pas ses données avec celui de la base de données des clients, la réponse rapide à une commande est malaisée. Mais depuis le début du XXIe siècle les connexions à l’Internet se sont multipliées et banalisées. Sur le plan matériel, le traitement de l’information a lieu de manière croissante dans les grands centres de données d’Amazon ou de Microsoft qui louent à leurs clients de la mémoire aussi facilement que des places de stationnement et de la puissance de calcul à la demande comme s’il s’agissait d’électricité. Mémoire et puissance de calcul deviennent des marchandises disponibles sur le marché (“commodities“) que l’on a plus besoin de produire soi-même. C’est ce qu’on appelle la nuagique, ou cloud computing en anglais. Sur le plan logiciel, les API (application programming interfaces) sont des interfaces de codage / décodage des données permettent aux applications d’échanger leurs informations. Sous l’effet des mutations qui viennent d’être évoquées, l’informatique centrée sur les applications apparaît de plus en plus obsolète, bien qu’elle reste la situation de fait dans la majorité des organisations en 2021.
Par contraste avec celle du XXe siècle, l’informatique du XXIe siècle est centrée sur les données. Il faut se représenter un entrepôt commun dans lequel différentes applications viennent chercher leurs données d’entrée et déposer leurs données de sortie. Au lieu que des données spécialisées s’ordonnent autour d’applications particulières, ce sont de multiples applications, dont certaines sont éphémères, qui s’ordonnent autour d’une mémoire numérique commune et relativement stable. On dit alors que les applications deviennent interopérables. Le décollement de l’informatique data-centrique peut être datée de 2002, lorsque Jeff Bezos, le dirigeant d’Amazon, a demandé à tous ses développeurs de rendre accessible et de publier leurs données par l’intermédiaire d’une API.
Sur un plan économique, l’informatique data-centrique améliore la productivité des organisations puisqu’elle permet aux différentes activités de partager leurs données et de se coordonner plus facilement : la chaîne de valeur se fluidifie. Contrairement à ces administrations affichant des formulaires indéchiffrables en jargon bureaucratique et qui demandent dix fois aux usagers de redonner les mêmes informations sous des formes différentes parce que leurs applications ne communiquent pas, les grandes entreprises de nuagique comme les GAFAM et les BATX ont habitué les consommateurs à des temps de réaction immédiats et à des interfaces optimisées. Les entreprises les plus riches du monde sont data-centriques. Il en est de même de secteurs dynamiques de l’économie comme l’industrie du jeu vidéo ou de la distribution de films et de séries en ligne. Puisque les bénéfices de l’informatique data-centrique sont tellement évidents, pourquoi n’est-elle pas mise en oeuvre partout? Parce qu’il ne peut exister d’informatique data-centrique hors d’une organisation data-centrique et que le passage à ce nouveau type d’organisation réclame une mutation épistémologique et sociale considérable. Les grandes entreprises de nuagique datent du XXIe siècle ou de la toute fin du XXe siècle. Elles sont nées dans le paradigme numérique et ce sont elles qui ont inventé l’organisation data-centrique. Les industries plus anciennes, en revanche, peinent à suivre.
A une activité quelconque (production, vente, etc.) correspond une culture pratique, c’est-à-dire une certaine manière de découper les objets, de nommer leurs relations et d’enchaîner les opérations. L’informatisation d’une activité suppose non seulement la création d’une application mais aussi d’un système de métadonnées, et l’un comme l’autre sont conditionnés par une culture pratique datée et située. Pour fusionner les collections de données d’une organisation, il faut “réconcilier” les différents systèmes de métadonnées et, cela fait, s’engager à maintenir et faire évoluer le système de métadonnées commun pour accompagner les besoins. Tout cela demande de nombreux entretiens avec des experts des différentes sphères d’activité et des réunions d’harmonisation où les marchandages sur les définitions de concepts peuvent être rudes. La réconciliation des modèles de données n’est pas moins complexe que n’importe quelle négociation interculturelle alourdie par des enjeux de pouvoir. En effet, pour la plupart des acteurs concernés, il faut non seulement réviser ses habitudes cognitives et ses manières de faire, mais encore renoncer à une part de souveraineté locale. Il ne va plus être possible d’organiser sa mémoire pratique sans se coordonner avec les autres activités de la chaîne de valeur aussi bien sur un plan sémantique que sur un plan technique. Dès lors, la gouvernance des données, dont le principal responsable est le “Chief Information Officer” ou “Chief Data Officer“, devient une des principales fonctions de l’entreprise.
La gouvernance des données
La gouvernance des données doit faire face à deux problèmes entrelacés: sémantique et politique. Sur un plan politique, on remarquera que les systèmes de métadonnées – c’est-à-dire les catégories qui organisent les données – sont toujours liées aux caractéristiques sociales, culturelles et aux activités pratiques de leurs utilisateurs. Par exemple, dans telle grande entreprise de télécommunication, les données de consommation vont être organisées par “lignes” et non par “clients”. Or un client peut avoir plusieurs lignes et la même ligne peut être utilisée par plusieurs clients. Il est clair que les relations avec la clientèle serait plus aisée si les données étaient classées et analysées en fonction des personnes physiques ou morales qui utilisent les services de l’entreprise. Mais ce n’est pas le cas parce que l’entreprise de télécommunication est dominée par une culture d’ingénieurs pour qui les “vraies” données sont celles des lignes. Cette approche par le matériel plutôt que par l’humain permet aussi de rendre la tarification la plus “objective” possible et de la soustraire aux négociations. En somme, la manière dont une communauté organise sa mémoire reflète et réifie son identité. Réorganiser sa mémoire revient à changer d’identité. Le parallélisme entre métadonnées et contextes sociaux fait de la gouvernance des données un enjeu politique.
Quant à l’enjeu sémantique, il ne concerne plus la face subjective de l’identité – qu’elle soit personnelle ou collective – mais sa face logique. Si l’on veut que les applications soient interopérables d’un bout à l’autre de la chaîne de valeur, les objets, des relations et des processus doivent être nommées de façon unique. La difficulté vient ici de la multiplicité des métiers, chacun avec son propre jargon, et de la pluralité des langues, particulièrement dans les entreprises ou les filières internationales. Lorsqu’il s’agit de coordonner des activités, les synonymes (mots différents pour dire la même chose) et les homonymes (un mot signifiant plusieurs choses différentes) deviennent des obstacles à la collaboration. Les homonymes, en particulier, peuvent provoquer de graves erreurs de calcul. Par exemple, il est arrivé dans une compagnie aérienne que le mot “Asie” recouvre des aires géographiques différentes selon les branches et que cette incohérence sémantique provoque des erreurs de décision stratégique. Quand toutes les opérations sont automatisées et dirigées par les données, un terme ambigu peut donner de fausses indications aux dirigeants, voire interrompre une chaîne d’approvisonnement.
Le “dictionnaire de données” ou référentiel est le principal outil de la gouvernance des données. C’est là que sont énumérés tous les types de données et la manière unique de les catégoriser. Si, comme c’est souvent le cas, le référentiel n’a pas été unifié, il faut alors faire appel à des “tables d’alignement” entre systèmes. Au-delà des problèmes de cohérence, la gouvernance des données doit aussi s’occuper de la qualité des données. A cette fin on utilise un “catalogue de contrôle des données”, qui énumère les méthodes pour tester la qualité des données en fonction de leur nature. Par exemple, comment détecter les erreurs sur les noms de clients lorsque l’entreprise opère dans soixante-dix pays? Il y a des pays où on ne découpe pas en nom et prénom, d’autres pays ou des nombres sont acceptables dans un nom (en Ukraine), d’autres où un nom peut y avoir quatre ou cinq consonnes de suite, etc.
Le passage à l’organisation data-centrique implique un changement de culture et une évolution du management. Soudain, les mots et les concepts deviennent importants, et cela non seulement dans la communication et le marketing, mais aussi dans la production, qui n’est pas moins informatisée que les autres fonctions de l’entreprise. De plus, le changement culturel réclame plus d’ouverture et de communication entre départements, agences, services et métiers. Pas de bonne gestion sans gestion des données et pas de gestion des données sans bonne gestion des métadonnées. On croyait l’intérêt pour la sémantique réservée aux départements de cultural studies entichés de french theory dans les universités américaines, et voici qu’elle conditionne la productivité des entreprises!
Distinguer les mots et les concepts
Je note pour finir que les outils d’édition et de gestion de métadonnées les plus sophistiqués du marché (Pool Party, Ab Initio, Synaptica) n’ont aucun moyen de distinguer clairement entre les “mots” ou “termes” dans une langue naturelle particulière et les “concepts” ou “catégories”, qui sont des notions plus abstraites et trans-linguistiques. Le même concept peut être exprimé par différents mots dans différentes langues et le même mot peut correspondre à plusieurs concepts, y compris dans la même langue (le cardinal est-il un dignitaire ecclésiaste, un oiseau, ou un glaïeul?). Les mots sont ambigus et multiples, mais reconnaissables par des humains. Les concepts formels sous-jacents sont uniques et devraient être interprétables par les machines. En proposant un système de codage univoque des concepts et de leurs relations qui soit indépendant des langues naturelles, IEML permet de distinguer et d’articuler les mots et les concepts. Ce nouveau système de codage fait non seulement progresser la sémantique, mais recèle un pouvoir insoupçonné de fluidifier les chaînes de valeur et d’augmenter l’intelligence collective.
P.S. Je remercie John Horodyski, Paul-Louis Moreau, Samuel Parfouru et Michel Volle d’avoir bien voulu répondre à mes questions, contribuant ainsi à informer ce billet. Erreurs, inexactitudes et opinions hétérodoxes ne doivent néanmoins être attribuées qu’à l’auteur, Pierre Lévy.