Ou comment passer d’un langage de métadonnées à une culture de l’intelligence collective…
L’ENJEU DES MÉTADONNÉES
Les métadonnées sont les données qui organisent les données. Les données sont comme les livres d’une bibliothèque et les métadonnées comme le fichier et le catalogue de la bibliothèque: leur fonction est d’identifier les livres afin de mieux les ranger et les retrouver. Les métadonnées servent moins à décrire exhaustivement les choses (il ne s’agit pas de faire des cartes à la même échelle que le territoire…) qu’à fournir des repères à partir desquels les utilisateurs pourront trouver ce qu’ils cherchent, avec l’aide d’algorithmes. Tous les systèmes d’information et applications logicielles organisent l’information au moyen de métadonnées.
On peut distinguer…
1) les métadonnées matérielles, comme le format d’un fichier, sa date de création, son auteur, sa licence d’utilisation, etc.
2) les métadonnées sémantiques qui concernent le contenu d’un document ou d’un ensemble de données (de quoi ça parle) ainsi que leur dimension pratique (à quoi servent les données, à qui, dans quelles circonstances, etc.).
On s’intéresse ici principalement aux métadonnées sémantiques. Un système de métadonnées sémantiques peut être aussi simple qu’un vocabulaire. Au niveau de complexité supérieur cela peut être une classification hiérarchique ou taxonomie. Au niveau le plus complexe, c’est une “ontologie”, c’est-à-dire la modélisation d’un domaine de connaissance ou de pratique, qui peut contenir plusieurs taxonomies avec des relations transversales, y compris des relations causales et des possibilités de raisonnement automatique.
Les métadonnées sémantiques représentent un élément essentiel des dispositifs d’intelligence artificielle :
– elles sont utilisées comme squelettes des graphes de connaissances (knowledge graphs) – ou bases de connaissances – mis en oeuvre par les big techs (Google, Facebook, Amazon, Microsoft, Apple…) et de plus en plus dans des grandes et moyennes entreprises,
– elles sont utilisées – sous le nom de “labels” – pour catégoriser les données d’entraînement des modèles de deep learning.
Parce qu’ils structurent la connaissance contemporaine, dont le support est numérique, les systèmes de métadonnées représentent un enjeu considérable aux niveaux scientifique, culturel, politique…
Un des buts de ma compagnie INTLEKT Metadata Inc. est de faire de IEML (Information Economy MetaLanguage) un standard pour l’expression des systèmes de métadonnées sémantiques. Quel est le paysage contemporain dans ce domaine?
LE PAYSAGE DES MÉTADONNÉES SÉMANTIQUES AUJOURD’HUI
Formats Standards
Le système de formats et de “langages” standards proposé par le World Wide Web Consortium – W3C – (XML, RDF, OWL, SPARQL) pour atteindre le “Web Sémantique” existe depuis la fin du 20e siècle. Il n’a pas réellement pris, et notamment pas dans les entreprises en général et les big tech en particulier, qui utilisent des formats moins lourds et moins complexes, comme les “property graphs“. De plus, la catégorisation manuelle ou semi-manuelle des données est souvent remplacée par des approches statistiques d’indexation automatique (NLP, deep learning…), qui contournent la nécessité de concevoir des systèmes de métadonnées. Le système de standards du W3C concerne les *formats de fichiers et de programmes* traitant les métadonnées sémantiques mais *pas la sémantique proprement dite*, à savoir les catégories, concepts, propriétés, événements, relations, etc. qui sont toujours exprimées en langues naturelles, avec toutes les ambiguïtés, multiplicités et incompatibilités que cela implique.
Modèles standards
Au dessus de ce système de formats standards existent des modèles standards pour traiter le contenu proprement sémantique des concepts et de leurs relations. Par exemple schema.org pour les sites web, CIDOC-CRM pour le domaine culturel, etc. Il existe des modèles standard pour de très nombreux domaines, de la finance à la médecine. Le problème est qu’il existe souvent plusieurs modèles concurrents pour un domaine et que les modèles eux-mêmes sont hypercomplexes, au point que même les spécialistes d’un modèle n’en maîtrisent qu’une petite partie. De nouveau, ces modèles sont exprimés en langues naturelles, avec les problèmes que cela suppose… et le plus souvent en anglais.
Systèmes de métadonnées particuliers
Les taxonomies, ontologies et autres systèmes de métadonnées mis en oeuvre dans des applications réelles pour organiser des ensembles de données sont le plus souvent des utilisations partielles des modèles standards et des formats standards. Les utilisateurs se soumettent – plus ou moins bien – à ces couches de standards dans l’espoir que leurs données et applications deviendront les heureux sujets d’un royaume de l’interopérabilité sémantique. Mais leurs espoirs sont déçus. L’idéal du Web intelligent décentralisé de la fin des années 1990 a cédé la place au search engine optimization (SEO) plus ou moins aligné sur le knowledge graph (secret!) de Google. Il faut bien reconnaître, près d’un quart de siècle après son lancement, que le Web Sémantique du W3C n’a pas tenu ses promesses.
Problèmes rencontrés
Pour obtenir l’interopérabilité sémantique, c’est-à-dire la communication fluide entre bases de connaissance, les responsables de systèmes d’information se soumettent à des modèles et formats rigides. Mais à cause de la multitude des formats, des modèles et de leurs applications disparates, sans parler des différences de langues, ils n’obtiennent pas le gain attendu. De plus, produire un bon système de métadonnées coûte cher, car il faut réunir une équipe pluridisciplinaire comprenant : un chef de projet, un ou des spécialistes du domaine d’utilisation, un spécialiste de la modélisation formelle de type taxonomie ou ontologie (ingénierie cognitive) qui soit capable de se retrouver dans le labyrinthe des modèles standards et enfin un ingénieur informaticien spécialiste des formats de métadonnées sémantiques. Certaines personnes réunissent plusieurs de ces compétences, mais elles sont rares.
COMMENT IEML PEUT-IL RÉSOUDRE LES PROBLÈMES RENCONTRÉS DANS LE MONDE DES MÉTADONNÉES SÉMANTIQUES ?
IEML en deux mots
IEML – aujourd’hui breveté par INTLEKT Metadata – n’est ni une taxonomie, ni une ontologie universelle, ni un modèle, ni un format: c’est une *langue* ou une *méta-ontologie* composée (1) de quelques milliers de primitives sémantiques organisées en paradigmes et (2) d’une grammaire entièrement régulière.
Caractéristiques uniques du langage IEML
IEML est “agnostique” quand aux formats, langues naturelles et relations hiérarchiques entre concepts. IEML permet de construire et de partager n’importe quel concept, hiérarchie de concepts ou relation entre concepts. IEML ne produit donc pas d’uniformisation ou d’aplatissement des possibilités expressives. Pourtant, IEML assure l’interopérabilité sémantique, c’est-à-dire la possibilité de fusionner, d’échanger, de recombiner, de connecter et de traduire quasi-automatiquement les systèmes de métadonnées et les bases de connaissances organisées par ces métadonnées. IEML permet donc de concilier le maximum d’originalité, de complexité ou de simplicité cognitive d’un côté et l’interopérabilité ou la communication de l’autre, contrairement à ce qui se passe dans la situation contemporaine où l’interopérabilité se “paye” par la réduction des possibilités expressives.
Fonctions uniques de l’éditeur IEML
Autre avantage: contrairement aux principaux outils d’édition de métadonnées contemporains (Smart Logic Semaphore, Pool Party, Synaptica, Top Braid Composer) l’éditeur IEML conçu par INTLEKT sera intuitif (interface visuelle à base de tables et de graphes) et collaboratif. Il n’est pas destiné aux spécialistes de RDF et OWL (les formats standards), comme les éditeurs cités plus hauts, mais aux spécialistes des domaines d’applications. Une méthode accompagnant l’outil va aider les experts à formaliser leurs domaines en IEML. Le logiciel importera et exportera automatiquement les métadonnées dans les formats standards choisis par l’utilisateur. C’est ainsi que l’éditeur IEML permettra de réduire la complexité et le coût de la création des systèmes de métadonnées sémantiques.
Marché des outils d’édition et de gestion des systèmes de métadonnées
On comprend aisément que, la masse des données produites ne cessant de croître, tout comme le besoin d’en extraire des connaissances utilisables, on ait de plus en plus besoin de créer et de maintenir de bons systèmes de métadonnées. Le marché des outils d’édition et de gestion des systèmes de métadonnées sémantiques représente aujourd’hui deux milliards de dollars et il pourrait atteindre (selon une estimation très conservatrice) seize milliards de dollars en 2026. Cette projection agrège : 1) les données de l’industrie sémantique proprement dite (les entreprises qui créent des systèmes de métadonnées pour leurs clients), 2) les outils d’annotation sémantique des datasets d’entraînement pour le machine learning utilisés notamment par les data scientists, 3) la gestion des systèmes de métadonnées en interne par les big tech.
LES BUTS DE INTLEKT METADATA À L’HORIZON DE 5-10 ANS
La fondation
Nous voulons qu’IEML devienne un standard open-source pour les métadonnées sémantiques autour de 2025. Le standard IEML devra être supporté, maintenu et développé par une fondation à but non lucratif. Cette fondation supervisera aussi une communauté d’édition collaborative de systèmes de métadonnées en IEML et une base de connaissance publique de données catégorisées en IEML. La fondation créera un écosystème socio-technique favorable à la croissance de l’intelligence collective.
L’entreprise privée
INTLEKT continuera à maintenir l’outil d’édition collaborative et à concevoir des bases de connaissances sémantiques sur mesure pour des clients solvables. Nous mettrons également en oeuvre un marché – ou système d’échange – des données privées indexées en IEML qui sera basé sur la blockchain. Les bases de connaissances indexées en IEML seront interopérables sur les plans parallèles de l’analyse des données, du raisonnement automatique et de l’entraînement des modèles neuronaux.
Néanmoins, avant d’arriver à ce point, INTLEKT doit démontrer l’efficacité d’IEML au moyen de plusieurs cas d’usage réels.
LE MARCHÉ D’INTLEKT METADATA À L’HORIZON DE 2-5 ANS
Des entretiens avec de nombreux clients potentiels nous ont permis de définir notre marché pour les années qui viennent. Définissons les domaines pertinents par élimination et approximations successives.
Les affaires humaines
IEML n’est pas pertinent pour la modélisation d’objets purement mathématiques, physiques ou biologiques. Les sciences exactes disposent déjà de langages formels et de classifications reconnues. En revanche IEML est pertinent pour les objets des sciences humaines et des sciences sociales ou pour les interactions entre objets des sciences exactes et objets des sciences humaines, comme la technologie, la santé, l’environnement ou le phénomène urbain.
Les domaines non-standards
Dans l’immédiat, nous ne nous épuiserons pas à traduire en IEML tous les modèles de métadonnées existants: ils sont très nombreux, parfois contradictoires et rarement utilisés en totalité. Beaucoup d’utilisateurs de ces modèles se contentent d’en sélectionner une petite sous-partie utile et n’investiront pas leur temps et leur argent dans une nouvelle technologie sans nécessité. Par exemple, les nombreuses entreprises qui font du SEO (Search Engine Optimization) extraient un sous-ensemble utile des *classes* de schema.org (patronné par Google) et des *entités* de Wikidata (parce qu’elles sont réputées fiables par Google) et n’ont pas besoin de technologies sémantiques supplémentaires. Autres exemples: les secteurs des galeries, des musées, des bibliothèques ou des archives doivent se soumettre à des standards professionnels rigides avec des possibilités d’innovation limitées. En somme les secteurs qui se contentent d’utiliser un modèle standard existant ne font pas partie de notre marché à court terme. Nous ne mènerons pas de batailles perdues d’avance. A long terme, nous envisageons néanmoins une plateforme collaborative où pourra s’effectuer la traduction volontaire des modèles standards actuels en IEML.
Eliminons également le marché du commerce en ligne pour le moment. Ce secteur utilise bien des systèmes de catégories pour identifier les grands domaines (immobilier, voitures, électroménager, jouets, livres, etc…), mais la multitude des biens et services à l’intérieur de ces catégories assez larges est appréhendée par des systèmes de traitement automatique des langues naturelles ou d’apprentissage machine, plutôt que par des systèmes de métadonnées raffinés. Nous ne croyons pas à une adoption d’IEML à court terme dans le commerce en ligne.
Reste les domaines non-standards – qui n’ont pas de modèles tous faits – ou multi-standards – qui doivent construire des modèles hybrides ou des carrefours – et pour qui les approches statistiques sont utiles… mais pas suffisantes. Pensons par exemple à l’apprentissage collaboratif, à la santé publique, aux villes intelligentes, à la documentation du logiciel, à l’analyse de corpus complexes relevant de plusieurs disciplines, etc.
La modélisation et la visualisation de systèmes complexes
Au sein des domaines non-standards, nous avons identifié les besoins suivants, qui ne sont pas comblés par les technologies sémantiques en usage aujourd’hui :
– La modélisation de systèmes humains complexes, où se rencontrent plusieurs “logiques” hétérogènes, C’est-à-dire des groupes obéissant à divers types de règles. Citons notamment les données produites par les processus de délibération, d’argumentation, de négociation et d’interaction techno-sociale.
– La modélisation de systèmes causaux, y compris les causalités circulaires et entrelacées.
– La modélisation de systèmes dynamiques au cours desquels les objets ou les actants se transforment. Ces dynamiques peuvent être de type : évolution, ontogénèse, hybridations successives, etc.
– L’exploration et la visualisation interactive 2D ou 3D de structures sémantiques dans des corpus immenses, de préférence sous une forme mémorable, c’est-à-dire facile à retenir.
Dans les années qui viennent, INTLEKT se propose de modéliser de manière causale des systèmes dynamiques complexes impliquant la participation humaine et de donner accès à une exploration sensori-motrice mémorable de ces systèmes.
IEML étant une langue, tout ce qui peut se définir, se décrire et s’expliquer en langue naturelle peut être modélisé de manière formelle en IEML, fournissant ainsi un cadre qualitatif à des mesures et des calculs quantitatifs. On pourra faire du raisonnement automatique à partir de règles, de la prévision et de l’aide à la décision, mais le principal apport d’IEML sera d’augmenter les capacités, d’analyse, de synthèse, de compréhension mutuelle et de coordination dans l’action des communautés utilisatrices.
LES SIX PROCHAINS MOIS
La langue IEML existe déjà. Son élaboration a été financée à hauteur d’un million de dollars dans un cadre académique. Nous avons également un prototype de l’éditeur. Il nous faut maintenant passer à une version professionnelle de l’éditeur afin de pouvoir répondre aux besoins du marché identifié à la section précédente. Nous avons pour cela besoin d’un investissement privé d’environ 226 K US$, qui servira essentiellement au développement d’une plateforme d’édition collaborative pourvue de l’interface adéquate. Avis aux investisseurs.