Archives for posts with tag: IEML

Résumé

Le but de ce texte est de présenter une vue générale des limites de l’IA contemporaine et de proposer une voie pour les dépasser. L’IA a accompli des progrès considérables depuis l’époque des Claude Shannon, Alan Turing et John von Neumann. Néanmoins, de nombreux obstacles se dressent encore sur la route indiquée par ces pionniers. Aujourd’hui l’IA symbolique se spécialise dans la modélisation conceptuelle et le raisonnement automatique tandis que l’IA neuronale excelle dans la catégorisation automatique. Mais les difficultés rencontrées aussi bien par les approches symboliques que neuronales sont nombreuses. Une combinaison des deux branches de l’IA, bien que souhaitable, laisse encore non résolus les problèmes du cloisonnement des modèles et les difficultés d’accumulation et d’échange des connaissances. Or l’intelligence humaine naturelle résout ces problèmes par l’usage du langage. C’est pourquoi je propose que l’IA adopte un modèle calculable et univoque du langage humain, le Métalangage de l’Économie de l’Information (IEML pour Information Economy MetaLanguage), un code sémantique de mon invention. IEML a la puissance d’expression d’une langue naturelle, il possède la syntaxe d’un langage régulier, et sa sémantique est univoque et calculable parce qu’elle est une fonction de sa syntaxe. Une architecture neuro-sémantique basée sur IEML allierait les forces de l’IA neuronale et de l’IA symbolique classique tout en permettant l’intégration des connaissances grâce à un calcul interopérable de la sémantique. De nouvelles avenues s’ouvrent à l’intelligence artificielle, qui entre en synergie avec la démocratisation du contrôle des données et l’augmentation de l’intelligence collective.
La fin du texte contient des références bibliographiques et des liens pour approfondir.

Art: Emma Kunz

Introduction

Examinons d’abord comment le terme “intelligence artificielle” (IA) est utilisé dans la société en général, par exemple par les journalistes et les publicitaires. L’observation historique montre que l’on a tendance à classer dans l’intelligence artificielle les applications considérées comme “avancées” à l’époque où elles apparaissent. Mais quelques années plus tard ces mêmes applications seront le plus souvent réinterprétées comme appartenant à l’informatique ordinaire. Par exemple, la reconnaissance optique de caractères, perçue comme de l’IA à l’origine, est aujourd’hui considérée comme normale et silencieusement intégrée dans de nombreux logiciels. Une machine capable de jouer aux échecs était célébrée comme un exploit technique jusqu’aux années 1970, mais l’on peut aujourd’hui télécharger un programme d’échecs gratuit sur son smartphone sans que nul ne s’en étonne. De plus, selon que l’IA est en vogue (comme aujourd’hui) ou déconsidérée (comme dans les années 1990-2000), les efforts de marketing mettront ce terme en avant ou le remplaceront par d’autres. Par exemple, les “systèmes experts” des années 1980 deviennent les anodines “règles d’affaire” des années 2000. C’est ainsi que des techniques ou des concepts identiques changent de dénomination selon les modes, rendant la perception du domaine et de son évolution particulièrement opaque.

Quittons maintenant le vocabulaire du journalisme ou du marketing pour nous intéresser à la discipline académique. L’intelligence artificielle désigne depuis les années 1950 la branche de l’informatique qui se préoccupe de modéliser et de simuler l’intelligence humaine dans son ensemble plutôt que de résoudre tel ou tel problème particulier. La modélisation informatique de l’intelligence humaine est un but scientifique légitime qui a eu et continuera à avoir des retombées théoriques et pratiques considérables. Néanmoins, échaudés par les prévisions enthousiastes, mais démenties par les faits, des débuts de la discipline, la plupart des chercheurs du domaine ne croient pas que l’on construira bientôt des machines intelligentes autonomes. Beaucoup de recherches dans ce domaine – ainsi que la plupart des applications pratiques – visent d’ailleurs une augmentation de la cognition humaine plutôt que sa reproduction mécanique. Par opposition au programme de recherche orienté vers la construction d’une intelligence artificielle générale autonome, j’ai défendu dans mon livre La Sphère Sémantique l’idée d’une intelligence artificielle au service de l’intelligence collective et du développement humain. Je poursuis ici cette ligne de pensée.

D’un point de vue technique, l’IA se partage en deux grandes branches: symbolique et statistique. Un algorithme d’IA statistique “apprend” à partir des données qu’on lui fournit. Il simule donc (imparfaitement, nous le verrons plus bas), la dimension inductive du raisonnement humain. Par contraste, l’IA symbolique n’apprend pas à partir des données, mais dépend de la formalisation logique de la connaissance d’un domaine par des ingénieurs. Comparée à l’IA statistique, elle demande donc en principe une quantité plus importante de travail intellectuel humain. Un algorithme d’IA symbolique applique aux données les règles qu’on lui a données. Il simule donc plutôt la dimension déductive du raisonnement humain. Je vais successivement passer en revue ces deux grandes branches de l’IA, en m’attachant plus particulièrement à souligner leurs limites.

L’IA statistique et ses limites

L’IA neuronale

La branche statistique de l’IA entraîne des algorithmes à partir d’énormes masses de données pour les rendre capable de reconnaître des formes visuelles, sonores, linguistiques ou autres. C’est ce que l’on appelle l’apprentissage automatique ou machine learning. Lorsque l’on parle d’IA en 2021, c’est généralement pour désigner ce type de technique. On l’a vu, l’IA statistique économise le travail humain si on la compare à l’IA symbolique. Il suffit de fournir à un algorithme d’apprentissage automatique un ensemble de données d’entraînement pour qu’un programme de reconnaissance de formes s’écrive tout seul. Si l’on donne par exemple à une IA statistique des millions d’images de canards accompagnées d’étiquettes précisant que l’image représente un canard, elle apprend à reconnaître un canard et, à l’issue de son entraînement, elle sera capable de coller elle-même l’étiquette “canard” sur une image non catégorisée de ce volatile. Personne n’a expliqué à la machine comment reconnaître un canard : on s’est contenté de lui fournir des exemples. La traduction automatique répond au même principe : on donne à une IA statistique des millions de textes dans une langue A accompagnés de leur traduction dans une langue B. Entraîné sur ces exemples, le système apprend à traduire un texte de la langue A dans la langue B. C’est ainsi que fonctionnent des algorithmes de traduction automatique comme DeepL ou Google Translate. Pour prendre un exemple dans un autre domaine, l’IA statistique utilisée pour conduire les “véhicules autonomes” fonctionne également en appariant deux ensembles de données : des images de la route sont mises en correspondance avec des actions telles qu’accélérer, freiner, tourner, etc. En somme, l’IA statistique établit une correspondance (mapping) entre un ensemble de données et un ensemble d’étiquettes (cas de la reconnaissance de forme) ou bien entre deux ensembles de données (cas de la traduction ou des véhicules autonomes). Elle excelle donc dans les tâches de catégorisation, de reconnaissance de forme et d’appariement réflexe entre données perceptives et données motrices. 

Dans sa version la plus perfectionnée, l’IA statistique repose sur des modèles de réseaux neuronaux qui simulent grossièrement le mode d’apprentissage du cerveau. On parle d’apprentissage “profond” (deep learning en anglais) pour qualifier ces modèles parce qu’ils reposent sur plusieurs couches superposées de neurones formels. Les réseaux neuronaux représentent le sous-domaine le plus complexe et le plus avancé de l’IA statistique. L’intelligence artificielle de type neuronal existe depuis l’origine de l’informatique, comme l’illustrent les recherches de McCulloch dans les années 1940 et 50, de Franck Rosenblatt et Marvin Minsky dans les années 1950 et de von Fœrster dans les  années 1960 et 70. D’importants travaux dans ce domaine ont également été menés dans les années 1980, impliquant notamment David Rumelhart et Geoffrey Hinton, mais toutes ces recherches ont eu peu de succès pratique avant les années 2010.

Outre certains perfectionnements scientifiques des modèles, deux facteurs indépendants des progrès de la théorie expliquent que les réseaux neuronaux soient de plus en plus utilisés : la disponibilité d’énormes masses de données et l’augmentation de la puissance de calcul. À partir de la seconde décennie du XXIe siècle, les organisations s’engagent dans la transformation numérique et une part croissante de la population mondiale utilise le Web. Tout cela génère de gigantesques flux de données. Les informations ainsi produites sont traitées par les grandes plateformes numériques dans des centres de données (le “cloud“) qui concentrent une puissance de calcul inouïe. Au début du XXIe siècle, les réseaux neuronaux étaient implémentés par des processeurs conçus à l’origine pour le calcul graphique, mais les centres de données des grandes plateformes utilisent maintenant des processeurs spécialement destinés à l’apprentissage neuronal. C’est ainsi que des modèles théoriques intéressants, mais peu pratiques, du XXe siècle sont soudain devenus pertinents au XXIe siècle au point de soutenir une nouvelle industrie.

Des rendements décroissants

Néanmoins, après les avancées foudroyantes des années 2010 en matière d’apprentissage automatique par les réseaux neuronaux, les progrès semblent marquer le pas depuis quelques années. En effet, pour obtenir des performances marginalement meilleures, il faut désormais multiplier par plusieurs ordres de grandeur la taille des ensembles de données et la puissance de calcul utilisée pour entraîner les modèles. Nous avons déjà atteint l’époque des rendements cognitifs décroissants pour l’IA neuronale. Il est donc temps de s’interroger sur les limites de cet ensemble de techniques et d’envisager sérieusement un changement de paradigme. 

Les principaux problèmes portent sur la qualité des données d’entraînement, l’absence de modélisation causale, le caractère inexplicable des résultats, l’absence de généralisation, la cécité par rapport au sens des données et les difficultés d’accumulation et d’intégration des connaissances.

La qualité des données d’entraînement

Un ingénieur de Google aurait déclaré plaisamment: “Chaque fois que nous licencions un linguiste, notre performance en traduction automatique s’améliore”. Mais bien que l’IA statistique soit réputée peu gourmande en travail humain, les risques de biais et d’erreurs soulignés par des utilisateurs de plus en plus sourcilleux poussent à mieux sélectionner les données d’entraînement et à les étiqueter d’une manière plus soigneuse. Or cela demande du temps et de l’expertise humaine, bien qu’il s’agisse précisément des facteurs que l’on espérait éliminer.

L’absence d’hypothèses causales explicites

Tous les cours de statistiques commencent par une mise en garde contre la confusion entre corrélation et causalité. Une corrélation entre A et B ne prouve pas que A est la cause de B. Il peut s’agir d’une coïncidence, ou bien B peut être la cause de A, ou bien un facteur C non pris en compte par le recueil de données est la véritable cause de A et B, sans parler de toutes les relations systémiques complexes imaginables impliquant A et B. Or l’apprentissage automatique repose sur des appariements de données, c’est-à-dire sur des corrélations. La notion de causalité est étrangère à l’IA statistique, comme à de nombreuses techniques d’analyse de données massives, bien que des hypothèses causales interviennent souvent de manière implicite dans le choix des ensembles de données et de leur catégorisation. En somme, l’IA neuronale contemporaine n’est pas capable de distinguer les causes des effets. Pourtant, quand on utilise l’IA pour l’aide à la décision et plus généralement pour s’orienter dans des domaines pratiques, il est indispensable de posséder des modèles causaux explicites, car les actions efficaces doivent bel et bien intervenir sur les causes. Dans une démarche scientifique intégrale, les mesures statistiques et les hypothèses causales s’inspirent et se contrôlent réciproquement. Ne considérer que les corrélations statistiques relève d’une dangereuse hémiplégie cognitive. Quant à la pratique répandue qui consiste à garder ses théories causales implicites, elle interdit de les relativiser, de les comparer avec d’autres théories, de les généraliser, de les partager, de les critiquer et de les perfectionner.

Des résultats inexplicables 

Le fonctionnement des réseaux neuronaux est opaque. Des millions d’opérations transforment de manière incrémentale la force des connexions dans des assemblées de neurones comportant des centaines de couches. Comme leurs résultats ne peuvent être expliqués ni justifiés de manière conceptuelle, c’est-à-dire sur un mode compréhensible par des humains, il est difficile de faire confiance à ces modèles. Cette absence d’explication devient inquiétante lorsque les machines prennent des décisions financières, judiciaires, médicales ou liés à la conduite de véhicules autonomes, sans parler des applications militaires. Pour surmonter cet obstacle, et parallèlement au développement de l’éthique de l’intelligence artificielle, de plus en plus de chercheurs explorent le nouveau champ de recherche de “l’IA explicable” (explainable AI).

L’absence de généralisation. 

L’IA statistique se présente à première vue comme une forme de raisonnement inductif, c’est-à-dire comme une capacité à inférer des règles générales à partir d’une multitude de cas particuliers. Pourtant, les systèmes d’apprentissage automatique contemporains ne parviennent pas à généraliser au-delà des limites des données d’entraînement qui leur ont été fournies. Non seulement nous – les humains – sommes capables de généraliser à partir de quelques exemples, alors qu’il faut des millions de cas pour entraîner des machines, mais nous pouvons abstraire et conceptualiser ce que nous avons appris tandis que l’apprentissage automatique ne parvient pas à extrapoler et encore moins à conceptualiser. Il reste au niveau d’un apprentissage purement réflexe, étroitement circonscrit par l’espace des exemples qui l’ont alimenté.

La cécité au sens

Alors que les performances en traduction ou en écriture automatique (tel qu’illustré par le programme GPT3) progressent, les machines ne parviennent toujours pas à comprendre le sens des textes qu’elles traduisent ou rédigent. Leurs réseaux neuronaux ressemblent au cerveau d’un perroquet mécanique capable d’imiter des performances linguistiques sans avoir la moindre idée du contenu des textes. La succession des mots dans une langue ou leur correspondance d’une langue à l’autre sont bien maîtrisées, mais les textes “reconnus” n’alimentent pas de représentations utilisables des situations ou des domaines de connaissance dont ils traitent. 

Les difficultés d’accumulation et d’intégration des connaissances par l’IA statistique 

Privée de concepts, l’IA statistique parvient difficilement à accumuler des connaissances. A fortiori, l’intégration de savoirs de divers champs d’expertise semble hors de portée. Cette situation ne favorise pas les échanges de connaissances entre machines. Il faut donc souvent recommencer à zéro pour chaque nouveau projet. Signalons néanmoins l’existence de modèles de traitement des langues naturelles comme BERT qui sont pré-entraînés sur des données générales et qu’il est ensuite possible de spécialiser dans des domaines particuliers. Une forme limitée de capitalisation est donc atteignable. Mais il reste impossible d’intégrer directement à un système neuro-mimétique l’ensemble des connaissances objectives accumulées par l’humanité depuis quelques siècles.

L’IA symbolique et ses limites

La branche symbolique de l’IA correspond à ce qui a été successivement appelé dans les soixante-dix dernières années: réseaux sémantiques, systèmes à base de règles, bases de connaissances, systèmes experts, web sémantique et, plus récemment, graphes de connaissance. Depuis ses origines dans les années 1940-50, une bonne partie de l’informatique appartient de fait à l’IA symbolique. 

L’IA symbolique code la connaissance humaine de manière explicite sous forme de réseaux de relations entre catégories et de règles logiques donnant prise au raisonnement automatique. Ses résultats sont donc plus facilement explicables que ceux de l’IA statistique. 

Les difficultés d’accumulation et d’intégration des connaissances par l’IA symbolique

L’IA symbolique fonctionne bien dans les micromondes fermés des jeux ou des laboratoires, mais se trouve rapidement dépassée dans les environnements ouverts qui ne répondent pas à un petit nombre de règles strictes. La plupart des programmes d’IA symbolique utilisés dans des environnements de travail réels ne résolvent de problèmes que dans un domaine étroitement limité, qu’il s’agisse de diagnostic médical, de dépannage de machines, de conseil en investissement ou autre. Un “système expert” fonctionne de fait comme un médium d’encapsulation et de distribution d’un savoir-faire particulier, qui peut être distribué partout où on en a besoin. La compétence pratique devient alors disponible même en l’absence de l’expert humain. 

À la fin des années 1980, à la suite d’une série de promesses inconsidérées suivies de déceptions, commence ce que l’on a appelé “l’hiver” de l’intelligence artificielle (toutes tendances confondues). Pourtant, les mêmes procédés continuent à être utilisés pour résoudre le même type de problèmes. On a seulement renoncé au programme de recherche général dans lequel ces méthodes s’inscrivaient. C’est ainsi qu’au début du XXIe siècle, les règles d’affaires des logiciels d’entreprise et les ontologies du Web Sémantique ont succédé aux systèmes experts des années 1980. Malgré les changements de nom, il est aisé de reconnaître dans ces nouvelles spécialités les procédés de la bonne vieille IA symbolique. 

À partir du début du XXIe siècle, le “Web sémantique” s’est donné pour finalité d’exploiter les informations disponibles dans l’espace ouvert du Web. Afin de rendre les données lisibles par les ordinateurs, on organise les différents domaines de connaissance ou de pratique en modèles cohérents. Ce sont les “ontologies”, qui ne peuvent que reproduire le cloisonnement logique des décennies précédentes, malgré le fait que les ordinateurs soient maintenant beaucoup plus interconnectés.

Malheureusement, nous retrouvons dans l’IA symbolique les mêmes difficultés d’intégration et d’accumulation des connaissances que dans l’IA statistique. Ce cloisonnement entre en opposition avec le projet originel de l’intelligence artificielle comme discipline scientifique, qui veut modéliser l’intelligence humaine en général et qui tend normalement vers une accumulation et une intégration des connaissances mobilisables par les machines.

Malgré le cloisonnement de ses modèles, l’IA symbolique est cependant un peu mieux lotie que l’IA statistique en matière d’accumulation et d’échange. Un nombre croissant d’entreprises, à commencer par les grandes compagnies du Web, organisent leurs bases de données au moyen d’un graphe de connaissance constamment amélioré et augmenté. Par ailleurs, Wikidata offre un bon exemple de graphe de connaissance ouvert grâce auquel une information lisible aussi bien par les machines que par les humains s’accumule progressivement. Néanmoins, chacun de ces graphes de connaissance est organisé selon les finalités – toujours particulières – de ses auteurs, et ne peut être réutilisable facilement pour d’autres fins. Ni l’IA statistique, ni l’IA symbolique ne possèdent les propriétés de recombinaison fluide que l’on est en droit d’attendre des modules d’une intelligence artificielle au service de l’intelligence collective.

L’IA symbolique est gourmande en travail intellectuel humain

On a bien tenté d’enfermer toute la connaissance humaine dans une seule ontologie afin de permettre une meilleure interopérabilité, mais alors la richesse, la complexité, l’évolution et les multiples perspectives du savoir humain sont effacées. Sur un plan pratique, les ontologies universelles – voire celles qui prétendent formaliser l’ensemble des catégories, relations et règles logiques d’un vaste domaine – deviennent vite énormes, touffues, difficiles à comprendre et à maintenir pour l’humain qui est amené à s’en occuper. Un des principaux goulets d’étranglement de l’IA symbolique est d’ailleurs la quantité et la haute qualité du travail humain nécessaire à modéliser un domaine de connaissance, aussi étroitement circonscrit soit-il. En effet, il est non seulement nécessaire de lire la documentation, mais il faut encore interroger et écouter longuement plusieurs experts du domaine à modéliser. Acquis par l’expérience, les savoirs de ces experts s’expriment le plus souvent par des récits, des exemples et par la description de situations-types. Il faut alors transformer une connaissance empirique de style oral en un modèle logique cohérent dont les règles doivent être exécutables par un ordinateur. En fin de compte, le raisonnement des experts sera bien automatisé, mais le travail “d’ingénierie de la connaissance” d’où procède la modélisation ne peut pas l’être.

Position du problème: quel est le principal obstacle au développement de l’IA?

Vers une intelligence artificielle neuro-symbolique

Il est maintenant temps de prendre un peu de recul. Les deux branches de l’IA – neuronale et symbolique – existent depuis le milieu du XXe siècle et elles correspondent à deux styles cognitifs également présents chez l’humain. D’une part, nous avons la reconnaissance de formes (pattern recognition) qui correspond à des modules sensorimoteurs réflexes, que ces derniers soient appris ou d’origine génétique. D’autre part, nous avons une connaissance conceptuelle explicite et réfléchie, souvent organisée en modèles causaux et qui peut faire l’objet de raisonnements. Comme ces deux styles cognitifs fonctionnent ensemble dans la cognition humaine, il n’existe aucune raison théorique pour ne pas tenter de les faire coopérer dans des systèmes d’intelligence artificielle. Les bénéfices sont évidents et, en particulier, chacun des deux sous-systèmes peut remédier aux problèmes rencontrés par l’autre. Dans une IA mixte, la partie symbolique surmonte les difficultés de conceptualisation, de généralisation, de modélisation causale et de transparence de la partie neuronale. Symétriquement, la partie neuronale amène les capacités de reconnaissance de forme et d’apprentissage à partir d’exemples qui font défaut à l’IA symbolique. 

Aussi bien d’importants chercheurs en intelligence artificielle que de nombreux observateurs avertis de la discipline poussent dans cette direction d’une IA hybride. Par exemple, Dieter Ernst a récemment défendu une “intégration entre les réseaux neuronaux, qui excellent dans la classification des perceptions et les systèmes symboliques, qui excellent dans l’abstraction et l’inférence”. Emboîtant le pas à Gary Marcus, les chercheurs en IA Luis Lamb et Arthur D’avila Garcez ont récemment publié un article en faveur d’une IA neuro-symbolique dans laquelle des représentations acquises par des moyens neuronaux seraient interprétées et traitées par des moyens symboliques. Il semble donc que l’on ait trouvé une solution au problème du blocage de l’IA : il suffirait d’accoupler intelligemment les branches symbolique et statistique plutôt que de les maintenir séparées comme deux programmes de recherche en concurrence. D’ailleurs, ne voit-on pas les grandes compagnies du Web, qui mettent en avant l’apprentissage automatique et l’IA neuronale dans leurs efforts de relations publiques, développer plus discrètement en interne des graphes de connaissance pour organiser leur mémoire numérique et donner sens aux résultats des réseaux neuronaux? Mais avant de déclarer la question réglée, réfléchissons encore un peu aux données du problème.

Cognition animale et cognition humaine

Pour chacune des deux branches de l’IA, nous avons dressé une liste des obstacles qui se dressent sur le chemin menant vers une intelligence artificielle moins fragmentée, plus utile et plus transparente. Or nous avons trouvé un même inconvénient des deux côtés: le cloisonnement logique, les difficultés d’accumulation et d’intégration. Réunir le neuronal au symbolique ne nous aidera pas à surmonter cet obstacle puisque ni l’un ni l’autre n’en sont capables. Pourtant, les sociétés humaines réelles peuvent transformer des perceptions muettes et des savoir-faire issus de l’expérience en connaissances partageables. À force de dialogue, un spécialiste d’un domaine finit par se faire comprendre d’un spécialiste d’un autre domaine et va peut-être même lui enseigner quelque chose. Comment reproduire ce type de performances cognitives dans des sociétés de machines? Qu’est-ce qui joue le rôle intégrateur du langage naturel dans les systèmes d’intelligence artificielle?

Bien des gens pensent que, le cerveau étant le support organique de l’intelligence, les modèles neuronaux sont la clé de sa simulation. Mais de quelle intelligence parle-t-on? N’oublions pas que tous les animaux ont un cerveau, or ce n’est pas l’intelligence du moucheron ou de la baleine que l’IA veut simuler, mais celle de l’humain. Et si nous sommes “plus intelligents” que les autres animaux (au moins de notre point de vue) ce n’est pas à cause de la taille de notre cerveau. L’éléphant possède un plus gros cerveau que l’Homme en termes absolus et le rapport entre la taille du cerveau et celle du corps est plus grand chez la souris que chez l’humain. C’est principalement notre capacité linguistique, notamment supportée par les aires de Broca, Wernicke et quelques autres (uniques à l’espèce humaine), qui distingue notre intelligence de celle des autres vertébrés supérieurs. Or ces modules de traitement du langage ne sont pas fonctionnellement séparés du reste du cerveau, ils informent au contraire l’ensemble de nos processus cognitifs, y compris nos compétences techniques et sociales. Nos perceptions, nos actions, nos émotions et nos communications sont codées linguistiquement et notre mémoire est largement organisée par un système de coordonnées sémantiques fourni par le langage.

Fort bien, dira-t-on. Simuler les capacités humaines de traitement symbolique, y compris la faculté linguistique, n’est-ce pas précisément ce que l’IA symbolique est censée faire? Mais alors comment se fait-il qu’elle soit cloisonnée en ontologies distinctes, qu’elle peine à assurer l’interopérabilité sémantique de ses systèmes et qu’elle ne parvienne si difficilement à accumuler et à échanger les connaissances? Tout simplement parce que, malgré son nom de “symbolique”, l’IA ne dispose toujours pas d’un modèle calculable du langage. Depuis les travaux de Chomsky, nous savons calculer la dimension syntaxique des langues, mais leur dimension sémantique reste hors de portée de l’informatique. Afin de comprendre cette situation, il est nécessaire de rappeler quelques éléments de sémantique.

La sémantique en linguistique

Du point de vue de l’étude scientifique du langage, la sémantique d’un mot ou d’une phrase se décompose en deux parties, mélangées dans la pratique, mais conceptuellement distinctes: la sémantique linguistique et la sémantique référentielle. En gros, la sémantique linguistique s’occupe des relations entre les mots alors que la sémantique référentielle traite de la relation entre les mots et les choses.

La sémantique linguistique ou sémantique mot-mot. Un symbole linguistique (mot ou phrase) possède généralement deux faces: le signifiant, qui est une image visuelle ou acoustique et le signifié qui est un concept ou une catégorie générale. Par exemple, le signifiant “arbre”, a pour signifié : “végétal ligneux, de taille variable, dont le tronc se garnit de branches à partir d’une certaine hauteur”. La relation entre signifiant et signifié étant fixée par la langue, le signifié d’un mot ou d’une phrase se définit comme un nœud de relations avec d’autres signifiés. Dans un dictionnaire classique, chaque mot est situé par rapport à d’autres mots proches (le thésaurus) et il est expliqué par des phrases (la définition) utilisant des mots eux-mêmes expliqués par d’autres phrases, et ainsi de suite de manière circulaire. Un dictionnaire classique relève principalement de la sémantique linguistique. Les verbes et les noms communs (par exemple: arbre, animal, organe, manger) représentent des catégories qui sont elles-mêmes connectées par un dense réseau de relations sémantiques telles que: “est une partie de”, “est un genre de”, “appartient au même contexte que”, “est la cause de”, “est antérieur à”, etc. Nous ne pouvons penser et communiquer à la manière humaine que parce que nos mémoires collectives et personnelles sont organisées par des catégories générales connectées par des relations sémantiques.

La sémantique référentielle ou sémantique mot-chose. Par contraste avec la sémantique linguistique, la sémantique référentielle fait le pont entre un symbole linguistique (signifiant et signifié) et un référent (un individu réel). Lorsque je dis que “les platanes sont des arbres”, je précise le sens conventionnel du mot “platane” en le mettant en relation d’espèce à genre avec le mot “arbre” et je ne mets donc en jeu que la sémantique linguistique. Mais si je dis que “Cet arbre-là, dans la cour, est un platane”, alors je pointe vers un état de chose réel, et ma proposition est vraie ou fausse. Ce second énoncé met évidemment en jeu la sémantique linguistique puisque je dois d’abord connaître le sens des mots et la grammaire du français pour la comprendre. Mais s’ajoute à la dimension linguistique une sémantique référentielle puisque l’énoncé se rapporte à un objet particulier dans une situation concrète. Certains mots, comme les noms propres, n’ont pas de signifiés. Leur signifiant renvoie directement à un référent. Par exemple, le signifiant “Alexandre le Grand” désigne un personnage historique et le signifiant “Tokyo” désigne une ville. Par contraste avec un dictionnaire ordinaire, qui définit des concepts ou des catégories, un dictionnaire encyclopédique contient des descriptions d’individus réels ou fictifs pourvus de noms propres tels que divinités, héros de roman, personnages et événements historiques, objets géographiques, monuments, œuvres de l’esprit, etc. Sa principale fonction est de répertorier et de décrire des objets externes au système d’une langue. Il enregistre donc une sémantique référentielle.

Nota bene: Une catégorie est une classe d’individus, une abstraction. Il peut y avoir des catégories d’entités, de process, de qualités, de quantités, de relations, etc. Les mots “catégorie” et “concept” sont ici traités comme des synonymes.

La sémantique en IA

En informatique, les références ou individus réels (les réalités dont on parle) deviennent les données alors que les catégories générales deviennent les rubriques, champs ou métadonnées qui servent à classer et retrouver les données. Par exemple, dans la base de données d’une entreprise, “nom de l’employé”, “adresse” et “salaire” sont des catégories ou métadonnées tandis que “Tremblay”, “33 Boulevard René Lévesques” et “65 K$ / an” sont des données. Dans ce domaine technique, la sémantique référentielle correspond au rapport entre données et métadonnées et la sémantique linguistique au rapport entre les métadonnées ou catégories organisatrices, qui sont généralement représentées par des mots ou de courtes expressions linguistiques. 

Dans la mesure ou la finalité de l’informatique est d’augmenter l’intelligence humaine, elle doit notamment nous aider à donner sens aux flots de données numériques et à en tirer le maximum de connaissances utiles pour l’action. À cet effet, nous devons catégoriser correctement les données – c’est-à-dire mettre en œuvre une sémantique mot-chose – et organiser les catégories selon des relations pertinentes, qui nous permettent d’extraire des données toutes les connaissances utiles pour l’action – ce qui correspond à la sémantique mot-mot.

En discutant le sujet de la sémantique en informatique, nous devons nous souvenir que les ordinateurs ne voient pas spontanément un mot ou une phrase comme un concept en relation déterminée avec d’autres concepts dans le cadre d’une langue, mais seulement comme des suites de lettres, des “chaînes de caractères”. C’est pourquoi les relations entre les catégories qui semblent évidentes aux humains et qui relèvent de la sémantique linguistique, doivent être ajoutées – le plus souvent à la main – dans une base de données si l’on veut qu’un programme en tienne compte.

Examinons maintenant dans quelle mesure l’IA symbolique modélise la sémantique. Si l’on considère les ontologies du “Web Sémantique” (le standard en IA symbolique), on découvre que les sens des mots et des phrases n’y dépendent pas de la circularité auto-explicative de la langue (comme dans un dictionnaire classique), mais d’un renvoi à des URI (Uniform Resource Identifiers) qui fonctionne sur le mode de la sémantique référentielle (comme un dictionnaire encyclopédique). Au lieu de reposer sur des concepts (ou catégories) déjà donnés dans une langue et qui se présentent dès l’origine comme des nœuds de relations avec d’autres concepts, les échafaudages du Web sémantique s’appuient sur des concepts définis séparément les uns des autres au moyen d’identifiants uniques. La circulation du sens dans un réseau de signifiés est escamotée au profit d’une relation directe entre signifiant et référent, comme si tous les mots étaient des noms propres. En l’absence d’une sémantique linguistique fondée sur une grammaire et un dictionnaire communs, les ontologies restent donc cloisonnées. En somme, l’IA symbolique contemporaine n’a pas accès à la pleine puissance cognitive et communicative du langage parce qu’elle ne dispose pas d’une langue, mais seulement d’une sémantique référentielle rigide.

Pourquoi l’IA n’utilise-t-elle pas les langues naturelles – avec leur sémantique linguistique inhérente – pour représenter les connaissances? La réponse est bien connue : parce que les langues naturelles sont ambiguës. Un mot peut avoir plusieurs sens, un sens peut s’exprimer par plusieurs mots, les phrases ont plusieurs interprétations possibles, la grammaire est élastique, etc. Comme les ordinateurs ne sont pas des êtres incarnés et pleins de bon sens, comme nous, ils ne sont pas capables de désambiguïser correctement les énoncés en langue naturelle. Pour ses locuteurs humains, une langue naturelle étend un filet de catégories générales prédéfinies qui s’expliquent mutuellement. Ce réseau sémantique commun permet de décrire et de faire communiquer aussi bien les multiples situations concrètes que les différents domaines de connaissance. Mais, du fait des limitations des machines, l’IA ne peut pas faire jouer ce rôle à une langue naturelle. C’est pourquoi elle reste aujourd’hui fragmentée en micro-domaines de pratiques et de connaissance, chacun d’eux avec sa sémantique particulière.

L’automatisation de la sémantique linguistique pourrait ouvrir de nouveaux horizons de communication et de raisonnement à l’intelligence artificielle. Pour traiter la sémantique linguistique, l’IA aurait besoin d’une langue standardisée et univoque, d’un code spécialement conçu à l’usage des machines, mais que les humains pourraient aisément comprendre et manipuler. Cette langue permettrait enfin aux modèles de se connecter et aux connaissances de s’accumuler. En somme, le principal obstacle au développement de l’IA est l’absence d’un langage commun calculable. C’est précisément le problème résolu par IEML, qui possède la capacité d’exprimer le sens, comme les langues naturelles, mais dont la sémantique est non ambiguë et calculable, comme un langage mathématique. L’utilisation d’IEML rendra l’IA moins coûteuse en efforts humains, plus apte à traiter le sens et la causalité, et surtout, capable d’accumuler et d’échanger des connaissances.

Une solution basée sur un codage de la sémantique

Le métalangage de l’économie de l’information

Beaucoup de progrès en informatique viennent de l’invention d’un système de codage pertinent rendant l’objet codé (nombre, image, son, etc.) facilement calculable par une machine. Par exemple, le codage binaire pour les nombres et le codage en pixels ou en vecteurs pour les images. C’est pourquoi je me suis attaché à la conception d’un code qui rende la sémantique linguistique calculable. Cette langue artificielle, IEML (Information Economy MetaLanguage) possède une grammaire régulière et un dictionnaire compact de trois mille mots. Des catégories complexes peuvent être construites en combinant les mots selon les règles de la grammaire. Les catégories complexes peuvent à leur tour être utilisées pour en définir d’autres, et ainsi de suite récursivement. Une des parties les plus difficiles de la conception d’IEML a été de trouver le plus petit ensemble de mots à partir duquel n’importe quelle catégorie pourrait être construite. 

Sur un plan linguistique, IEML possède la même capacité expressive qu’une langue naturelle. Elle peut donc traduire n’importe quelle autre langue. C’est d’autre part une langue univoque : ses expressions n’ont qu’un seul sens. Enfin, sa sémantique est calculable. Cela signifie que son dictionnaire et ses règles de grammaire suffisent à déterminer automatiquement le sens de ses expressions (ce qui n’est pas le cas des langues naturelles). Soulignons qu’IEML n’est pas une ontologie universelle, mais bel et bien une langue qui permet d’exprimer n’importe quelle ontologie ou classification particulière. 

Sur un plan mathématique, IEML est un langage régulier au sens de Chomsky : c’est une algèbre. Elle est donc susceptible de toutes sortes de traitements et de transformations automatiques. 

Sur un plan informatique, comme nous le verrons plus en détail ci-dessous, le métalangage donne prise à un langage de programmation de réseaux sémantiques et supporte le système d’indexation d’une base de connaissances.

L’éditeur IEML

Le métalangage de l’économie de l’information est défini par sa grammaire et son dictionnaire, que l’on trouvera en consultant le site intlekt.io. Mais la langue ne suffit pas. Nous avons besoin d’un outil numérique facilitant son écriture, sa lecture et son utilisation: l’éditeur IEML. 

L’éditeur IEML sert à produire et à explorer des modèles de données. Cette notion de “modèle” englobe les réseaux sémantiques, les systèmes de métadonnées sémantiques, les ontologies, les graphes de connaissances et les systèmes d’étiquettes pour catégoriser des données d’entraînement. L’éditeur contient un langage de programmation permettant d’automatiser la création de nœuds (les catégories) et de liens (les relations sémantiques entre catégories). Ce langage de programmation est de type déclaratif, c’est-à-dire qu’il ne demande pas à son utilisateur d’organiser des flots d’instructions conditionnelles, mais seulement de décrire les résultats à obtenir.

Mode d’utilisation de l’éditeur

Comment se sert-on de l’éditeur? 

  1. Le modélisateur répertorie les catégories qui vont servir de conteneurs (ou de cases-mémoire) aux différents types de données. S’il a besoin de catégories qui ne correspondent à aucun des 3000 mots du dictionnaire IEML il les crée au moyen de phrases.
  2. Il programme ensuite les relations sémantiques qui vont connecter les données catégorisées. Les relations, définies par des phrases, ont un contenu sémantique aussi varié que nécessaire. Leurs propriétés mathématiques (réflexivité, symétrie, transitivité) sont spécifiées. Des instructions conditionnent l’établissement des relations à la présence de signifiants ou de valeurs de données déterminées à certaines adresses syntaxiques des catégories.
  3. Une fois les données catégorisées, le programme tisse automatiquement le réseau de relations sémantiques qui va leur donner sens. Des fonctions de fouille de données, d’exploration hypertextuelle et de visualisation des relations par tables et par graphes permettent aux utilisateurs finaux d’explorer le contenu modélisé.

Avantages

Plusieurs traits fondamentaux distinguent l’éditeur IEML des outils contemporains qu’on utilise pour modéliser les données: les catégories et relations sont programmables, les modèles obtenus sont interopérables et transparents.

Catégories et relations sont programmables. La structure régulière d’IEML permet de générer les catégories et de tisser les relations de manière fonctionnelle ou automatique au lieu de les créer une par une. Cette propriété fait gagner au modélisateur un temps considérable. Le temps gagné par l’automatisation de la création des catégories et des relations compense largement le temps passé à coder les catégories en IEML, et cela d’autant plus qu’une fois créées, les nouvelles catégories et relations peuvent être échangées entre les utilisateurs. 

Les modèles sont interopérables. Tous les modèles se ramènent au même dictionnaire de trois mille mots et à la même grammaire. Les modèles sont donc interopérables, c’est-à-dire qu’ils peuvent facilement fusionner ou échanger des catégories et des sous-modèles. Chaque modèle reste adapté à un contexte particulier, mais les modèles peuvent désormais se comparer, s’interconnecter et s’intégrer.

Les modèles sont transparents. Bien qu’ils soient codés en IEML, les modèles rédigés au moyen de l’éditeur IEML sont lisibles en langue naturelle. De plus, les catégories et relations se présentent comme des mots ou des phrases. Or les mots sont expliqués par leurs relations avec les autres mots du dictionnaire et le sens des phrases est défini par les mots qui les composent selon une grammaire régulière. Toutes les catégories et toutes les relations sont donc explicitement définies, ce qui rend les modèles clairs aussi bien pour les modélisateurs que pour les utilisateurs finaux et adéquats aux principes d’éthique et de transparence contemporains.

Au prix d’un bref apprentissage, l’éditeur peut être utilisé par des non-informaticiens qui ne connaissent pas la langue IEML. Seule la grammaire (simple et régulière) doit être maîtrisée, les mots IEML étant représentés en langues naturelles. L’éditeur IEML pourrait être utilisé dans les écoles et ouvrir la voie à une démocratisation de la maîtrise des données.

L’architecture neuro-sémantique

Figure 1: Une architecture Neuro-sémantique pour l’IA

Je vais maintenant proposer une architecture de système d’IA basée sur IEML. Cette architecture (schématisée dans la figure 1) est évidemment un cas particulier d’architecture neuro-symbolique, mais je la nomme neuro-sémantique afin de souligner qu’elle résout le problème du calcul de la sémantique et de l’interopérabilité sémantique entre systèmes. 

Les neurones sensorimoteurs

Le module d’entrée est occupé par des réseaux de neurones sensoriels, qui ont été entraînés par des exemples de données catégorisées en IEML. On doit distinguer plusieurs types de données d’entraînement (texte, image, sons, etc.) d’où résultent plusieurs types de réseaux de neurones. Les données catégorisées par les neurones sensoriels sont transmis à la base de connaissance sémantique. Si l’on détecte des incohérences, des erreurs ou des biais, il faut évidemment revoir les données d’entraînement ou réviser leur conceptualisation. Le système doit donc comprendre une boucle de dialogue entre les annotateurs de données qui entraînent les réseaux de neurones et les ingénieurs qui gèrent la base de connaissance.

En sortie, des réseaux de neurones moteurs transforment des données catégorisées en données qui commandent des actions, telles que rédaction de texte, synthèse d’image, émission vocale, instructions envoyées à des effecteurs (robots), etc. Ces neurones moteurs sont entraînés sur des exemples qui apparient des données catégorisées en IEML et des données motrices. Là encore, les données d’entraînement et les réseaux de neurones doivent être distinguées selon leurs types.

La mémoire et le traitement sémantique

La base de connaissance est organisée par un réseau sémantique. Elle est donc de préférence supportée par une base de données de graphes (graph database). Sur le plan de l’interface, cette base de connaissance se présente comme une encyclopédie hypertextuelle du domaine dont elle traite. Elle autorise aussi la programmation de simulations et de divers tableaux de bord pour la veille et le renseignement.

L’éditeur IEML évoqué à la section précédente peut servir à d’autres tâches qu’à la modélisation. Il permet en effet de conditionner les opérations d’écriture-lecture les plus variées à la présence de contenus sémantiques situés à certaines adresses syntaxiques. Lorsqu’ils sont codés en IEML les concepts deviennent les variables d’une algèbre, ce qui n’est évidemment pas le cas lorsqu’elles sont exprimés en langue naturelle. C’est pourquoi des transformations sémantiques peuvent être programmées et calculées. Cette programmation sémantique ouvre la voie non seulement aux raisonnements logiques classiques auxquels les moteurs d’inférence de l’IA symbolique nous ont habitué depuis des décennies, mais aussi à d’autres formes de raisonnement automatique. Puisqu’en IEML la sémantique est une image fonctionnelle de la syntaxe, il devient possible d’automatiser le raisonnement analogique de type “A est à B ce que C est à D”.  D’autres d’opérations sémantiques peuvent également être programmées, telles que sélection et fouille ; substitution, insertion ou effacement ; extraction de sous-réseaux sémantiques pertinents ; résumé ou développement ; inversion, allusion, atténuation ou amplification ; extraction ou projection de structures narratives, et ainsi de suite.

Quelques applications 

Quelques applications évidentes de notre architecture d’IA neuro-sémantique sont : l’intégration de données, l’aide à la décision à partir de modèles causaux, la gestion des connaissances, la compréhension et le résumé de texte, la génération de texte contrôlée (contrairement aux systèmes de type GPT3 dont le texte n’est pas contrôlé), les chatbots et la robotique. Je vais maintenant brièvement commenter deux exemples d’usage : la compréhension de texte et la génération de texte contrôlée. 

Concernant la génération de texte contrôlée, imaginons en entrée des données de télémétrie, des informations comptables, des examens médicaux, des résultats de tests de connaissance, etc. On peut alors concevoir en sortie des textes narratifs en langue naturelle synthétisant le contenu des flux de données d’entrée : diagnostics médicaux, bulletins scolaires, rapports, conseils, etc. Quant à la compréhension de texte, elle suppose d’abord la catégorisation automatique du contenu du document présenté en entrée du système. Dans un deuxième temps, le modèle sémantique extrait du texte est inscrit dans la mémoire du système de manière à s’intégrer aux connaissances déjà acquises. En somme, des systèmes d’intelligence artificielle pourraient accumuler des connaissances à partir de la lecture automatique de documents. À supposer qu’IEML soit adopté, les systèmes d’intelligence artificielle deviendraient non seulement capables d’accumuler des connaissances, mais de les intégrer en modèles cohérents et de les échanger. Il s’agit évidemment là d’une perspective à long terme qui exigera des efforts coordonnés.

Conclusion: vers un tournant humaniste en IA

Sans langage, nous n’aurions accès ni au questionnement, ni au dialogue, ni au récit. La langue est simultanément un médium de l’intelligence personnelle – il est difficile de penser sans dialogue intérieur – et de l’intelligence collective. La plupart de nos connaissances ont été accumulées et transmises par la société sous forme linguistique. Vu le rôle de la parole dans l’intelligence humaine, Il est surprenant qu’on ait espéré atteindre une intelligence artificielle générale sans disposer d’un modèle calculable du langage et de sa sémantique. La bonne nouvelle est que nous en avons finalement un. Même si l’architecture neuro-sémantique ici proposée ne débouche pas directement sur une intelligence artificielle générale, elle autorise au moins la construction d’applications capables de traiter le sens des textes ou des situations. Elle permet aussi d’envisager un marché des données privées étiquetées en IEML qui stimulerait, s’il en était besoin, le développement de l’apprentissage statistique. Elle devrait aussi supporter une mémoire publique collaborative qui serait particulièrement utile dans les domaines de la recherche scientifique, de l’éducation et de la santé.

La multiplicité des langues, des systèmes de classification, des points de vue disciplinaires et des contextes pratiques cloisonne aujourd’hui la mémoire numérique. Or la communication des modèles, la comparaison critique des points de vue et l’accumulation des connaissances sont essentiels à la cognition symbolique humaine, une cognition indissolublement personnelle et collective. L’intelligence artificielle ne pourra durablement augmenter la cognition humaine qu’à la condition d’être interopérable, cumulable, intégrable, échangeable et distribuée. C’est dire qu’on ne fera pas de progrès notable en intelligence artificielle sans viser en même temps une intelligence collective capable de se réfléchir et de se coordonner dans la mémoire mondiale. L’adoption d’une langue calculable fonctionnant comme système universel de coordonnées sémantiques – une langue facile à lire et à écrire permettant de tout dire comme de distinguer les nuances – ouvrirait de nouvelles voies à l’intelligence collective humaine, y compris sous la forme d’une interaction immersive multimédia dans le monde des idées. En ce sens, la communauté des utilisateurs d’IEML pourrait inaugurer une nouvelle époque de l’intelligence collective.

L’IA contemporaine, majoritairement statistique, a tendance à créer des situations où les données pensent à notre place et à notre insu. Par contraste, je propose de développer une IA qui aide les humains à prendre le contrôle intellectuel des données pour en extraire un sens partageable de manière durable. IEML nous permet de repenser la finalité et le mode d’action de l’IA d’un point de vue humaniste, point de vue pour qui le sens, la mémoire et la conscience personnelle doivent être traités avec le plus grand sérieux.

NOTES ET RÉFÉRENCES

Sur les origines de l’IA
L’expression “Intelligence artificielle” fut utilisée pour la première fois en 1956, lors d’une conférence du Dartmouth College à Hanover, New Hampshire. Participaient notamment à cette conférence l’informaticien et chercheur en sciences cognitives Marvin Minsky (Turing Award 1969) et l’inventeur du langage de programmation LISP John McCarthy (Turing Award 1971).

Sur l’augmentation cognitive
L’augmentation cognitive (plutôt que l’imitation de l’intelligence humaine) était l’orientation principale de nombre des pionniers de l’informatique et du Web. Voir par exemple :
– Bush, Vannevar. “As We May Think.” Atlantic Monthly, July 1945.
– Licklider, Joseph. “Man-Computer Symbiosis.” IRE Transactions on Human Factors in Electronics, 1, 1960, 4-11.
– Engelbart, Douglas. Augmenting Human Intellect. Technical Report. Stanford, CA: Stanford Research Institute, 1962.
– Berners-Lee, Tim. Weaving the Web. San Francisco: Harper, 1999.

Sur l’histoire de l’IA neuronale
Beaucoup de gens connaissent Geoffrey Hinton, Yann Le Cun et Yoshua Benjio comme les fondateurs de l’IA neuronale contemporaine. Mais l’IA neuronale commence dès les années 40 du XXe siècle. Je fournis ci-dessous une brève bibliographie.
– McCulloch, Warren, and Walter Pitts. “A Logical Calculus of Ideas Immanent in Nervous Activity.” Bulletin of Mathematical Biophysics, 5, 1943: 115-133. 
– McCulloch, Warren. Embodiments of Mind. Cambridge, MA: MIT Press, 1965.)
– Lévy, Pierre. “L’Œuvre de Warren McCulloch.” Cahiers du CREA, 7, 1986, p. 211-255.
– Frank Rosenblatt est l’inventeur du Perceptron, qui peut être considéré comme le premier système d’apprentissage automatique basé sur un réseau neuro-mimétique. Voir son livre Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms, publié en 1962 par Spartan Books.
– Le mémoire de doctorat de 1954 de Marvin Minsky était intitulé: “Theory of neural-analog reinforcement systems and its application to the brain-model problem.”
– Minsky critiquera le perceptron de Frank Rosenblatt dans son livre Perceptrons de 1969 (MIT Press) écrit avec Seymour Papert et poursuivra par la suite le programme de recherche de l’IA symbolique.
– Toujours de Minsky, The Society of Mind (Simon and Schuster, 1986) résume bien son approche de la cognition humaine comme une émergence à partir de l’interaction de multiples modules cognitifs aux fonctions variées.
– Foerster, Heinz von. Observing Systems: Selected Papers of Heinz von Foerster. Seaside, CA: Intersystems Publications, 1981.
– Von Fœrster était directeur du Biological Computer Laboratory. Voir Lévy, Pierre. “Analyse de contenu des travaux du Biological Computer Laboratory (BCL).” In Cahiers du CREA, 8, 1986, p. 155-191.
– McClelland, James L., David E. Rumelhart and PDP research group. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. 2 vols. Cambridge, MA: MIT Press, 1986.
– Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (9 October 1986). “Learning representations by back-propagating errors”. Nature. 323 (6088): 533–536. Hinton a été reconnu pour ses travaux pionniers par un prix Turing obtenu avec Yann LeCun et Joshua Benjio en 2018.

La critique de l’IA statistique
Ce texte reprend quelques-uns des arguments avancés par des chercheurs comme Judea Pearl, Gary Marcus et Stephen Wolfram.
– Judea Pearl, a reçu le prix Turing en 2011 pour ses travaux sur la modélisation de la causalité en IA. Il a  écrit avec Dana Mackenzie, The Book of Why, The new science of cause and effect, Basic books, 2019.
– Voir l’article séminal de Gary Marcus de 2018 “Deep learning, a critical appraisal” https://arxiv.org/pdf/1801.00631.pdf?u (Consulté le 8 août 2021)
– Voir aussi le livre de Gary Marcus, écrit avec Ernest Davis, Rebooting AI: Building Artificial Intelligence We Can Trust, Vintage, 2019.
– Stephen Wolfram est l’auteur du logiciel Mathematica et du moteur de recherche Wolfram Alpha. Voir son entretien pour Edge.org de 2016 “AI and the future of civilisation” https://www.edge.org/conversation/stephen_wolfram-ai-the-future-of-civilization Consulté le 8 août 2021.
– Outre les travaux de Judea Pearl sur l’importance de la modélisation causale en IA, rappelons les thèses du philosophe Karl Popper sur les limites du raisonnement inductif et des statistiques. Voir, en particulier, de Karl Popper, Objective Knowledge: An Evolutionary Approach. Oxford: Clarendon Press, 1972.

Sur l’IA neuronale contemporaine
– Sur BERT, voir: https://en.wikipedia.org/wiki/BERT_(language_model) Consulté le 8 août 2021.
– Voir le récent rapport du Center for Research on Foundation Models (CRFM) at the Stanford Institute for Human-Centered Artificial Intelligence (HAI), intitulé On the Opportunities and Risks of Foundation Models et qui commence ainsi: “AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks.” https://arxiv.org/abs/2108.07258
– Sur Open AI https://openai.com/blog/gpt-3-apps/ et https://www.technologyreview.com/2020/08/22/1007539/gpt3-openai-language-generator-artificial-intelligence-ai-opinion/ Sites visités le 16 août 2021.

Sur l’IA symbolique contemporaine
– L’intégration des connaissances existantes dans les systèmes d’IA est un des principaux objectifs du ​​”Wolfram Language” de Stephen Wolfram. Voir https://www.wolfram.com/language/principles/ consulté le 16 août 2021.
– Sur le Web sémantique, voir le site https://www.w3.org/standards/semanticweb/# et https://en.wikipedia.org/wiki/Semantic_Web Consultés le 8 août 2021
–  Sur Wikidata: https://www.wikidata.org/wiki/Wikidata:Main_Page Consulté le 16 août 2021.
– Sur le projet Cyc de Douglas Lenat : ​​https://en.wikipedia.org/wiki/Cyc Consulté le 8 août 2021.

Sur la perspective neuro-symbolique
– “AI Research and Governance Are at a Crossroads” by Dieter Ernst. https://www.cigionline.org/articles/ai-research-and-governance-are-crossroads/ Consulté le 8 août 2021.
–  Neurosymbolic AI: The 3rd Wave, Artur d’Avila Garcez and Luıs C. Lamb, Décembre, 2020 (https://arxiv.org/pdf/2012.05876.pdf) Consulté le 8 août 2021.
– Voir le récent rapport de L’université de Stanford “100 Year Study on AI” qui identifie le courant neuro-symbolique comme une des clés de l’avancement de la discipline.  https://ai100.stanford.edu/ Consulté le 20 septembre 2021.

Sur l’interopérabilité sémantique
– Tous les éditeurs de métadonnées sémantique prétendent à l’interopérabilité, mais il s’agit généralement d’une interopérabilité des formats de fichiers, cette dernière étant effectivement assurée par les standards du Web sémantique (XML, RDF, OWL, etc.). Mais je parle dans ce texte d’interopérabilité des modèles sémantiques proprement dits (on parle de concepts: les catégories et leurs relations). Donc ne pas confondre interopérabilité sémantique et l’interopérabilité des formats. Voir sur ce point: https://pierrelevyblog.com/2021/04/03/esquisse-dun-modele-daffaire-pour-un-changement-de-civilisation/
– Si nécessaire, les modèles rédigés au moyen de l’éditeur IEML peuvent être exportés dans les formats standards de métadonnées sémantiques tels que RDF et JSON-LD.

Sur Chomsky et la syntaxe
– Chomsky, Noam. Syntaxic Structures. The Hague and Paris: Mouton, 1957.
– Chomsky, Noam, and Marcel-Paul Schützenberger. “The Algebraic Theory of Context-Free Languages.” In Computer Programming and Formal Languages. Ed. P. Braffort and D. Hirschberg. Amsterdam: North Holland, 1963. p. 118-161.
– Pour une approche plus philosophique, voir Chomsky, Noam. New Horizons in the Study of Language and Mind. Cambridge, UK: Cambridge UP, 2000.
– Voir aussi mon article sur les fondements linguistiques d’IEML.

Sur les noms propres
– J’adopte ici en gros la position de Saul Kripke, suivie par la majorité des philosophes et grammairiens. Voir, de Saul Kripke, Naming and Necessity, Oxford, Blackwell, 1980. Trad. fr. La logique des noms propres, Paris, Minuit, 1982, (trad. P. Jacob et F. Recanati).
– Voir ma récente entrée de blog à ce sujet.

Pierre Lévy sur IEML
– “Toward a Self-referential Collective Intelligence: Some Philosophical Background of the IEML Research Program.” Computational Collective Intelligence, Semantic Web, Social Networks and Multiagent Systems, ed. Ngoc Than Nguyen, Ryszard Kowalczyk and Chen Shyi-Ming, First International Conference, ICCCI, Wroclaw, Poland, Oct. 2009, proceedings, Berlin-Heidelberg-New York: Springer, 2009, p. 22-35. 
– “The IEML Research Program: From Social Computing to Reflexive Collective Intelligence.” In Information Sciences, Special issue on Collective Intelligence, ed. Epaminondas Kapetanios and Georgia Koutrika, vol. 180, no. 1, Amsterdam: Elsevier, 2 Jan. 2010, p. 71-94.
– Les considérations philosophiques et scientifiques qui m’ont mené à l’invention d’IEML ont été amplement décrites dans La Sphère sémantique. Computation, cognition, économie de l’information. Hermes-Lavoisier, Paris / Londres 2011 (400 p.). Trad. anglaise: The Semantic Sphere. Computation, cognition and information economy. Wiley, 2011. Ce livre contient une nombreuse bibliographie.
– Les principes généraux d’IEML sont résumés dans: https://intlekt.io/ieml/ (consulté le 17 août 2021).
– Sur la grammaire d’IEML, voir: https://intlekt.io/ieml-grammar/ (consulté le 17 août 2021).
– Sur le dictionnaire d’IEML, voir: https://intlekt.io/ieml-dictionary/ (consulté le 17 août 2021).
– Pour une exposition des principes linguistiques à la base d’IEML, voir: https://intlekt.io/the-linguistic-roots-of-ieml/ (consulté le 17 août 2021).

Autres références pertinentes de Pierre Lévy
L’intelligence collective, pour une anthropologie du cyberespace, La Découverte, Paris, 1994. Traduction en anglais par Robert Bonono: Collective Intelligence Perseus Books, Cambridge MA, 1997.
 – “Les systèmes à base de connaissance comme médias de transmission de l’expertise” (knowledge based systems as media for transmission of expertise), in Intellectica  (Paris) special issue on “Expertise and cognitive sciences”, ed. Violaine Prince. 1991. p. 187 to 219.
– J’ai analysé en détail le travail d’ingénierie de la connaissance sur plusieurs cas dans mon livre De la programmation considérée comme un des beaux-arts, La Découverte, Paris, 1992.

Art: Emma Kunz

For the English version, go here.

Le but de cette entrée de blog est d’expliquer comment fonctionne la sémantique référentielle en IEML et en particulier comment IEML traite les noms propres. J’ai distingué la sémantique linguistique et la sémantique référentielle ici et . Je rappelle néanmoins dans ce qui suit les idées principales qui fondent cette distinction. 

Sémantique linguistique et sémantique référentielle

La sémantique linguistique est interne au langage, tandis que la sémantique référentielle fait le pont entre un énoncé et ce dont il parle.

Lorsque je dis que “les platanes sont des arbres”, je ne fais que préciser le sens conventionnel du mot “platane”. Mais si je dis que “cet arbre-là, dans la cour, est un platane”, alors je pointe vers un état de chose, et ma proposition est vraie ou fausse. Le second énoncé met évidemment en jeu la sémantique linguistique puisque je dois d’abord connaître le sens des mots et la grammaire du français pour la comprendre. Mais s’ajoute à la dimension linguistique une sémantique référentielle puisque l’énoncé se rapporte à un objet particulier dans une situation concrète. 

Un dictionnaire classique définit le sens conventionnel des mots dans une langue, chaque mot étant expliqué en utilisant d’autres mots qui sont eux-mêmes expliqués par d’autres mots, et ainsi de suite de manière circulaire. Un dictionnaire relève donc principalement de la sémantique linguistique. En revanche, un dictionnaire encyclopédique contient des descriptions d’individus réels ou fictifs pourvus de noms propres tels que divinités, héros de roman, personnages et événements historiques, objets géographiques, monuments, œuvres de l’esprit, etc. Sa principale fonction est de répertorier et de décrire des objets externes au système d’une langue. Il enregistre donc une sémantique référentielle.

La sémantique linguistique met en relation un signifiant avec un signifié. Par exemple, le signifiant “arbre”, a pour signifié : “végétal ligneux, de taille variable, dont le tronc se garnit de branches à partir d’une certaine hauteur”. En revanche, la sémantique référentielle met en rapport un signifiant avec un référent. Par exemple, le signifiant “Napoléon 1er” désigne un personnage historique.

Individus et catégories

Les mots contenus dans un dictionnaire classique, et particulièrement les noms communs, désignent généralement des catégories alors que les entrées du dictionnaire encyclopédique se rapportent plutôt à des individus. Le nom commun “arbre” désigne n’importe quel arbre, la classe des arbres, alors que “l’Arbre de la Bodhi” de Bodh Gaya en Inde est un individu portant un nom propre. 

Par “catégorie” j’entends une classe, un genre, un ensemble, une collection, etc. Et ce n’est pas le hasard qui réunit un ensemble d’êtres ou d’objets dans la même catégorie, mais bien au contraire des traits communs. Par contraste avec une catégorie, un “individu” est unique, discret, particulier, qu’il s’agisse d’une personne, d’une chose, d’un événement, d’un lieu, d’une date, etc. On peut élargir le concept d’individu en suivant Bertrand Russell, qui en propose la définition suivante: “une série de faits liés entre eux par des relations causales”. En ce sens l’Écosystème de la forêt amazonienne ou la Révolution française sont bien des individus.

Les deux notions d’individu et de catégorie font système : les individus appartiennent à des catégories et les éléments à des ensembles. L’individu est plutôt concret, comme Isabelle qui est devant moi, alors que la catégorie générale est abstraite, comme l’humanité, qu’il m’est impossible de toucher.

Ne confondons pas “catégorie générale” avec “tout” ni “individu” avec “partie”. Les touts ne sont pas des ensembles abstraits, mais bel et bien des individus, comme d’ailleurs les parties. Par exemple, un organisme animal est un individu total et ses membres sont des parties individuelles de ce tout. Cet éléphant est un exemplaire individuel de la classe des éléphants, mais sa trompe est une partie du corps de l’éléphant.

Noms propres et noms communs: une définition 

Je vais maintenant définir la différence entre noms communs et noms propres. Mon but n’est pas ici de trancher définitivement un débat que de grands linguistes, logiciens et philosophes mènent depuis plusieurs siècles sur ce thème mais plutôt de fixer une convention utile pour le métalangage IEML (Information Economy MetaLanguage) en suivant le consensus aujourd’hui majoritaire en philosophie et en linguistique.  

Un nom commun 

(1) Il désigne une catégorie. 

(2) Il a un signifié relativement constant dans le système de la langue, c’est-à-dire qu’il possède une place dans le réseau cyclique des signifiés d’un dictionnaire.

(3) Il peut en outre acquérir un référent de manière variable selon les actes d’énonciation, comme dans “cette bouteille”.

Un nom propre 

(1) Il désigne un individu.

(2) C’est un signifiant qui n’a pas de signifié dans le système de la langue. 

(3) Il possède un référent constant conféré par une tradition sociale qui remonte à un acte de nomination. Selon Saul Kripke, un nom propre est un “désignateur rigide” dont la principale fonction est de permettre de parler d’un objet indépendamment des propriétés qu’il possède et des interprétations qu’on lui donne.

 Ces définitions peuvent prêter à malentendus et donnent lieu à quelques exceptions. 

Est-il vrai qu’un nom propre n’a pas de signifié?

Commençons tout de suite par évoquer la révolte instinctive contre l’idée qu’un nom propre n’a pas de signifié. Car lorsque nous entendons le mot “Napoléon” nous imaginons tout de suite le bicorne, les abeilles d’or, le jeune général traversant le pont d’Arcole un drapeau à la main, le code civil, le désastre de la Bérésina, etc. Mais Napoléon n’est pas un nom commun de la langue française, c’est un personnage historique. Les images qu’évoquent ce signifiant ne sont pas des signifiés conventionnels mais des connotations qui peuvent varier fortement selon que l’on est français ou anglais, bonapartiste ou légitimiste, militariste ou pacifiste, sensible ou non à la cause abolitioniste (la loi du 20 mai 1802 rétablit l’esclavage), etc. Les connotations sont variables mais la référence à l’individu est constante et sans ambiguité. Les noms propres peuvent avoir des connotations, mais ils n’ont pas de signifié conventionnel dans le système de la langue.

Les noms communs désignent-ils toujours des catégories générales?

Autre point douteux : les noms communs désignent-ils toujours des catégories générales? Par exemple, la lune, satellite de la terre, est-elle un nom commun ou un nom propre? Et si c’est un nom commun, comment se fait-il que “La lune” désigne un individu? Mais remarquons que l’on parle des lunes de Jupiter, qui ont été découvertes par Galilée. Le mot “lune” est donc bien un nom commun. Lorsqu’il est utilisé avec un article défini sans autre précision il réfère à l’astre argenté au cycle quasi mensuel qui éclaire nos nuits, sinon il signifie la catégorie des satellites de planètes. Le même problème se pose pour d’autre objets cosmiques, comme le soleil, la terre, le ciel, etc. En règle générale, chaque fois qu’un nom peut être utilisé au pluriel sans absurdité, alors il s’agit d’un nom commun. La philosophie bouddhiste multiplie les “terres” : les dix bhumis (sanscrit pour “terres”) sont des étapes successives sur le chemin du Bodhisatva. Bien qu’il semble à première vue qu’il n’y ait qu’un seul ciel, le mot possède plusieurs pluriels en français : “cieux” au sens spirituel et “ciels” aux sens matériels. Ne parle-t-on pas des ciels de Turner ou de Monet? En revanche, Mars ou Saturne sont des satellites particuliers ou des divinités personnelles et je ne les ai jamais vus utilisés au pluriel. Ce sont donc des noms propres désignant des individus astronomiques ou mythologiques.

Dans certains usages, une catégorie générale peut être considérée comme un individu

Encore un cas troublant: on peut faire référence à une catégorie générale en la considérant comme un individu. Lorsque je dis “Le fruit que je tiens dans ma main est un melon” j’utilise bien le mot melon comme une catégorie générale dans laquelle je range le fruit individuel que je tiens dans ma main. Jusqu’ici tout va bien. Mais je peux toujours considérer une catégorie générale comme un individu, un élément de l’ensemble des catégories générales : c’est le point de vue réaliste ou platonicien. Par exemple lorsque je dis “le melon est un fruit”, “melon” est au singulier et il est accompagné d’un article défini. Il s’agit donc d’un individu: une “catégorie individuelle”. Mais il ne s’agit là que d’un usage possible d’un nom commun, qui ne range nullement le mot “melon” dans la catégorie des noms propres. Dès qu’une catégorie générale est placée dans un énoncé en position de référent (nous parlons de “cette catégorie-là”), l’usage en fait un individu. Il suffit de distinguer les niveaux logiques pour ne pas se prendre les pieds dans le tapis sémantique. Retenons que lorsqu’un mot possède un signifié dans le système de la langue, il s’agit d’un nom commun, bien que l’on puisse s’en servir pour désigner un individu.

Des noms propres peuvent être utilisés comme prototypes de catégories générales

Dans l’effort pour discriminer entre nom propre et nom commun, la plus grande difficulté vient de l’utilisation des noms propres comme prototypes de catégories générales. On parle par exemple de statuettes qui sont des Vénus préhistoriques ou d’un maître-nageur qui est un Apollon. On traite ironiquement d’Einstein une personne à l’esprit lent, etc. “Les Vénus” contredit la règle générale que nous avons énoncé plus haut, selon laquelle chaque fois qu’un nom peut être utilisé au pluriel sans absurdité, alors il s’agit d’un nom commun. Bien pire, les noms propres peuvent engendrer des adjectifs désignant des qualités abstraites. Par exemple, on souligne le contraste entre l’évolution lamarckienne et l’évolution darwinienne, on évoque les guerres napoléoniennes ou les idées platoniciennes. Certes, Vénus, Apollon, Platon, Napoléon, Darwin, etc. sont des individus, mais ces individus ont tellement marqué les imaginations qu’ils sont devenus les “membres centraux”, ou figures archétypiques, de catégories comprenant les individus qui leur ressemblent ou qui possèdent avec eux une contiguïté spatio-temporelle (la “période napoléonienne”). Dès lors, le nom propre est utilisé de manière figurative comme un nom commun, ou comme une qualité générique dans le cas d’un adjectif construit à partir d’un nom propre. Nous avons donc affaire dans ces cas à des exceptions à notre règle, dans lesquelles des noms propres sont utilisés (par métaphore, métonymie, contiguïté, etc.) pour désigner des catégories.

Une Vénus Préhistorique

Nom propres et références en IEML

Chacun des trois mille mots élémentaires du dictionnaire d’IEML se définit au moyen de phrases utilisant d’autres mots élémentaires et chaque expression complexe en IEML (groupes de mots, phrases, textes) renvoie au noyau circulaire d’inter-définition du dictionnaire. Cette inter-définition circulaire des mots du dictionnaire est d’ailleurs le propre de toutes les langues. Selon leurs rôles grammaticaux dans un énoncé, les trois mille éléments du dictionnaire IEML peuvent être lus comme des noms, des adjectifs, des verbes ou des adverbes. Leurs signifiés sont des catégories générales. Les signifiants de ces catégories générales sont construits pour avoir le maximum de relations fonctionnelles avec leurs signifiés. Les signifiés du même champ sémantique appartiennent au même paradigme et possèdent des similitudes syntaxiques. La composition matérielle des signifiants et leurs places respectives dans les paradigmes donne des indications sur leur sens. Par exemple, les signifiants des couleurs ou des sentiments ont des traits syntaxiques en commun. Les couleurs qui contiennent du rouge ou les sentiments qui avoisinent la colère ont également des traits matériels communs. C’est ce qui fait d’IEML une idéographie. On ne trouve évidemment pas ce type de relation signifiant / signifié dans les langues naturelles, dans lesquelles les mots pour désigner les couleurs ou les sentiments, n’ont pas de traits phonétiques communs. Jointe à la régularité sans faille de sa grammaire, ce rapport fonctionnel entre signifiant et signifié fait d’IEML une langue à la sémantique (linguistique) calculable. 

En revanche, les noms propres comme Napoléon ou le Fuji Yama n’ont pas de traduction en IEML et, de ce fait, leur sémantique linguistique n’est pas calculable en IEML. En IEML les noms propres sont considérés comme des signifiants n’ayant pas de signifié (du moins pas en IEML) et dont le sens est donc purement référentiel. Les références, tout comme les noms propres, sont notés entre crochets. Voici quelques exemples qui mettent en valeur le cas particulier de Napoléon. Dans les phrases IEML entre parenthèses qui suivent, les mots en italiques désignent les rôles grammaticaux de la ligne qu’ils initient, les mots en français contiennent des liens vers le mot IEML correspondant.

***

(racine  le  officierstratège  <Napoléon>).

L’expression signifie : “le général Napoléon”

***

(racine   le   chef  <Napoléon> ,
manière   de   empire).

L’expression signifie : “l’empereur Napoléon” 

***

(racine  vide <Napoléon>). 

Ici Napoléon n’est qualifié par aucune catégorie générale.

***

(racine  pluriel  guerre,
manière  de   officierstratège <Napoléon>).

L’expression signifie “les guerres napoléonniennes” 

***

L’expression “les guerres napoléoniennes” peut être réifiée ainsi:

@alias les-guerres-napoléonniennes
(racine pluriel  guerre,
manière de   officierstratège  <Napoléon>).

***

L’expression définie ci-dessus peut être réutilisée dans une phrase, par exemple:

(racine être blessé,
sujet  singulier  pronom troisième personne,
temps  passé,
temps  pendant les-guerres-napoléonniennes). 

L’expression signifie: “Il a été blessé pendant les guerres napoléoniennes”

Dans cet exemple, on voit comment une phrase IEML (y compris une phrase contenant un nom propre) peut être réifiée et utilisée comme un mot dans une phrase au niveau de complexité linguistique supérieure. Ce type d’opération peut être répété récursivement, ce qui permet d’atteindre des degrés élevés de différentiation et de précision sémantique. 

*** 

Les deux exemples qui précèdent montrent qu’il est possible d’utiliser des noms propres comme prototypes de catégories générales en IEML, comme on le fait dans les langues naturelles. Mais en règle générale on préfèrera exprimer directement les catégories évoquées par les noms propres dans certaines langues naturelles par des catégories en IEML. Par exemple, pour traduire “sadique” on ne reprendra pas le nom du Marquis de Sade, mais on dira simplement “quelqu’un qui aime faire souffrir les autres.”

***

Dans l’exemple ci-dessous, l’objet de la proposition principale est une proposition secondaire – on remarquera les parenthèses dans les parenthèses – et l’accent sémantique (le point d’exclamation) est mis sur la personne (qui que ce soit) qui aime faire souffrir les autres.

@alias sadique
(
racine  aimer, désirer
sujet qui que ce soit
objet 
(racine  faire souffrir,
objet  pluriel  autre personne).
).

***

Les noms de personnes, les adresses, les dates, les positions GPS, les nombres, les unités de mesure, les devises, les objets géographiques, les URL, etc. sont tous considérés comme des noms propres ou des références individuelles et sont mis entre crochets. Les douze premiers nombres entiers naturels sont néanmoins considérés comme des noms communs (ils “existent” en IEML et sont connectés aux nombres ordinaux, aux symétries, aux figures géométriques régulières, etc.). Les grandes zones géographiques existent également en IEML, sont considérées comme des catégories générales et peuvent être assimilés à des “codes postaux” qui donnent lieu à des calculs sémantiques. Ces codes permettent notamment de déterminer les positions respectives (au Nord, à l’Est, etc.) des zones codées, ainsi que de situer et regrouper les pays, les villes et autres objets géographiques.

*** 

Par exemple, pour dire “l’Italie” en IEML, on écrit:

(racine  Europe centre-sud <Italia>).

Expression dans laquelle “Europe centre sud” fait partie du paradigme des pays européens.

***

Pour dire “le nombre 292”, on écrit:

(racine  nombre <292>).

***

Pour dire “le nom d’un client”, on écrit:

(racine nom < Dupont >,
manière du  client).

Le lecteur contrastera l’approche d’IEML avec celle du Web sémantique, dans lequel les URI ne distinguent pas entre catégories générales et désignateurs rigides et ne peuvent pas faire l’objet de calculs sémantiques à partir de leur forme matérielle (une séquence de caractères). En fait, tous les URI sont des désignateurs rigides. Bien entendu, l’approche d’IEML et celle du web sémantique ne sont pas incompatibles puisque les expressions IEML valides ou USLs (Uniform Semantic Locators) ont une forme unique et peuvent se représenter comme des URIs.

L’auto-référence linguistique en IEML

On a vu plus haut que les USLs pouvaient contenir des noms propres, des nombres et autres expressions qui sont opaques au calcul sémantique IEML. Les USLs peuvent aussi faire référence à d’autres USLs, comme on peut le voir dans l’exemple ci-dessous.

***

@alias Bravo-Einstein!
(racine féliciter,
sujet singulier  première personne,
objet singulier  pronom deuxième personne <Einstein>).

***

(racine mode indicatif  moquer,
sujet cette  phrase <Bravo-Einstein!>,
objet  singulier  pronom deuxième personne).

***

BIBLIOGRAPHIE

Cormier Agathe. “Relecture pragmatique de Kripke pour une approche dialogique du nom propre”. 4e Congrès Mondial de Linguistique Française, Jul 2014, Berlin, Allemagne. p. 3059-3074

Frege Gottlob, “Sens et dénotation”. 1892. Trad. de C. Imbert. In Écrits logiques et philosophiques. Paris : Éditions du Seuil, 1971, 102-126.

Kripke Saul, Naming and Necessity, Oxford, Blackwell, 1980. Trad. fr. La logique des noms propres, Paris, Minuit, 1982, (trad. P. Jacob et F. Recanati).

Mill John Stuart, A System of Logic, 1843. Trad. fr. Mill, John Stuart, Système de logique déductive et inductive, trad. fr. L. Peisse Paris, Alcan, 1896. 

Récanati François, “La sémantique des noms propres : remarques sur la notion de « désignateur rigide»”. In: Langue française, n°57, 1983. Grammaire et référence, sous la direction de Georges Kleiber et Martin Riegel. pp. 106-118.

DOI : https://doi.org/10.3406/lfr.1983.5159 www.persee.fr/doc/lfr_0023-8368_1983_num_57_1_5159

Rosch Eleanor., “Cognitive Representations of Semantic Categories”, Journal of Experimental Psychology: General, Vol.104, No.3, September 1975, pp. 192–233.

Rosch Eleanor, “Natural categories”, Cognitive Psychology 1973 4, pp. 328-350.

Russell Bertrand. Human Knowledge: Its Scope and Limits. London: George Allen & Unwin (1948). Trad fr. La connaissance humaine : sa portée et ses limites. Trad. N. Lavand. Paris : J. Vrin, 2002

Vandendorpe, Christian, “Quelques considérations sur le nom propre. Pour un éclairage du linguistique par le cognitif et réciproquement”. In Langage et société, numéro 66, déc. 1993, p. 63-75.

Wittgenstein, Ludwig, Philosophical Investigations, (specially paragraph 79), Trad Anscombe, Basil Blackwell, 1958.

Articles de Wikipedia: 

https://en.wikipedia.org/wiki/Prototype_theory

https://en.wikipedia.org/wiki/Causal_theory_of_reference

https://en.wikipedia.org/wiki/Saul_Kripke

Ou comment passer d’un langage de métadonnées à une culture de l’intelligence collective…

L’ENJEU DES MÉTADONNÉES

Les métadonnées sont les données qui organisent les données. Les données sont comme les livres d’une bibliothèque et les métadonnées comme le fichier et le catalogue de la bibliothèque: leur fonction est d’identifier les livres afin de mieux les ranger et les retrouver. Les métadonnées servent moins à décrire exhaustivement les choses (il ne s’agit pas de faire des cartes à la même échelle que le territoire…) qu’à fournir des repères à partir desquels les utilisateurs pourront trouver ce qu’ils cherchent, avec l’aide d’algorithmes. Tous les systèmes d’information et applications logicielles organisent l’information au moyen de métadonnées. 

On peut distinguer… 

1) les métadonnées matérielles, comme le format d’un fichier, sa date de création, son auteur, sa licence d’utilisation, etc. 

2) les métadonnées sémantiques qui concernent le contenu d’un document ou d’un ensemble de données (de quoi ça parle) ainsi que leur dimension pratique (à quoi servent les données, à qui, dans quelles circonstances, etc.). 

Art: Emma Kunz

On s’intéresse ici principalement aux métadonnées sémantiques. Un système de métadonnées sémantiques peut être aussi simple qu’un vocabulaire. Au niveau de complexité supérieur cela peut être une classification hiérarchique ou taxonomie. Au niveau le plus complexe, c’est une “ontologie”, c’est-à-dire la modélisation d’un domaine de connaissance ou de pratique, qui peut contenir plusieurs taxonomies avec des relations transversales, y compris des relations causales et des possibilités de raisonnement automatique.  

Les métadonnées sémantiques représentent un élément essentiel des dispositifs d’intelligence artificielle :

– elles sont utilisées comme squelettes des graphes de connaissances (knowledge graphs) – ou bases de connaissances – mis en oeuvre par les big techs (Google, Facebook, Amazon, Microsoft, Apple…) et de plus en plus dans des grandes et moyennes entreprises,

– elles sont utilisées – sous le nom de “labels” – pour catégoriser les données d’entraînement des modèles de deep learning.

Parce qu’ils structurent la connaissance contemporaine, dont le support est numérique, les systèmes de métadonnées représentent un enjeu considérable aux niveaux scientifique, culturel, politique…  

Un des buts de ma compagnie INTLEKT Metadata Inc. est de faire de IEML (Information Economy MetaLanguage) un standard pour l’expression des systèmes de métadonnées sémantiques. Quel est le paysage contemporain dans ce domaine?

LE PAYSAGE DES MÉTADONNÉES SÉMANTIQUES AUJOURD’HUI

Formats Standards

Le système de formats et de “langages” standards proposé par le World Wide Web Consortium – W3C – (XML, RDF, OWL, SPARQL) pour atteindre le “Web Sémantique” existe depuis la fin du 20e siècle. Il n’a pas réellement pris, et notamment pas dans les entreprises en général et les big tech en particulier, qui utilisent des formats moins lourds et moins complexes, comme les “property graphs“. De plus, la catégorisation manuelle ou semi-manuelle des données est souvent remplacée par des approches statistiques d’indexation automatique (NLP, deep learning…), qui contournent la nécessité de concevoir des systèmes de métadonnées. Le système de standards du W3C concerne les *formats de fichiers et de programmes* traitant les métadonnées sémantiques mais *pas la sémantique proprement dite*, à savoir les catégories, concepts, propriétés, événements, relations, etc. qui sont toujours exprimées en langues naturelles, avec toutes les ambiguïtés, multiplicités et incompatibilités que cela implique.

Modèles standards

Au dessus de ce système de formats standards existent des modèles standards pour traiter le contenu proprement sémantique des concepts et de leurs relations. Par exemple schema.org pour les sites web, CIDOC-CRM pour le domaine culturel, etc. Il existe des modèles standard pour de très nombreux domaines, de la finance à la médecine. Le problème est qu’il existe souvent plusieurs modèles concurrents pour un domaine et que les modèles eux-mêmes sont hypercomplexes, au point que même les spécialistes d’un modèle n’en maîtrisent qu’une petite partie. De nouveau, ces modèles sont exprimés en langues naturelles, avec les problèmes que cela suppose… et le plus souvent en anglais. 

Systèmes de métadonnées particuliers

Les taxonomies, ontologies et autres systèmes de métadonnées mis en oeuvre dans des applications réelles pour organiser des ensembles de données sont le plus souvent des utilisations partielles des modèles standards et des formats standards. Les utilisateurs se soumettent – plus ou moins bien – à ces couches de standards dans l’espoir que leurs données et applications deviendront les heureux sujets d’un royaume de l’interopérabilité sémantique. Mais leurs espoirs sont déçus. L’idéal du Web intelligent décentralisé de la fin des années 1990 a cédé la place au search engine optimization (SEO) plus ou moins aligné sur le knowledge graph (secret!) de Google. Il faut bien reconnaître, près d’un quart de siècle après son lancement, que le Web Sémantique du W3C n’a pas tenu ses promesses.

Problèmes rencontrés 

Pour obtenir l’interopérabilité sémantique, c’est-à-dire la communication fluide entre bases de connaissance, les responsables de systèmes d’information se soumettent à des modèles et formats rigides. Mais à cause de la multitude des formats, des modèles et de leurs applications disparates, sans parler des différences de langues, ils n’obtiennent pas le gain attendu. De plus, produire un bon système de métadonnées coûte cher, car il faut réunir une équipe pluridisciplinaire comprenant : un chef de projet, un ou des spécialistes du domaine d’utilisation, un spécialiste de la modélisation formelle de type taxonomie ou ontologie (ingénierie cognitive) qui soit capable de se retrouver dans le labyrinthe des modèles standards et enfin un ingénieur informaticien spécialiste des formats de métadonnées sémantiques. Certaines personnes réunissent plusieurs de ces compétences, mais elles sont rares.

COMMENT IEML PEUT-IL RÉSOUDRE LES PROBLÈMES RENCONTRÉS DANS LE MONDE DES MÉTADONNÉES SÉMANTIQUES ? 

IEML en deux mots

IEML – aujourd’hui breveté par INTLEKT Metadata – n’est ni une taxonomie, ni une ontologie universelle, ni un modèle, ni un format: c’est une *langue* ou une *méta-ontologie* composée (1) de quelques milliers de primitives sémantiques organisées en paradigmes et (2) d’une grammaire entièrement régulière.

Caractéristiques uniques du langage IEML

IEML est “agnostique” quand aux formats, langues naturelles et relations hiérarchiques entre concepts. IEML permet de construire et de partager n’importe quel concept, hiérarchie de concepts ou relation entre concepts. IEML ne produit donc pas d’uniformisation ou d’aplatissement des possibilités expressives. Pourtant, IEML assure l’interopérabilité sémantique, c’est-à-dire la possibilité de fusionner, d’échanger, de recombiner, de connecter et de traduire quasi-automatiquement les systèmes de métadonnées et les bases de connaissances organisées par ces métadonnées. IEML permet donc de concilier le maximum d’originalité, de complexité ou de simplicité cognitive d’un côté et l’interopérabilité ou la communication de l’autre, contrairement à ce qui se passe dans la situation contemporaine où l’interopérabilité se “paye” par la réduction des possibilités expressives.

Fonctions uniques de l’éditeur IEML 

Autre avantage: contrairement aux principaux outils d’édition de métadonnées contemporains (Smart Logic Semaphore, Pool Party, Synaptica, Top Braid Composer) l’éditeur IEML conçu par INTLEKT sera intuitif (interface visuelle à base de tables et de graphes) et collaboratif. Il n’est pas destiné aux spécialistes de RDF et OWL (les formats standards), comme les éditeurs cités plus hauts, mais aux spécialistes des domaines d’applications. Une méthode accompagnant l’outil va aider les experts à formaliser leurs domaines en IEML. Le logiciel importera et exportera automatiquement les métadonnées dans les formats standards choisis par l’utilisateur. C’est ainsi que l’éditeur IEML permettra de réduire la complexité et le coût de la création des systèmes de métadonnées sémantiques. 

Marché des outils d’édition et de gestion des systèmes de métadonnées

On comprend aisément que, la masse des données produites ne cessant de croître, tout comme le besoin d’en extraire des connaissances utilisables, on ait de plus en plus besoin de créer et de maintenir de bons systèmes de métadonnées. Le marché des outils d’édition et de gestion des systèmes de métadonnées sémantiques représente aujourd’hui deux milliards de dollars et il pourrait atteindre (selon une estimation très conservatrice) seize milliards de dollars en 2026.  Cette projection agrège : 1) les données de l’industrie sémantique proprement dite (les entreprises qui créent des systèmes de métadonnées pour leurs clients), 2) les outils d’annotation sémantique des datasets d’entraînement pour le machine learning utilisés notamment par les data scientists, 3) la gestion des systèmes de métadonnées en interne par les big tech.

LES BUTS DE INTLEKT METADATA À L’HORIZON DE 5-10 ANS

La fondation

Nous voulons qu’IEML devienne un standard open-source pour les métadonnées sémantiques autour de 2025. Le standard IEML devra être supporté, maintenu et développé par une fondation à but non lucratif. Cette fondation supervisera aussi une communauté d’édition collaborative de systèmes de métadonnées en IEML et une base de  connaissance publique de données catégorisées en IEML. La fondation créera un écosystème socio-technique favorable à la croissance de l’intelligence collective.

L’entreprise privée

INTLEKT continuera à maintenir l’outil d’édition collaborative et à concevoir des bases de connaissances sémantiques sur mesure pour des clients solvables. Nous mettrons également en oeuvre un marché – ou système d’échange – des données privées indexées en IEML qui sera basé sur la blockchain. Les bases de connaissances indexées en IEML seront interopérables sur les plans parallèles de l’analyse des données, du raisonnement automatique et de l’entraînement des modèles neuronaux.

Néanmoins, avant d’arriver à ce point, INTLEKT doit démontrer l’efficacité d’IEML au moyen de plusieurs cas d’usage réels.

LE MARCHÉ D’INTLEKT METADATA À L’HORIZON DE 2-5 ANS

Des entretiens avec de nombreux clients potentiels nous ont permis de définir notre marché pour les années qui viennent. Définissons les domaines pertinents par élimination et approximations successives. 

Les affaires humaines

IEML n’est pas pertinent pour la modélisation d’objets purement mathématiques, physiques ou biologiques. Les sciences exactes disposent déjà de langages formels et de classifications reconnues. En revanche IEML est pertinent pour les objets des sciences humaines et des sciences sociales ou pour les interactions entre objets des sciences exactes et objets des sciences humaines, comme la technologie, la santé, l’environnement ou le phénomène urbain.

Les domaines non-standards

Dans l’immédiat, nous ne nous épuiserons pas à traduire en IEML tous les modèles de métadonnées existants: ils sont très nombreux, parfois contradictoires et rarement utilisés en totalité. Beaucoup d’utilisateurs de ces modèles se contentent d’en sélectionner une petite sous-partie utile et n’investiront pas leur temps et leur argent dans une nouvelle technologie sans nécessité. Par exemple, les nombreuses entreprises qui font du SEO (Search Engine Optimization) extraient un sous-ensemble utile des *classes* de schema.org (patronné par Google) et des *entités* de Wikidata (parce qu’elles sont réputées fiables par Google) et n’ont pas besoin de technologies sémantiques supplémentaires. Autres exemples: les secteurs des galeries, des musées, des bibliothèques ou des archives doivent se soumettre à des standards professionnels rigides avec des possibilités d’innovation limitées. En somme les secteurs qui se contentent d’utiliser un modèle standard existant ne font pas partie de notre marché à court terme. Nous ne mènerons pas de batailles perdues d’avance. A long terme, nous envisageons néanmoins une plateforme collaborative où pourra s’effectuer la traduction volontaire des modèles standards actuels en IEML.

Eliminons également le marché du commerce en ligne pour le moment. Ce secteur utilise bien des systèmes de catégories pour identifier les grands domaines (immobilier, voitures, électroménager, jouets, livres, etc…), mais la multitude des biens et services à l’intérieur de ces catégories assez larges est appréhendée par des systèmes de traitement automatique des langues naturelles ou d’apprentissage machine, plutôt que par des systèmes de métadonnées raffinés. Nous ne croyons pas à une adoption d’IEML à court terme dans le commerce en ligne.

Reste les domaines non-standards – qui n’ont pas de modèles tous faits – ou multi-standards – qui doivent construire des modèles hybrides ou des carrefours – et pour qui les approches statistiques sont utiles… mais pas suffisantes. Pensons par exemple à l’apprentissage collaboratif, à la santé publique, aux villes intelligentes, à la documentation du logiciel, à l’analyse de corpus complexes relevant de plusieurs disciplines, etc. 

La modélisation et la visualisation de systèmes complexes

Au sein des domaines non-standards, nous avons identifié les besoins suivants, qui ne sont pas comblés par les technologies sémantiques en usage aujourd’hui :

– La modélisation de systèmes humains complexes, où se rencontrent plusieurs “logiques” hétérogènes, C’est-à-dire des groupes obéissant à divers types de règles. Citons notamment les données produites par les processus de délibération, d’argumentation, de négociation et d’interaction techno-sociale.

– La modélisation de systèmes causaux, y compris les causalités circulaires et entrelacées.

– La modélisation de systèmes dynamiques au cours desquels les objets ou les actants se transforment. Ces dynamiques peuvent être de type : évolution, ontogénèse, hybridations successives, etc.

– L’exploration et la visualisation interactive 2D ou 3D de structures sémantiques dans des corpus immenses, de préférence sous une forme mémorable, c’est-à-dire facile à retenir. 

Dans les années qui viennent, INTLEKT se propose de modéliser de manière causale des systèmes dynamiques complexes impliquant la participation humaine et de donner accès à une exploration sensori-motrice mémorable de ces systèmes.

IEML étant une langue, tout ce qui peut se définir, se décrire et s’expliquer en langue naturelle peut être modélisé de manière formelle en IEML, fournissant ainsi un cadre qualitatif à des mesures et des calculs quantitatifs. On pourra faire du raisonnement automatique à partir de règles, de la prévision et de l’aide à la décision, mais le principal apport d’IEML sera d’augmenter les capacités, d’analyse, de synthèse, de compréhension mutuelle et de coordination dans l’action des communautés utilisatrices.

LES SIX PROCHAINS MOIS

La langue IEML existe déjà. Son élaboration a été financée à hauteur d’un million de dollars dans un cadre académique. Nous avons également un prototype de l’éditeur. Il nous faut maintenant passer à une version professionnelle de l’éditeur afin de pouvoir répondre aux besoins du marché identifié à la section précédente. Nous avons pour cela besoin d’un investissement privé d’environ 226 K US$, qui servira essentiellement au développement d’une plateforme d’édition collaborative pourvue de l’interface adéquate. Avis aux investisseurs. 

IEML est fondé sur les grandes découvertes de la linguistique du XXe siècle. Dans cette entrée de blog nous allons étudier successivement les héritages de Chomsky; de Saussure et de l’école structuraliste; de Tesnière et du modèle actantiel de la phrase; de Benveniste, Wittgenstein et Austin pour leurs solutions aux problèmes épineux de l’énonciation et de la pragmatique. Je conclurai en essayant de dissiper un des principaux malentendus au sujet d’IEML: ce n’est pas une langue “vraie” (une langue n’est ni vraie ni fausse, elle est conventionnelle), mais une langue claire.

[For an English version of this article see here.]

Fragonard La liseuse

L’héritage de Chomsky et les langages réguliers

Commençons par évoquer la dette d’IEML à l’égard de Noam Chomsky, un des géants de la linguistique et des sciences cognitives du XXe siècle. Pour le professeur du MIT, la capacité linguistique est un trait génétiquement déterminé de l’espèce humaine. Les langues, malgré leur diversité et leur évolution continuelle, partagent toutes la même “grammaire universelle” correspondant à cette habileté linguistique innée. Cette théorie expliquerait pourquoi les enfants apprennent spontanément et si vite à parler, sans qu’on ait besoin de leur donner des leçons de grammaire. Chomsky a exposé une version formelle – d’ailleurs contestée et plusieurs fois révisée – de la grammaire universelle. La découverte scientifique la plus précieuse de Chomsky est probablement sa théorie des langages réguliers : il a démontré qu’il existait une correspondance entre l’algèbre et la syntaxe formelle. La langue est donc en principe un objet calculable, au moins sur un plan syntaxique . Pour qu’une langue puisse être manipulée facilement par les ordinateurs, c’est-à-dire calculable, il faut qu’elle soit un langage régulier au sens de Chomsky: une sorte de code mathématique. Or les langues naturelles ne sont évidemment pas des langages réguliers. Les langages réguliers effectivement utilisés aujourd’hui sont des langages de programmation. Mais la “sémantique” des langages de programmation n’est autre que l’exécution des opérations qu’ils commandent. Aucun d’eux n’approche la capacité expressive d’une langue naturelle, qui permet de parler de tout et de rien et d’accomplir bien d’autres actes illocutoires que de donner des instructions à une machine. Notons au passage que Hjelmslev critiquait l’expression de « langue naturelle » à laquelle il préférait celle de langue philologique ou langue passe-partout. En effet, on peut tout dire en Espéranto, par exemple, bien que ce soit une langue construite et non pas naturelle. L’Espéranto est donc une langue philologique. Hélas, la sémantique de l’Espéranto n’est pas plus calculable que celle du Français ou de l’Arabe. A cause de leur irrégularité, les ordinateurs n’ont aujourd’hui accès aux langues philologiques que sur un mode statistique. C’est pourquoi notre âge numérique a besoin d’une langue philologique transparente aux algorithmes et donc régulière. IEML est la solution que j’ai trouvée au problème de la construction d’une langue philologique à la sémantique calculable. La calculabilité de sa sémantique n’est évidemment pertinente que s’il s’agit d’une langue philologique, permettant de « tout dire ». Et puisque la sémantique de cette langue devait être calculable, sa syntaxe devait a fortiori l’être aussi. C’est pourquoi IEML est un langage régulier au sens de Chomsky. Mais si le fait d’être un langage régulier était une condition nécessaire à la calculabilité de sa sémantique, ce n’en était pas une condition suffisante. Souvenons-nous que les langages réguliers actuellement en usage ont une sémantique restreinte : ce ne sont pas des langues philologiques. Comment conférer une sémantique philologique à un langage régulier ? Pour répondre à cette question, je me suis appuyé sur les enseignements de Saussure et de ses successeurs.

L’héritage de Saussure et le structuralisme

Selon Ferdinand de Saussure (1857-1913), un des pères de la linguistique contemporaine, les symboles linguistiques sont constitués de deux parties, le signifiant (une image acoustique ou visuelle) et le signifié (un concept ou une catégorie abstraite). Le rapport entre les deux parties du symbole est conventionnel ou arbitraire. Saussure a également montré que le plan du signifiant, ou la phonologie des langues, était basé sur un système de différences entre les sons, chaque langue ayant sa propre liste de phonèmes et surtout sa propre manière de disposer les seuils de passage entre deux phonèmes dans le continuum sonore. Un phonème n’existe pas de manière isolée, en dehors d’un éventail de variations, un peu comme les notes de musique n’existent que par rapport à un système musical. De la même manière, les signifiés ne sont pas des atomes de sens se suffisant à eux-mêmes mais correspondent à des positions dans des systèmes de différences : les paradigmes. La sémantique linguistique ne s’ancre donc pas dans des réalités naturelles fixes et indépendantes, mais dans un processus de comparaison, d’opposition, de différenciation et de renvois entre signifiés au sein d’une grille systémique bouclée sur elle-même, comme le sens d’un mot dans le dictionnaire est défini par d’autres mots qui, eux-mêmes, etc. Les travaux de Saussure ont été notamment poursuivis par Louis Hjemslev (1899-1965), qui a approfondi l’analyse du signe linguistique et a plaidé pour un maximum de rigueur épistémologique dans le traitement du langage, jusqu’à un idéal quasi-algébrique. Hjemslev a rebaptisé l’opposition entre signifiant et signifié en décrivant deux « plans » linguistiques celui de l’expression (le signifiant) et celui du contenu (le signifié). Chacun des deux plans est à son tour analysé en matière et forme. La matière de l’expression est de l’ordre du phénomène sensible, par exemple visuel ou sonore. Par contraste, la forme de l’expression désigne les unités abstraites qui résultent du découpage structurel des signifiants dans une langue donnée. Par exemple, le phonème « a » représente une forme bien déterminée qui s’oppose dans telle ou telle langue au phonème « o ». C’est ce qui permet en français, par exemple, de distinguer entre « bas » et « beau ». En revanche la forme « a » peut être remplie par un grand nombre de matières sonores distinctes selon les voix, les accents, etc. La matière est de l’ordre du continuum concret alors que la forme est de l’ordre du système d’oppositions abstrait. Il en est de même pour le contenu. Hjemslev a supposé qu’il existait un continuum du signifié, une sorte de magma abritant virtuellement l’ensemble des catégories possibles : la matière du contenu. Cette matière est découpée et organisée en paradigmes de manière différente pour chaque langue. En fin de compte, une langue quelconque organise une correspondance particulière entre forme de l’expression et forme du contenu. Le courant structuraliste initié par Saussure et poursuivi par Hjemslev a été prolongé par Julien Algirdas Greimas (1917-1992) et François Rastier (1945- ). Tout en maintenant vivante la tradition qui conçoit l’existence relativement autonome d’un monde des signifiés, ces auteurs ont notamment étendu l’analyse structurale du niveau des mots et des phrases jusqu’au niveau du texte, en particulier grâce à la notion d’isotopie. Revenons maintenant à notre problème : comment construire une langue qui soit simultanément philologique et régulière ? Non seulement les langues sont conventionnelles, mais elles ne peuvent pas ne pas l’être. La correspondance entre signifiant et signifié, ou expression et contenu, est arbitraire par nature. Puisque les langues sont nécessairement conventionnelles, rien n’interdit d’en construire une dont l’arrangement des signifiants soit de type “langage régulier”. Nous savons qu’un langage régulier possède une syntaxe calculable. Or la syntaxe régit les éléments signifiants de la langue, les phonèmes et leurs enchaînements, à plusieurs niveaux de complexité emboîtés. Puisqu’aussi bien les signifiants que les signifiés doivent être organisés par un système de différences, rien n’interdit non plus de donner  – par convention – à ce langage régulier un système de différences des signifiés (une forme du contenu) qui soit une fonction mathématique de celui des signifiants (la forme de l’expression). En accord avec les théories de Saussure et de ses successeurs, les unités de la langue IEML, à commencer par les morphèmes, mais aussi les unités lexicales, les phrases et les super-phrases sont organisées en paradigmes. Ces systèmes de variations sur fond de constantes – ou groupes de transformations – permettent aux unités linguistiques de s’entre-définir et de s’expliquer réciproquement. Or – en IEML – ce sont les mêmes paradigmes qui structurent l’expression et le contenu. Voici donc le principe de résolution de notre problème : dans un langage régulier dont le système de différences des signifiés est une fonction calculable de celui des signifiants, non seulement la syntaxe mais également la sémantique est calculable. C’est précisément le cas d’IEML, qui est donc une langue à la sémantique calculable !

L’héritage de Tesnière et la linguistique cognitive

Parmi toutes les fonctions du langage, l’une des plus importantes est de supporter la construction et la simulation de modèles mentaux [Je m’inspire ici notamment de l’étude de Philip Johnson-Laird, Mental Models, Harvard University Press, 1983]. L’architecture linguistique des modèles mentaux n’est évidemment pas exclusive de modes de représentation sensori-moteurs, et notamment visuels, qui peuvent se rapporter aussi bien à des mondes fictionnels qu’à la réalité vécue. Des linguistes comme Ronald Langacker (1942- ) et George Lakoff (1941- ), qui sont parmi les principaux chefs de file du courant de la linguistique cognitive, ont particulièrement étudié cette fonction de modélisation mentale. La capacité de représenter des « scènes » – à savoir des processus mis en oeuvre par des actants dans certaines circonstances – est une condition sine qua non du travail de modélisation accompli par le langage. Elle fonde la faculté narrative, puisqu’un récit peut être ramené à un enchaînement hypertextuel de scènes, moyennant certaines relations d’anaphore et d’isotopie. J’ajoute qu’en spécifiant les rapports entre processus et/ou entre actants, la scénographie linguistique fonde également la représentation des relations causales. Puisqu’une des missions d’IEML est de servir d’outil formel de modélisation, il doit non seulement organiser un morphisme entre sa sémantique et sa syntaxe, mais également systématiser et faciliter autant que possible la représentation des processus, des actants, des circonstances et de leurs interactions. Pour ce faire, IEML a intégré, avec quelques ajustements, le modèle actantiel de la phrase que Tesnière, préfigurant la linguistique cognitive, avait proposé dès le milieu du XXe siècle.

Cette image a un attribut alt vide ; le nom du fichier est stemmas_1.1.png
Figure 1: Exemple d’arbres de dépendance ou « stemmas » de Tesnière CC BY-SA 3.0, Wikimedia Commons.

En effet, outre le courant structuraliste, la grammaire d’IEML a aussi été largement influencée par l’oeuvre majeure de Lucien Tesnière (1893-1954). Ce linguiste français a été le premier à présenter une grammaire universelle fondée sur les arbres de dépendance, qui met en évidence le lien intime entre syntaxe et sémantique (voir la Figure 1). Bien que les deux systèmes aient été élaborés indépendamment, les arbres de dépendance de Tesnière sont proches des arbres syntaxiques de Chomsky. Tesnière a aussi proposé une théorie subtile de la translation entre les « parties du discours » que sont les verbes, noms, adverbes et adjectifs. Il a surtout développé le modèle actantiel de la phrase dont s’inspire la fonction syntagmatique d’IEML. La citation suivante, extraite de son oeuvre posthume Eléments de syntaxe structurale, explique bien le principe du modèle actantiel : « Le noeud verbal (…) exprime tout un petit drame. Comme un drame, en effet, il comporte (…) un procès et, le plus souvent, des acteurs et des circonstances. Le verbe exprime le procès. (…) Les actants sont des êtres ou des choses (…) participant au procès. (…) Les circonstants expriment les circonstances de temps, lieux, manière, etc. » [Lucien Tesnière, Eléments de syntaxe structurale, Klincksieck, Paris 1959: 102, Chapitre 48] Le modèle actantiel de Tesnière a notamment été repris et développé par deux importants linguistes contemporains, Igor Melchuk (1932- ) et Charles Fillmore (1929-2014). La grammaire des cas de Fillmore publiée en 1968, a été étendue dans les années 1980 à une conception quasi-encyclopédique de la sémantique linguistique notamment mise en oeuvre dans le projet FrameNet centré sur la langue anglaise et qui inspire plusieurs programmes d’intelligence artificielle. Les frames ou « cadres » en français décrivent la manière dont les mots conviennent les uns avec les autres et déterminent mutuellement leurs sens dans une phrase. Par exemple, lorsqu’on utilise le verbe « attaquer » à la voix active, le sujet grammatical est forcément un assaillant et l’objet grammatical une victime de l’attaque. L’approche adoptée par IEML est compatible avec les théories de Fillmore, les cas correspondant aux rôles syntagmatiques et l’équivalent des cadres étant les paradigmes de phrases. Quant à Igor Melchuk, sa contribution la plus originale concerne la morphologie, c’est-à-dire la structure des mots et leurs rapports. Il a en particulier décrit les fonctions lexicales qui règlent les collocations – c’est-à-dire les mots qui vont ou ne vont pas ensemble – et les relations sémantiques entre les unités lexicales d’une langue. Un exemple simple de fonction lexicale est « PLUS » comme dans : [PLUS (colline) = montagne] ou [PLUS (ruisseau) = rivière]. Les fonctions lexicales sont notamment utilisées pour construire des dictionnaires explicatifs et combinatoires (monolingues) et elles alimentent, comme les cadres de Fillmore, certains programmes de traitement automatique des langues naturelles. IEML intègre les principales fonctions lexicales mises en évidence par Melchuk, ce qui permet de composer facilement de nouveaux mots à partir des éléments du dictionnaire et d’expliciter formellement les relations sémantiques entre unités lexicales. Quant aux collocations selon Melchuk elles sont proches des cadres de Fillmore et sont – comme eux – traduites en IEML par des paradigmes de phrases. En somme, de nombreux linguistes ont souligné l’importance de la fonction modélisatrice du langage. Suivant leurs traces, IEML offre à ses locuteurs les outils grammaticaux nécessaires pour décrire des scènes et raconter des histoires. De plus, IEML permet de modéliser un domaine de connaissance spécialisé ou un champ sémantique particulier par la libre élaboration de terminologies (paradigmes de radicaux) et de phrases-cadres (paradigmes de phrases).

Austin, Wittgenstein et l’héritage pragmatique

La langue est une structure abstraite qui combine des paradigmes de morphèmes (atomes de sens indécomposables) et des règles de compositions des unités grammaticales (mots, phrases…) à partir des morphèmes. Par contraste, la parole – ou le texte – est une séquence de morphèmes particulière qui actualise le système de la langue. En ce sens, les terminologies et les phrases-cadres d’IEML appartiennent à une catégorie intermédiaire entre la langue et la parole. Ils font partie de la parole dans la mesure où ils sont librement créés à partir du dictionnaire de morphèmes initial et des règles de construction de syntagmes. Mais ils appartiennent encore à la langue puisque ce ne sont pas à proprement parler des énonciations en contexte. Ce n’est qu’au niveau de l’énonciation, en effet, que se déploient les actes de langages, c’est-à-dire la dimension pragmatique des langues. Or il ne s’agit pas de choisir entre la fonction modélisatrice ou représentative des langues, qui vient d’être évoquée à la section précédente, et leur fonction pratique, que nous allons survoler dans cette section. Bien au contraire : la fonction de représentation et la fonction pratique se soutiennent mutuellement. Sans modèle du monde, l’action n’a pas de sens et sans plongement dans quelque situation pratique, la représentation perd toute pertinence. Quoiqu’on puisse faire remonter la réflexion sur la puissance pratique du langage à la rhétorique antique ou aux plus anciennes réflexions de l’école confucéenne, je me limiterai ici à quelques grands auteurs : Emile Benvéniste pour l’étude de l’énonciation et de la fonction déictique, Ludwig Wittgenstein pour la question de la référence et des jeux de langage, John L. Austin pour la notion même de pragmatique linguistique. Relèvent de la pragmatique linguistique les actes accomplis dans le langage mais qui ont des conséquences extra-linguistiques, comme par exemple baptiser, interdire, condamner, etc. Puisqu’ils sont accomplis dans le langage, ces actes sont de nature symbolique. Ils sont par conséquent régis par des règles et accomplis par des « joueurs » qui tiennent des rôles déterminés. Une multitude de jeux de langage, selon l’expression de Wittgenstein, animent donc la dimension pragmatique qui s’ouvre avec l’énonciation. Une langue peut elle-même être assimilée à un système de règles ou à un jeu. Et si cette langue est philologique elle est capable à son tour de définir une multitude de langues restreintes, de systèmes de règles ou de jeux, qui sont autant de manières distinctes de l’utiliser dans la pratique. IEML étant une langue philologique, nous l’utiliserons non seulement pour modéliser un champ sémantique quelconque, représenter des scènes et raconter des histoires, mais aussi pour expliciter des jeux de langages dont nous formaliserons les règles, les rôles et les coups au moyen de terminologies et de phrases-cadres. Lorsqu’ils reconnaîtront les actes de langages accomplis par les locuteurs d’IEML, des algorithmes pourront déclencher automatiquement leurs conséquences extra-linguistiques et notamment calculer les nouveaux états des « parties » en cours. J’évoquerai ici quatre grands types d’actes de langage qui sont particulièrement pertinents pour IEML : la référence, le raisonnement, la communication sociale et les instructions données à des machines. La première fonction de l’énonciation est de faire référence à des objets non-linguistiques. Une de ses formes les plus évidentes est la distribution des rôles interlocutoires : les première, seconde ou troisième personnes indiquent qui parle, à qui et de quoi. Mentionnons également les possessifs (liés à la distribution des personnes grammaticales), les démonstratifs comme « ça, ici, là-bas », les adverbes comme « aujourd’hui », « demain », etc. Or un texte – ou un énoncé – ne permet pas d’interpréter les déictiques comme « je », « ça » ou « demain ». Seul l’événement d’une énonciation par quelqu’un, dans un contexte spatio-temporel d’interlocution défini, peut leur donner un contenu [« « Je » » signifie « la personne qui énonce la présente instance du discours contenant « je ». » (Emile Benveniste)] . Cette fonction référentielle du langage est particulièrement importante pour IEML, qui a pour vocation de catégoriser des données et donc – par nécessité – de les indexer. Aussi bien la distribution des rôles interlocutoires que la catégorisation des données peuvent se conformer à un grand nombre de jeux de référence distincts. Par exemple, pour interpréter un « nous » il faut connaître le système de distribution des personnes auquel il obéit : pluriel de majesté, chercheurs d’une même discipline, membres d’un tribunal, citoyens d’une nation en guerre…? D’autre part, la catégorisation des données en IEML prend un sens différent selon que l’indexation est faite par un algorithme ou par un humain. Dans le cas de l’indexation automatique, s’agit-il d’un algorithme statistique basé sur un corpus indexé manuellement ? Et dans ce dernier cas, indexé par qui, selon quels critères, etc. Dans le même ordre d’idée, il peut être utile de savoir si un texte est cité (encore un geste déictique) en tant que partie d’un corpus de référence, comme une autorité pour renforcer la crédibilité des idées de l’auteur, pour être critiqué, ou encore pour une autre raison. En somme, l’opération de référence est un acte de langage, cet acte relève d’une multitude de jeux possibles, et ces jeux peuvent être explicités en IEML. Le raisonnement est encore un autre type de jeu de langage modélisable en IEML. Citons dès maintenant, en suivant la typologie de Charles S. Peirce, (1) les divers genres de raisonnement déductifs, (2) les raisonnements inductifs – incluant les calculs statistiques – et (3) les raisonnements abductifs, qui construisent des modèles causaux d’un domaine ou d’un processus. On remarquera que le raisonnement suppose la plupart du temps la référence et que cette dernière est souvent faite pour appuyer le raisonnement. Les jeux de langage qui ont le plus été étudiés par les spécialistes de la pragmatique, à commencer par Austin et Searle, sont les jeux de communication sociale, qui comprennent par exemple les assertions, les questions, les ordres, les promesses, les remerciements, les nominations, etc. Mais nous pouvons ajouter à ce type de jeux les transactions, les contrats et tout ce qui relève des arrangements légaux et des échanges économiques, qui passent de plus en plus par des canaux électroniques et qui auraient avantage à être exprimés dans un langage transparent, univoque et calculable comme IEML. Finalement, puisque nous vivons dans un environnement de plus en plus robotisé, les instructions données à des machines, tout comme d’ailleurs les informations – parfois vitales – que les machines nous transmettent, font évidemment partie des actes de langage aux importantes conséquences extra-linguistiques. Parce que les ordinateurs peuvent décoder IEML et qu’IEML se traduit en langues naturelles, notre métalangage pourrait devenir le noyau logiciel d’une interface ubiquitaire et interopérable entre humains et machines.

Une image du monde ou une image de soi ?

Dans le Tractatus Logico Philosophicus, l’ouvrage de jeunesse qui l’a fait connaître, Wittgenstein examine à quelles conditions les propositions logiques présentent une image fidèle de la réalité. Le monde étant conçu par notre philosophe viennois comme « tout ce qui arrive », chaque fait ou événement devrait être représenté par une proposition dont la structure logico-grammaticale reflète la structure interne du fait. L’idée d’un langage parfait ou d’une langue transparente est souvent associée à cet idéal d’isomorphie entre les expressions du langage et les réalités qu’elles décrivent ou, en d’autres termes, entre la parole et sa référence. Rien n’est plus loin du projet d’IEML. Plutôt que de poursuivre la chimère au parfum vaguement totalitaire d’une langue de la vérité (la vérité se ramène à la correspondance entre parole et réalité), j’ai poursuivi un objectif moins contraignant et surtout plus atteignable : celui d’une langue de la clarté, aussi univoque et traductible que possible. A l’idéal d’une langue logique qui reflèterait des états de choses, j’ai substitué celui d’une langue philologique dont la forme algébrique de l’expression reflèterait la forme du contenu conceptuel : une langue qui serait une image d’elle-même avant d’être une image du monde. Par définition, cette correspondance interne ne relève pas du vrai et du faux mais de la convention utile. Quant au rapport d’IEML avec la réalité extralinguistique, elle relève d’une multitude de jeux de langages (je suis ici le Wittgenstein de la maturité, tel qu’il s’est exprimé dans les Philosophical Investigations), multitude qui englobe les diverses manières de découper, reconnaître et désigner des objets pertinents selon les contextes pratiques. Et grâce à la capacité de description universelle propre à toutes les langues philologiques, nous pouvons modéliser ces multiples jeux de langages en IEML. Cette approche respecte aussi bien la liberté que la créativité de ses locuteurs tout en autorisant ces derniers à se coordonner entre eux et avec les machines. Reprenons la classification des différents niveaux de la sémantique – linguistique, référentielle et illocutoire. Notre métalangage clarifie les relations entre signifiés et signifiants ainsi que les relations entre signifiés au point de pouvoir automatiser leur traitement. Le principal apport d’IEML se situe donc au niveau de la sémantique linguistique. Quant à la sémantique référentielle – le pointage vers des réalités extra-linguistiques – elle peut devenir plus précise dans la mesure où les différents modes de référence sont précisés en IEML. Enfin, la force illocutoire des énonciations, c’est-à-dire les « coups » qui sont joués dans une multitude de jeux de communication sociale, peuvent être reconnus par des algorithmes et traités en conséquence, à condition que les jeux en question aient préalablement été décrits en IEML. En somme, la formalisation de la sémantique linguistique nous offre la clé de la formalisation de la sémantique en général.

Brève bibliographie

  • Austin John L. How to Do Things with Words, Oxford University Press, Oxford, 1962
  • Benveniste Emile Problèmes de linguistique générale, Tomes 1 et 2, Gallimard, Paris, 1966-1974
  • Chomsky Noam New Horizons in the Study of Language and Mind, Cambridge University Press, Cambridge, 2000.
  • Chomsky Noam Syntaxic Structures, Mouton, La Hague et Paris, 1957.
  • Chomsky Noam ; Schützenberger, Marcel P. « The algebraic theory of context free languages », in Braffort, P. ; Hirschberg, D. : Computer Programming and Formal Languages, North Holland, Amsterdam, 118-161, 1963
  • Fillmore Charles “The Case for Case” (1968). In Bach and Harms (Ed.): Universals in Linguistic Theory. New York: Holt, Rinehart, and Winston, 1-88. (Tesnières y est cité à neuf reprises).
  • Fillmore Charles “Frame semantics” (1982). In Linguistics in the Morning Calm. Seoul, Hanshin Publishing Co., 111-137.
  • Hejlmslev Louis, Prolégomènes à une théorie du langageLa Structure fondamentale du langage, Paris, Éditions de minuit, coll. « Arguments », 2000
  • Johnson-Laird Philip, Mental Models, Harvard University Press, 1983
  • Lakoff George Women, Fire and Dangerous Things: What Categories Reveal About the Mind, University of Chicago Press, Chicago, USA, 1987.
  • Lakoff George, Johnson M., Metaphors We Live By, University of Chicago Press, Chicago, USA, 2003.
  • Langacker Ronald W., Foundations of Cognitive Grammar (2 volumes), Stanford University Press, Stanford, USA, 1987-1991.
  • Levy Pierre The Semantic Sphere / La sphère sémantique, Hermès-Lavoisier, Paris-London, 2011
  • Melchuk, Igor, « Actants in Semantics and Syntax. I. Actants in Semantics », Linguistics, 42: 1, 2004, 1-66
  • Melchuk Igor Aspects of the Theory of Morphology. Berlin—New York: Mouton de Gruyter, 2006. 615 pp
  • Peirce, C. S., The Essential Peirce, Selected Philosophical Writings, Volume 1 (1867–1893) and 2 (1893-1913) Nathan Houser and Christian J. W. Kloesel, eds., Indiana University Press, Bloomington and Indianapolis, IN, 1992-1998.
  • Saussure Ferdinand de Cours de Linguistique générale, Payot, Paris, 1916.
  • Searle John Speech Acts, Cambridge University Press, London, 1969.
  • Searle John Intentionality, Cambridge University Press, London, 1983.
  • Tesnière Lucien Eléments de Syntaxe structurale Klincksieck, Paris, 1959 (posthumous)
  • Wittgenstein Ludwig Tractatus Logico Philosophicus, Routledge and Kegan Paul Ltd, London, 1961.
  • Wittgenstein Ludwig Philosophical Investigations, Blackwell, Oxford, 1953.

Today, artificial intelligence is divided between two major trends: symbolic and statistical. The symbolic branch corresponds to what has been successively called in the last 70 years semantic networks, expert systems, semantic web and more recently, knowledge graphs. Symbolic AI codes human knowledge in the form of networks of relationships between concepts ruled by models and ontologies which give leverage to automatic reasoning. The statistical branch of AI trains algorithms to recognize visual, linguistic or other forms from large masses of data, relying on neural models roughly imitating the learning mode of the brain. Neuro-mimetic artificial intelligence has existed since the beginnings of computer science (see the work of McCulloch and von Foerster) but has only become useful because of the increase in computing power available since 2010. In the early 2020s, these two currents are merging according to a hybrid or neuro-symbolic model which seems very promising. Though many problems still remain, in terms of the consistency and interoperability of metadata.

Big tech companies and a growing number of scientific, economic and social sectors use knowledge graphs. Despite the availability of the WWW Consortium metadata standards for marking classifications and ontologies (RDF, OWL) the different sectors (see the slide below) do not communicate with each other and – even worse – divergent systems of categories and relationships are most often in use within the same domain. The interoperability of metadata standards – such as RDF – only addresses the compatibility of digital files. It should not be confused with true semantic interoperability, which addresses concept architectures and models. In reality, the problem of semantic interoperability has yet to be solved in 2021, and there are many causes for the opacity that plagues digital memory. Natural languages are multiple, informal, ambiguous and changing. Cultures and disciplines tend to divide reality in different ways. Finally, often inherited from the age of print, the numerous metadata systems in place to classify data are incompatible like thesauri, documentary languages, ontologies, taxonomies, folksonomies, sets of tags or hashtags, keywords, etc.

The Conundrum of Semantic Interoperability

There is currently no way to code linguistic meaning in a uniform and computable way, the way we code images using pixels or vectors for instance. To represent meaning, we are still using natural languages which are notoriously multiple, changing and ambiguous. With the notable exception of number notation and mathematical codes, our writing systems are primarily designed to represent sounds. Their representation of categories or concepts is indirect (characters → sound → concepts) and difficult for computers to grasp. Computers can handle syntax (the regular arrangement of characters), but their handling of semantics remains imperfect and laborious. Despite the success of machine translation (Deep L, Google translate) and automatic text generation (GPT3), computers don’t really understand the meaning of the texts they read or write.

Now, how can we resolve the problem of semantic interoperability and progress towards a thorough automatic processing of meaning? Many advances in computer science come from the invention of a relevant coding system making the coded object (number, image, sound, etc.) easily computable. The goal of our company INTLEKT Metadata Inc. has been to make concepts, categories or linguistic meaning systematically computable. In order to solve this problem, we have designed the Information Economy MetaLanguage: IEML. This metalanguage has a compact dictionary of less than 5000 words. IEML words are organized by subject-oriented paradigms and visualized as keyboards. The grammar of this metalanguage is completely regular and embedded in the IEML editor. Thank to this grammar, complex concepts and relations can be recursively constructed by combining simpler ones. It is not a super-ontology (like Cyc) but a programmable language (akin to a computable Esperanto) able to translate any ontology and to connect any possible categories. By using such a semantic code, artificial intelligence could take a giant step forward feeding collective intelligence.  Public health data from all countries would not only be able to communicate with each other, but could also harmonize with economic and social data. Occupational classifications and different international labour market statistics would automatically translate into each other. The AI of smart contracts, international e-commerce and the Internet of Things would exchange data and execute instructions based on automatic reasoning. Government statistics, national libraries, major museums and digital humanities research would feed into each other. On the machine learning side, we would reach a system of uniform and precise labels and annotations that would help AI to become more ethical, transparent, and efficient. A common semantic code would make it finally possible to achieve a de-fragmentation of the global memory and an integration of symbolic and statistical AI. The only price to pay for reaching neuro-symbolic collective intelligence would be a concerted effort for training specialists to translate metadata into IEML.

Check our prototype: https://dev.intlekt.io/

  • Once you are on the site, on the top right you can choose between french and english
  • “USL” (Uniform Semantic Locator) allows the search for words and paradigms in the dictionary
  • “Tags” gives you some examples of USLs groups by domain
  • If you are in “USL” the search for IEML expressions (instead of natural language translations) is done by typing * at the beginning of the query
  • Type: choose “all”
  • Class: filters nouns verbs or auxiliaries
  • Cardinality: choose “root” paradigms (big tables, or multi-tables paradigms), or the (small) tables, or singular = individual words. It is recommended to explore the dictionary by “roots”
  • When you click on a search result, the corresponding paradigm appears on the right.
  • The right panel present certain relations according to the selected words.

IEML is patented (provisional: US 63/124,924) and belongs to INTLEKT Metadata Inc.

Vassili Kandinsky: Circles in a Circle

A Scientific Language

IEML is an acronym for Information Economy MetaLanguage. IEML is the result of many years of fundamental research under the direction of Pierre Lévy, fourteen years of which were funded by the Canadian federal government through the Canada Research Chair in Collective Intelligence at the University of Ottawa (2002-2016). In 2020, IEML is the only language that has the following three properties:

– it has the expressive power of a natural language;

– it has the syntax of a regular language;

– its semantics is unambiguous and computable, because it is aligned with its syntax.

In other words, it is a “well-formed symbolic system”, which comprises a bijection between a set of relations between signifieds, or meanings (a language) and a set of relations between signifiers (an algebra) and which can be manipulated by a set of symmetrical and automatic operations. 

On the basis of these properties, IEML can be used as a concept coding system that solves the problem of semantic interoperability in an original way, lays the foundations for a new generation of artificial intelligence and allows collective intelligence to be reflexive. IEML complies with Web standards and can be exported in RDF. IEML expressions are called USLs (Uniform Semantic Locators). They can be read and translated into any natural language. Semantic ontologies – sets of IEML expressions linked by a network of relations – are interoperable by design. IEML provides the coordinate system of a common knowledge base that feeds both automatic reasoning and statistical calculations. In sum, IEML fulfills the promise of the Semantic Web through its computable meaning and interoperable ontologies. IEML’s grammar consists of four layers: elements, words, sentences and texts. Examples of elements and words can be found at https://dev.intlekt.io/.

Elements

The semantic elements are the basic building blocks, or elementary concepts, from which all language expressions are composed. A dictionary of about 5000 elements translated into natural languages is given with IEML and shared among all its users. Semantic interoperability comes from the fact that everyone shares the same set of elements whose meanings are fixed. The dictionary is organized into tables and sub-tables related to the same theme and the elements are defined reciprocally through a network of explicit semantic relations. IEML allows the design of an unlimited variety of concepts from a limited number of elements. 

Exemple of an elements paradigm in the IEML dictionary

The user does not have to worry about the rules from which the elements are constructed. However, they are regularly generated from six primitive symbols forming the “layer 0” of the language, and since the generative operation is recursive, the elements are stratified on six layers above layer 0.

Words

Using the elements dictionary and grammar rules, users can freely model a field of knowledge or practice within IEML. These models can be original or translate existing classifications, ontologies or semantic metadata.

The basic unit of an IEML sentence is the word. A word is a pair composed of two small sets of elements: the radical and the inflection. The choice of radical elements is free, but inflection elements are selected from a closed list of elements tables corresponding to adverbs, prepositions, postpositions, articles, conjugations, declensions, modes, etc. (see “auxiliary morphemes” in https://dev.intlekt.io/)

Each word or sentence corresponds to a distinct concept that can be translated, according to its author’s indications and its grammatical role, as a verb (encourage), a noun (courage), an adjective (courageous) or an adverb (bravely). 

Sentences 

The words are distributed on a grammatical tree composed of a root (verbal or nominal) and eight leaves corresponding to the roles of classical grammar: subject, object, complement of time, place, etc. 

The nine grammatical roles

Nine grammatical roles

The Root of the sentence can be a process (a verb), a substance, an essence, an affirmation of existence… 

The Initiator is the subject of a process, answering the question “who?” He can also define the initial conditions, the first motor, the first cause of the concept evoked by the root.

The Interactant corresponds to the object of classical grammar. It answers the question “what”. It also plays the role of medium in the relationship between the initiator and the recipient. 

The Recipient is the beneficiary (or the victim) of a process. It answers the questions “for whom, to whom, towards whom?”. 

The Time answers the question “when?”. It indicates the moment in the past, the present or the future and gives references as to anteriority, posteriority, duration, date and frequency. 

The Place answers the question “where?”. It indicates the location, spatial distribution, pace of movement, paths, paths, spatial relationships and metaphors. 

The Intention answers the question of finality, purpose, motivation: “for what”, “to what end?”It concerns mental orientation, direction of action, pragmatic context, emotion or feeling.

The Manner answers the questions “how?” and “how much?”. It situates the root on a range of qualities or on a scale of values. It specifies quantities, gradients, measurements and sizes. It also indicates properties, genres and styles.

The Causality answers the question “why? It specifies logical, material and formal determinations. It describes causes that have not been specified by the initiator, the interactant or the recipient: media, instruments, effects, consequences. It also describes the units of measurement and methods. It may also specify rules, laws, reasons, points of view, conditions and contracts.

For example: Robert (initiator) offers (root-process) a (interactant) gift to Mary (recipient) today (time) in the garden (place), to please her (intention), with a smile (manner), for her birthday (causality). 

Junctions 

IEML allows the junction of several words in the same grammatical role. This can be a logical connection (and, or inclusive or exclusive), a comparison (same as, different from), an ordering (larger than, smaller than…), an antinomy (but, in spite of…), and so on.

Layers of complexity

Grammatical roles of a complex sentence

A word that plays one of the eight leaf roles at complexity layer 1 can play the role of secondary root at a complexity layer 2, and so on recursively up to layer 4.

Literals

IEML strictly speaking enables only general categories or concepts to be expressed. It is nevertheless possible to insert numbers, units of measurement, dates, geographical positions, proper names, etc. into a sentence, provided they are categorized in IEML. For example t.u.-t.u.-‘. [23] means ‘number: 23’. Individual names, numbers, etc. are called literals in IEML.

Texts 

Relations 

A semantic relationship is a sentence in a special format that is used to link a source node (element, word, sentence) to a target node. IEML includes a query language enabling easy programming of semantic relationships on a set of nodes. 

By design, a semantic relationship makes the following four points explicit.

1. The function that connects the source node and the target node.

2. The mathematical form of the relation: equivalence relationship, order relationship, intransitive symmetrical relationship or intransitive asymmetrical relationship.

3. The kind of context or social rule that validates the relationship: syntax, law, entertainment, science, learning, etc.

4. The content of the relationship: logical, taxonomic, mereological (whole-part relationship), temporal, spatial, quantitative, causal, or other. The relation can also concern the reading order or the anaphora.

The (hyper) textual network

An IEML text is a network of semantic relationships. This network can describe linear successions, trees, matrices, cliques, cycles and complex subnetworks of all types.

An IEML text can be considered as a theory, an ontology, or a narrative that accounts for the dataset it is used to index.

We can define a USL as an ordered (normalized) set of triples of the form : (a source node, a target node, a relationship sentence).  A set of such triples describes a semantic network or IEML text. 

The following special cases should be noted:

– A network may contain only one sentence.

– A sentence may contain only one root to the exclusion of other grammatical roles.

– A root may contain only one word (no junction).

– A word may contain only one element.

******* 

In short, IEML is a language with computable semantics that can be considered from three complementary points of view: linguistics, mathematics and computer science. Linguistically, it is a philological language, i.e. it can translate any natural language. Mathematically, it is a topos, that is, an algebraic structure (a category) in isomorphic relation with a topological space (a network of semantic relations). Finally, on the computer side, it functions as the indexing system of a virtual database and as a programming language for semantic networks.

L’Ecole d’Athènes par Raphael

Un langage scientifique

IEML est un acronyme pour Information Economy MetaLanguage ou, en français : le métalangage de l’économie de l’information. IEML est le fruit de trente ans de recherche fondamentale sous la direction de Pierre Lévy dont quatorze ans ont été financés par le gouvernement fédéral canadien dans le cadre de la Chaire de Recherche du Canada en Intelligence Collective à l’Université d’Ottawa (2002-2016). IEML est en 2020 le seul langage qui possède les trois propriétés suivantes :

  • il a la puissance d’expression d’une langue naturelle ;
  • il possède la syntaxe d’un langage régulier ;
  • sa sémantique est univoque et calculable, parce qu’elle est alignée sur sa syntaxe.

En d’autres termes, c’est un « système symbolique bien formé », qui comporte une bijection entre un ensemble de relations entre signifiés (une langue) et un ensemble de relations entre signifiants (une algèbre) et qui peut être manipulé par un ensemble d’opérations symétriques et automatisables.

Sur la base de ces propriétés, on peut utiliser IEML comme un système de codage des concepts qui résoud de manière originale le problème de l’interopérabilité sémantique, pose les bases d’une nouvelle génération d’intelligence artificielle et autorise une réflexivité de l’intelligence collective. IEML respecte les standards du Web et s’exporte en RDF. Les expressions IEML sont appelées des USLs (Uniform Semantic Locators). Elles se lisent et se traduisent dans n’importe quelle langue naturelle. Les ontologies sémantiques – ensembles d’expressions IEML liés par un réseau de relations – sont interopérables par construction. IEML fournit le système de coordonnées d’une base de connaissances commune qui alimente aussi bien les raisonnements automatiques que les calculs statistiques. En somme, IEML accomplit la promesse du Web sémantique grâce à sa signification calculable et à ses ontologies inter-opérables. La grammaire d’IEML se décompose en trois couches : les éléments, les mots, les phrases et les textes. On trouvera des exemples d’éléments et de mots à l’adresse https://dev.intlekt.io/.

Les éléments

Les éléments sont les briques de base, ou concepts élémentaires, à partir desquelles toutes les expressions du langage sont composées. Un dictionnaire d’environ 5000 éléments traduits en langues naturelles est donné avec le langage et partagé entre tous ses utilisateurs. L’inter-opérabilité sémantique vient du fait que tout le monde partage le même ensemble d’éléments dont les sens sont fixés. Le dictionnaire est organisé en tables et sous-tables se rapportant à un même thème et les éléments se définissent réciproquement grâce à un réseau de relations sémantiques explicites. IEML autorise la conception d’une variété illimitée de concepts à partir d’un nombre limité d’éléments.

Exemple d’une table d’éléments

L’utilisateur n’a pas à se soucier des règles à partir desquelles les éléments sont construits. Sachons toutefois qu’ils sont engendrés de manière régulière à partir de six symboles primitifs qui forment la couche 0 du langage et que, l’opération générative étant récursive, les éléments s’étagent sur six couches au-dessus de la couche zéro.

Les mots  

A partir du dictionnaire des éléments et des règles de grammaire, les utilisateurs peuvent librement modéliser un domaine de connaissance ou de pratique en IEML. Ces modèles peuvent être originaux ou traduire des métadonnées sémantiques existantes. 

L’unité de base des phrases est le mot. Un mot est un couple composé de deux petits ensembles d’éléments : le radical et la flexion. Le choix des éléments de radical est libre mais les éléments de flexion sont sélectionnés dans une liste fermée de tables d’éléments correspondant à des adverbes, prépositions, postpositions, articles, conjugaisons, déclinaisons, modes, etc. (voir les « morphèmes auxiliaires » dans https://dev.intlekt.io/)

Chaque mot correspond à un concept distinct qui pourra se traduire, selon les indications de son auteur et son rôle grammatical, comme un verbe (encourager), un nom (courage), un adjectif (courageux) ou un adverbe (courageusement). 

Les phrases

Les mots se distribuent sur un arbre syntagmatique composé d’une racine (verbale ou nominale) et de huit feuilles correspondant aux rôles de la grammaire classique : sujet, objet, complément de temps, de lieu, etc.

Les neuf rôles grammaticaux

Les neuf rôles grammaticaux

  • La racine de la phrase peut être un process (un verbe), une substance, une essence, l’affirmation d’une existence… 
  • L’initiateur est le sujet d’un process. Il répond à la question « qui? ». Il peut aussi définir les conditions initiales, le premier moteur, la cause première du concept évoqué par la phrase.
  • L’interactant correspond à l’objet de la grammaire classique. Il répond à la question « quoi? ». Il joue aussi le rôle de médium dans la relation entre l’initiateur et le destinataire. 
  • Le destinataire est le bénéficiaire (ou la victime) d’un process. Il répond aux questions « pour qui, à qui, envers qui? » 
  • Le temps répond à la question « quand? ». Il indique le moment dans le passé, le présent, ou le futur et donne des repères quant à l’antériorité, la postériorité, la durée, la date, la fréquence. 
  • Le lieu répond à la question « où? ». Il indique la localisation, la distribution dans l’espace, l’allure du mouvements, les trajets, les chemins, les relations et métaphores spatiales. 
  • L’intention répond à la question de la finalité, du but, de la motivation : « pour quoi? » « A quelle fin? » Il concerne l’orientation mentale, la direction de l’action, le contexte pragmatique, l’émotion ou le sentiment.
  • La manière répond aux questions « comment? » et « combien? ». Elle situe la phrase sur une gamme de qualités ou sur une échelle de valeurs. Elle spécifie les quantités, gradients, mesures et tailles. Elle indique aussi les propriétés, les genres et les styles.
  • La causalité répond à la question « pourquoi? ». Elle précise les déterminations logiques, matérielles et formelles. Elle décrit les causes qui n’ont pas été spécifiées par l’initiateur, l’interactant ou le destinataire : médias, instruments, effets, conséquences. Elle décrit également les unités de mesure et les méthodes. Elle peut également spécifier les règles, lois, raisons, points de vue, conditions et contrats.

Par exemple : Robert (initiateur) offre (racine-process) un cadeau (interactant) à Marie (destinataire) aujourd’hui (temps) dans le jardin (lieu), pour lui faire plaisir (intention), en souriant (manière), pour son anniversaire (causalité).

Les jonctions 

IEML autorise la jonction de plusieurs mots dans le même rôle syntagmatique. Il peut s’agir d’une connexion logique (et, ou inclusif ou bien exclusif), d’une comparaison (même que, différent de), d’un rangement (plus grand que, plus petit que…), d’une antinomie (mais, malgré…), etc.

Les couches de complexité 

Les rôles grammaticaux d’une phrase complexe

Un mot qui joue l’un des huit rôles de feuille dans la couche de complexité 1 peut jouer le rôle de racine secondaire dans la couche de complexité 2, et ainsi de suite récursivement jusqu’à la couche 4.

Les littéraux

IEML stricto sensu ne permet d’exprimer que des catégories ou des concepts généraux. Il est néanmoins possible d’insérer dans une phrase des nombres, des unités de mesure, des dates, des positions géographiques, des noms propres et autres à condition de les catégoriser en IEML. Par exemple t.u.-t.u.-‘ [23] signifie « nombre : 23 ». Les noms d’individus, les nombres, etc. sont appelés littéraux en IEML.

Les textes 

Les relations 

Une relation sémantique est une phrase d’un format spécial qui sert à lier un noeud de départ (élément, mot, phrase) à un noeud d’arrivée. IEML inclut un langage de requête permettant de programmer facilement des relations sémantiques sur un ensemble de noeuds. 

Par construction, une relation sémantique explicite les quatre points qui suivent.

  1. La fonction qui relie le noeud de départ et le noeud d’arrivée.
  2. La forme mathématique de la relation : relation d’équivalence, relation d’ordre, relation symétrique intransitive ou relation asymétrique intransitive.
  3. Le genre de contexte ou de règle sociale qui valide la relation : syntaxique, légal, ludique, scientifique, pédagogique, etc.
  4. Le contenu de la relation : logique, taxinomique, méréologique (rapport tout-partie), temporelle, spatiale, quantitative, causale ou autre. La relation peut également concerner l’ordre de lecture des phrases ou l’anaphore.

Le réseau (hyper) textuel 

Un texte IEML est un réseau de relations sémantiques. Ce réseau peut décrire des successions linéaires, des arbres, des matrices, des cliques, des cycles et des sous-réseaux complexes de tous types.

Un texte IEML peut être considéré comme une théorie, une ontologie ou un récit censé rendre compte de l’ensemble de données qu’il sert à indexer.

Nous pouvons définir un USL comme un ensemble ordonné (normalisé) de triplets de la forme : (un noeud de départ, un noeud d’arrivée, un noeud de relation). Un tel ensemble de triplets décrit un réseau sémantique ou texte IEML. 

On notera les cas particuliers suivants :

  • Le réseau, ou texte, peut ne contenir qu’une seul phrase.
  • La phrase peut ne contenir qu’une racine à l’exclusion des autres rôles grammaticaux.
  • La racine peut ne contenir qu’un mot (pas de jonction).
  • Le mot peut ne contenir qu’un seul élément.

*******

En somme, IEML est une langue à la sémantique calculable qui peut être considérée de trois points de vue complémentaires : linguistique, mathématique et informatique. Sur le plan linguistique, il s’agit d’une langue philologique, c’est-à-dire qu’elle peut traduire n’importe quelle langue naturelle. Sur le plan mathématique, c’est un topos, c’est à dire une structure algébrique (une catégorie) en rapport d’isomorphisme avec un espace topologique (un réseau de relations sémantiques). Enfin, sur le plan informatique, elle fonctionne comme le système d’indexation d’une base de données virtuelle et comme un langage de programmation de réseaux sémantiques.

Plus de 60% de la population humaine est connectée à l’Internet, la plupart des secteurs d’activité ont basculé dans le numérique et le logiciel pilote l’innovation. Or les normes et protocoles de l’Internet ont été inventés à une époque où moins d’un pour cent de la population était connectée. Il est temps d’utiliser les flots de données, la puissance de calcul disponible et les nouvelles possibilités de communication interactive au service du développement humain… et de la solution des graves problèmes auxquels nous sommes confrontés. C’est pourquoi je vais lancer bientôt un projet international – comparable à la construction d’un cyclotron ou d’un voyage vers Mars – autour d’une transcroissance de l’Internet au service de l’intelligence collective.

Saturne (photo Voyager)

Ce projet vise plusieurs objectifs interdépendants : 

  • Décloisonner la mémoire numérique et assurer son interopérabilité sémantique (linguistique, culturelle et disciplinaire).
  • Ouvrir les modes d’indexation et maximiser la diversité des interprétations de la mémoire numérique.
  • Fluidifier la communication entre les machines, mais aussi entre les humains et les machines afin d’assurer notre maîtrise collective sur l’internet des choses, les villes intelligentes, les robots, les véhicules autonomes, etc.
  • Etablir de nouvelles formes de modélisation et d’observation réflexive de l’intelligence collective humaine sur la base de notre mémoire partagée.

IEML

Le fondement technique de ce projet est IEML (Information Economy MetaLanguage), un système de métadonnées sémantiques que j’ai inventé, notamment grâce au soutien du gouvernement fédéral canadien. IEML possède :

  • la puissance d’expression d’une langue naturelle, 
  • la syntaxe d’un langage régulier, 
  • une sémantique calculable alignée sur sa syntaxe.

IEML s’exporte en RDF et il est basé sur les standards du Web. Les concepts IEML sont appelés des USLs (Uniform Semantic Locators). Ils se lisent et se traduisent dans n’importe quelle langue naturelle. Les ontologies sémantiques  – ensembles d’USLs liés par un réseau de relations – sont interopérables par construction. IEML établit une base de connaissances virtuelle qui alimente aussi bien les raisonnements automatiques que les calculs statistiques. En somme, IEML accomplit la promesse du Web sémantique grâce à sa signification calculable et à ses ontologies inter-opérables.

Pour une courte description de la grammaire d’IEML cliquez

Intlekt

Le système des URL et la norme http ne deviennent utiles que grâce à un navigateur. De la même manière, le nouveau système d’adressage sémantique de l’Internet basé sur IEML nécessite une application particulière, nommée Intlekt, dont le chef de projet technique est Louis van Beurden. Intlekt est une plateforme collaborative et distribuée qui supporte l’édition de concepts, la curation de données et de nouvelles formes de recherche, de fouille et de visualisation de données. 

Intlekt permet d’éditer et publier des ontologies sémantiques – ensembles de concepts en relation – liés à un domaine de pratique ou de connaissance. Ces ontologies peuvent être originales ou traduire des métadonnées sémantiques existantes telles que : thésauri, langages documentaires, ontologies, taxonomies SKOS, folksonomies, ensembles de tags ou de hashtags, mots-clés, têtes de colonnes et de rangées, etc. Les ontologies sémantiques publiées augmentent un  dictionnaire de concepts, que l’on peut considérer comme une méta-ontologie ouverte

Intlekt est également un outil de curation de données. Il permet d’éditer, d’indexer en IEML et de publier des collections de données qui viennent alimenter une base de connaissance commune. A terme, on pourra utiliser des algorithmes statistiques pour automatiser l’indexation sémantique des données.

Enfin, Intlekt exploite les propriétés d’IEML pour autoriser de nouvelles formes de search, de raisonnement automatique et de simulation de systèmes complexes.

Des applications particulières peuvent être imaginées dans de nombreux domaines comme:

  • la préservation des héritages culturels, 
  • la recherche en sciences humaines et les humanités numériques, 
  • l’éducation et la formation
  • la santé publique, 
  • la délibération démocratique informée, 
  • les transactions commerciales, 
  • les contrats intelligents, 
  • l’Internet des choses, 
  • etc.

Et maintenant?

Où en sommes-nous de ce projet à l’été 2020 ? Après de nombreux essais qui se sont étalés sur plusieurs années, la grammaire d’IEML s’est stabilisée ainsi que la base de morphèmes d’environ 5000 unités qui permet de construire à volonté n’importe quel concept. J’ai testé positivement les possibilités expressives du langage sur plusieurs domaines des sciences humaines et des sciences de la terre. Néanmoins, au moment où j’écris ces lignes, le dernier état de la grammaire n’est pas encore implémenté. De plus, pour obtenir une version d’Intlekt qui supporte les fonctions d’édition d’ontologies sémantiques, de curation de données et de fouille décrites plus haut, il faut compter une équipe de plusieurs programmeurs travaillant pendant un an. Dans les mois qui viennent, les amis d’IEML vont s’activer à réunir cette masse critique. 

Rejoignez-nous!

Pour plus d’information, consultez: https://pierrelevyblog.com/my-research-in-a-nutshell/ et https://pierrelevyblog.com/my-research-in-a-nutshell/the-basics-of-ieml/