IEML est fondé sur les grandes découvertes de la linguistique du XXe siècle. Dans cette entrée de blog nous allons étudier successivement les héritages de Chomsky; de Saussure et de l’école structuraliste; de Tesnière et du modèle actantiel de la phrase; de Benveniste, Wittgenstein et Austin pour leurs solutions aux problèmes épineux de l’énonciation et de la pragmatique. Je conclurai en essayant de dissiper un des principaux malentendus au sujet d’IEML: ce n’est pas une langue “vraie” (une langue n’est ni vraie ni fausse, elle est conventionnelle), mais une langue claire.

[For an English version of this article see here.]

Fragonard La liseuse

L’héritage de Chomsky et les langages réguliers

Commençons par évoquer la dette d’IEML à l’égard de Noam Chomsky, un des géants de la linguistique et des sciences cognitives du XXe siècle. Pour le professeur du MIT, la capacité linguistique est un trait génétiquement déterminé de l’espèce humaine. Les langues, malgré leur diversité et leur évolution continuelle, partagent toutes la même “grammaire universelle” correspondant à cette habileté linguistique innée. Cette théorie expliquerait pourquoi les enfants apprennent spontanément et si vite à parler, sans qu’on ait besoin de leur donner des leçons de grammaire. Chomsky a exposé une version formelle – d’ailleurs contestée et plusieurs fois révisée – de la grammaire universelle. La découverte scientifique la plus précieuse de Chomsky est probablement sa théorie des langages réguliers : il a démontré qu’il existait une correspondance entre l’algèbre et la syntaxe formelle. La langue est donc en principe un objet calculable, au moins sur un plan syntaxique . Pour qu’une langue puisse être manipulée facilement par les ordinateurs, c’est-à-dire calculable, il faut qu’elle soit un langage régulier au sens de Chomsky: une sorte de code mathématique. Or les langues naturelles ne sont évidemment pas des langages réguliers. Les langages réguliers effectivement utilisés aujourd’hui sont des langages de programmation. Mais la “sémantique” des langages de programmation n’est autre que l’exécution des opérations qu’ils commandent. Aucun d’eux n’approche la capacité expressive d’une langue naturelle, qui permet de parler de tout et de rien et d’accomplir bien d’autres actes illocutoires que de donner des instructions à une machine. Notons au passage que Hjelmslev critiquait l’expression de « langue naturelle » à laquelle il préférait celle de langue philologique ou langue passe-partout. En effet, on peut tout dire en Espéranto, par exemple, bien que ce soit une langue construite et non pas naturelle. L’Espéranto est donc une langue philologique. Hélas, la sémantique de l’Espéranto n’est pas plus calculable que celle du Français ou de l’Arabe. A cause de leur irrégularité, les ordinateurs n’ont aujourd’hui accès aux langues philologiques que sur un mode statistique. C’est pourquoi notre âge numérique a besoin d’une langue philologique transparente aux algorithmes et donc régulière. IEML est la solution que j’ai trouvée au problème de la construction d’une langue philologique à la sémantique calculable. La calculabilité de sa sémantique n’est évidemment pertinente que s’il s’agit d’une langue philologique, permettant de « tout dire ». Et puisque la sémantique de cette langue devait être calculable, sa syntaxe devait a fortiori l’être aussi. C’est pourquoi IEML est un langage régulier au sens de Chomsky. Mais si le fait d’être un langage régulier était une condition nécessaire à la calculabilité de sa sémantique, ce n’en était pas une condition suffisante. Souvenons-nous que les langages réguliers actuellement en usage ont une sémantique restreinte : ce ne sont pas des langues philologiques. Comment conférer une sémantique philologique à un langage régulier ? Pour répondre à cette question, je me suis appuyé sur les enseignements de Saussure et de ses successeurs.

L’héritage de Saussure et le structuralisme

Selon Ferdinand de Saussure (1857-1913), un des pères de la linguistique contemporaine, les symboles linguistiques sont constitués de deux parties, le signifiant (une image acoustique ou visuelle) et le signifié (un concept ou une catégorie abstraite). Le rapport entre les deux parties du symbole est conventionnel ou arbitraire. Saussure a également montré que le plan du signifiant, ou la phonologie des langues, était basé sur un système de différences entre les sons, chaque langue ayant sa propre liste de phonèmes et surtout sa propre manière de disposer les seuils de passage entre deux phonèmes dans le continuum sonore. Un phonème n’existe pas de manière isolée, en dehors d’un éventail de variations, un peu comme les notes de musique n’existent que par rapport à un système musical. De la même manière, les signifiés ne sont pas des atomes de sens se suffisant à eux-mêmes mais correspondent à des positions dans des systèmes de différences : les paradigmes. La sémantique linguistique ne s’ancre donc pas dans des réalités naturelles fixes et indépendantes, mais dans un processus de comparaison, d’opposition, de différenciation et de renvois entre signifiés au sein d’une grille systémique bouclée sur elle-même, comme le sens d’un mot dans le dictionnaire est défini par d’autres mots qui, eux-mêmes, etc. Les travaux de Saussure ont été notamment poursuivis par Louis Hjemslev (1899-1965), qui a approfondi l’analyse du signe linguistique et a plaidé pour un maximum de rigueur épistémologique dans le traitement du langage, jusqu’à un idéal quasi-algébrique. Hjemslev a rebaptisé l’opposition entre signifiant et signifié en décrivant deux « plans » linguistiques celui de l’expression (le signifiant) et celui du contenu (le signifié). Chacun des deux plans est à son tour analysé en matière et forme. La matière de l’expression est de l’ordre du phénomène sensible, par exemple visuel ou sonore. Par contraste, la forme de l’expression désigne les unités abstraites qui résultent du découpage structurel des signifiants dans une langue donnée. Par exemple, le phonème « a » représente une forme bien déterminée qui s’oppose dans telle ou telle langue au phonème « o ». C’est ce qui permet en français, par exemple, de distinguer entre « bas » et « beau ». En revanche la forme « a » peut être remplie par un grand nombre de matières sonores distinctes selon les voix, les accents, etc. La matière est de l’ordre du continuum concret alors que la forme est de l’ordre du système d’oppositions abstrait. Il en est de même pour le contenu. Hjemslev a supposé qu’il existait un continuum du signifié, une sorte de magma abritant virtuellement l’ensemble des catégories possibles : la matière du contenu. Cette matière est découpée et organisée en paradigmes de manière différente pour chaque langue. En fin de compte, une langue quelconque organise une correspondance particulière entre forme de l’expression et forme du contenu. Le courant structuraliste initié par Saussure et poursuivi par Hjemslev a été prolongé par Julien Algirdas Greimas (1917-1992) et François Rastier (1945- ). Tout en maintenant vivante la tradition qui conçoit l’existence relativement autonome d’un monde des signifiés, ces auteurs ont notamment étendu l’analyse structurale du niveau des mots et des phrases jusqu’au niveau du texte, en particulier grâce à la notion d’isotopie. Revenons maintenant à notre problème : comment construire une langue qui soit simultanément philologique et régulière ? Non seulement les langues sont conventionnelles, mais elles ne peuvent pas ne pas l’être. La correspondance entre signifiant et signifié, ou expression et contenu, est arbitraire par nature. Puisque les langues sont nécessairement conventionnelles, rien n’interdit d’en construire une dont l’arrangement des signifiants soit de type “langage régulier”. Nous savons qu’un langage régulier possède une syntaxe calculable. Or la syntaxe régit les éléments signifiants de la langue, les phonèmes et leurs enchaînements, à plusieurs niveaux de complexité emboîtés. Puisqu’aussi bien les signifiants que les signifiés doivent être organisés par un système de différences, rien n’interdit non plus de donner  – par convention – à ce langage régulier un système de différences des signifiés (une forme du contenu) qui soit une fonction mathématique de celui des signifiants (la forme de l’expression). En accord avec les théories de Saussure et de ses successeurs, les unités de la langue IEML, à commencer par les morphèmes, mais aussi les unités lexicales, les phrases et les super-phrases sont organisées en paradigmes. Ces systèmes de variations sur fond de constantes – ou groupes de transformations – permettent aux unités linguistiques de s’entre-définir et de s’expliquer réciproquement. Or – en IEML – ce sont les mêmes paradigmes qui structurent l’expression et le contenu. Voici donc le principe de résolution de notre problème : dans un langage régulier dont le système de différences des signifiés est une fonction calculable de celui des signifiants, non seulement la syntaxe mais également la sémantique est calculable. C’est précisément le cas d’IEML, qui est donc une langue à la sémantique calculable !

L’héritage de Tesnière et la linguistique cognitive

Parmi toutes les fonctions du langage, l’une des plus importantes est de supporter la construction et la simulation de modèles mentaux [Je m’inspire ici notamment de l’étude de Philip Johnson-Laird, Mental Models, Harvard University Press, 1983]. L’architecture linguistique des modèles mentaux n’est évidemment pas exclusive de modes de représentation sensori-moteurs, et notamment visuels, qui peuvent se rapporter aussi bien à des mondes fictionnels qu’à la réalité vécue. Des linguistes comme Ronald Langacker (1942- ) et George Lakoff (1941- ), qui sont parmi les principaux chefs de file du courant de la linguistique cognitive, ont particulièrement étudié cette fonction de modélisation mentale. La capacité de représenter des « scènes » – à savoir des processus mis en oeuvre par des actants dans certaines circonstances – est une condition sine qua non du travail de modélisation accompli par le langage. Elle fonde la faculté narrative, puisqu’un récit peut être ramené à un enchaînement hypertextuel de scènes, moyennant certaines relations d’anaphore et d’isotopie. J’ajoute qu’en spécifiant les rapports entre processus et/ou entre actants, la scénographie linguistique fonde également la représentation des relations causales. Puisqu’une des missions d’IEML est de servir d’outil formel de modélisation, il doit non seulement organiser un morphisme entre sa sémantique et sa syntaxe, mais également systématiser et faciliter autant que possible la représentation des processus, des actants, des circonstances et de leurs interactions. Pour ce faire, IEML a intégré, avec quelques ajustements, le modèle actantiel de la phrase que Tesnière, préfigurant la linguistique cognitive, avait proposé dès le milieu du XXe siècle.

Cette image a un attribut alt vide ; le nom du fichier est stemmas_1.1.png
Figure 1: Exemple d’arbres de dépendance ou « stemmas » de Tesnière CC BY-SA 3.0, Wikimedia Commons.

En effet, outre le courant structuraliste, la grammaire d’IEML a aussi été largement influencée par l’oeuvre majeure de Lucien Tesnière (1893-1954). Ce linguiste français a été le premier à présenter une grammaire universelle fondée sur les arbres de dépendance, qui met en évidence le lien intime entre syntaxe et sémantique (voir la Figure 1). Bien que les deux systèmes aient été élaborés indépendamment, les arbres de dépendance de Tesnière sont proches des arbres syntaxiques de Chomsky. Tesnière a aussi proposé une théorie subtile de la translation entre les « parties du discours » que sont les verbes, noms, adverbes et adjectifs. Il a surtout développé le modèle actantiel de la phrase dont s’inspire la fonction syntagmatique d’IEML. La citation suivante, extraite de son oeuvre posthume Eléments de syntaxe structurale, explique bien le principe du modèle actantiel : « Le noeud verbal (…) exprime tout un petit drame. Comme un drame, en effet, il comporte (…) un procès et, le plus souvent, des acteurs et des circonstances. Le verbe exprime le procès. (…) Les actants sont des êtres ou des choses (…) participant au procès. (…) Les circonstants expriment les circonstances de temps, lieux, manière, etc. » [Lucien Tesnière, Eléments de syntaxe structurale, Klincksieck, Paris 1959: 102, Chapitre 48] Le modèle actantiel de Tesnière a notamment été repris et développé par deux importants linguistes contemporains, Igor Melchuk (1932- ) et Charles Fillmore (1929-2014). La grammaire des cas de Fillmore publiée en 1968, a été étendue dans les années 1980 à une conception quasi-encyclopédique de la sémantique linguistique notamment mise en oeuvre dans le projet FrameNet centré sur la langue anglaise et qui inspire plusieurs programmes d’intelligence artificielle. Les frames ou « cadres » en français décrivent la manière dont les mots conviennent les uns avec les autres et déterminent mutuellement leurs sens dans une phrase. Par exemple, lorsqu’on utilise le verbe « attaquer » à la voix active, le sujet grammatical est forcément un assaillant et l’objet grammatical une victime de l’attaque. L’approche adoptée par IEML est compatible avec les théories de Fillmore, les cas correspondant aux rôles syntagmatiques et l’équivalent des cadres étant les paradigmes de phrases. Quant à Igor Melchuk, sa contribution la plus originale concerne la morphologie, c’est-à-dire la structure des mots et leurs rapports. Il a en particulier décrit les fonctions lexicales qui règlent les collocations – c’est-à-dire les mots qui vont ou ne vont pas ensemble – et les relations sémantiques entre les unités lexicales d’une langue. Un exemple simple de fonction lexicale est « PLUS » comme dans : [PLUS (colline) = montagne] ou [PLUS (ruisseau) = rivière]. Les fonctions lexicales sont notamment utilisées pour construire des dictionnaires explicatifs et combinatoires (monolingues) et elles alimentent, comme les cadres de Fillmore, certains programmes de traitement automatique des langues naturelles. IEML intègre les principales fonctions lexicales mises en évidence par Melchuk, ce qui permet de composer facilement de nouveaux mots à partir des éléments du dictionnaire et d’expliciter formellement les relations sémantiques entre unités lexicales. Quant aux collocations selon Melchuk elles sont proches des cadres de Fillmore et sont – comme eux – traduites en IEML par des paradigmes de phrases. En somme, de nombreux linguistes ont souligné l’importance de la fonction modélisatrice du langage. Suivant leurs traces, IEML offre à ses locuteurs les outils grammaticaux nécessaires pour décrire des scènes et raconter des histoires. De plus, IEML permet de modéliser un domaine de connaissance spécialisé ou un champ sémantique particulier par la libre élaboration de terminologies (paradigmes de radicaux) et de phrases-cadres (paradigmes de phrases).

Austin, Wittgenstein et l’héritage pragmatique

La langue est une structure abstraite qui combine des paradigmes de morphèmes (atomes de sens indécomposables) et des règles de compositions des unités grammaticales (mots, phrases…) à partir des morphèmes. Par contraste, la parole – ou le texte – est une séquence de morphèmes particulière qui actualise le système de la langue. En ce sens, les terminologies et les phrases-cadres d’IEML appartiennent à une catégorie intermédiaire entre la langue et la parole. Ils font partie de la parole dans la mesure où ils sont librement créés à partir du dictionnaire de morphèmes initial et des règles de construction de syntagmes. Mais ils appartiennent encore à la langue puisque ce ne sont pas à proprement parler des énonciations en contexte. Ce n’est qu’au niveau de l’énonciation, en effet, que se déploient les actes de langages, c’est-à-dire la dimension pragmatique des langues. Or il ne s’agit pas de choisir entre la fonction modélisatrice ou représentative des langues, qui vient d’être évoquée à la section précédente, et leur fonction pratique, que nous allons survoler dans cette section. Bien au contraire : la fonction de représentation et la fonction pratique se soutiennent mutuellement. Sans modèle du monde, l’action n’a pas de sens et sans plongement dans quelque situation pratique, la représentation perd toute pertinence. Quoiqu’on puisse faire remonter la réflexion sur la puissance pratique du langage à la rhétorique antique ou aux plus anciennes réflexions de l’école confucéenne, je me limiterai ici à quelques grands auteurs : Emile Benvéniste pour l’étude de l’énonciation et de la fonction déictique, Ludwig Wittgenstein pour la question de la référence et des jeux de langage, John L. Austin pour la notion même de pragmatique linguistique. Relèvent de la pragmatique linguistique les actes accomplis dans le langage mais qui ont des conséquences extra-linguistiques, comme par exemple baptiser, interdire, condamner, etc. Puisqu’ils sont accomplis dans le langage, ces actes sont de nature symbolique. Ils sont par conséquent régis par des règles et accomplis par des « joueurs » qui tiennent des rôles déterminés. Une multitude de jeux de langage, selon l’expression de Wittgenstein, animent donc la dimension pragmatique qui s’ouvre avec l’énonciation. Une langue peut elle-même être assimilée à un système de règles ou à un jeu. Et si cette langue est philologique elle est capable à son tour de définir une multitude de langues restreintes, de systèmes de règles ou de jeux, qui sont autant de manières distinctes de l’utiliser dans la pratique. IEML étant une langue philologique, nous l’utiliserons non seulement pour modéliser un champ sémantique quelconque, représenter des scènes et raconter des histoires, mais aussi pour expliciter des jeux de langages dont nous formaliserons les règles, les rôles et les coups au moyen de terminologies et de phrases-cadres. Lorsqu’ils reconnaîtront les actes de langages accomplis par les locuteurs d’IEML, des algorithmes pourront déclencher automatiquement leurs conséquences extra-linguistiques et notamment calculer les nouveaux états des « parties » en cours. J’évoquerai ici quatre grands types d’actes de langage qui sont particulièrement pertinents pour IEML : la référence, le raisonnement, la communication sociale et les instructions données à des machines. La première fonction de l’énonciation est de faire référence à des objets non-linguistiques. Une de ses formes les plus évidentes est la distribution des rôles interlocutoires : les première, seconde ou troisième personnes indiquent qui parle, à qui et de quoi. Mentionnons également les possessifs (liés à la distribution des personnes grammaticales), les démonstratifs comme « ça, ici, là-bas », les adverbes comme « aujourd’hui », « demain », etc. Or un texte – ou un énoncé – ne permet pas d’interpréter les déictiques comme « je », « ça » ou « demain ». Seul l’événement d’une énonciation par quelqu’un, dans un contexte spatio-temporel d’interlocution défini, peut leur donner un contenu [« « Je » » signifie « la personne qui énonce la présente instance du discours contenant « je ». » (Emile Benveniste)] . Cette fonction référentielle du langage est particulièrement importante pour IEML, qui a pour vocation de catégoriser des données et donc – par nécessité – de les indexer. Aussi bien la distribution des rôles interlocutoires que la catégorisation des données peuvent se conformer à un grand nombre de jeux de référence distincts. Par exemple, pour interpréter un « nous » il faut connaître le système de distribution des personnes auquel il obéit : pluriel de majesté, chercheurs d’une même discipline, membres d’un tribunal, citoyens d’une nation en guerre…? D’autre part, la catégorisation des données en IEML prend un sens différent selon que l’indexation est faite par un algorithme ou par un humain. Dans le cas de l’indexation automatique, s’agit-il d’un algorithme statistique basé sur un corpus indexé manuellement ? Et dans ce dernier cas, indexé par qui, selon quels critères, etc. Dans le même ordre d’idée, il peut être utile de savoir si un texte est cité (encore un geste déictique) en tant que partie d’un corpus de référence, comme une autorité pour renforcer la crédibilité des idées de l’auteur, pour être critiqué, ou encore pour une autre raison. En somme, l’opération de référence est un acte de langage, cet acte relève d’une multitude de jeux possibles, et ces jeux peuvent être explicités en IEML. Le raisonnement est encore un autre type de jeu de langage modélisable en IEML. Citons dès maintenant, en suivant la typologie de Charles S. Peirce, (1) les divers genres de raisonnement déductifs, (2) les raisonnements inductifs – incluant les calculs statistiques – et (3) les raisonnements abductifs, qui construisent des modèles causaux d’un domaine ou d’un processus. On remarquera que le raisonnement suppose la plupart du temps la référence et que cette dernière est souvent faite pour appuyer le raisonnement. Les jeux de langage qui ont le plus été étudiés par les spécialistes de la pragmatique, à commencer par Austin et Searle, sont les jeux de communication sociale, qui comprennent par exemple les assertions, les questions, les ordres, les promesses, les remerciements, les nominations, etc. Mais nous pouvons ajouter à ce type de jeux les transactions, les contrats et tout ce qui relève des arrangements légaux et des échanges économiques, qui passent de plus en plus par des canaux électroniques et qui auraient avantage à être exprimés dans un langage transparent, univoque et calculable comme IEML. Finalement, puisque nous vivons dans un environnement de plus en plus robotisé, les instructions données à des machines, tout comme d’ailleurs les informations – parfois vitales – que les machines nous transmettent, font évidemment partie des actes de langage aux importantes conséquences extra-linguistiques. Parce que les ordinateurs peuvent décoder IEML et qu’IEML se traduit en langues naturelles, notre métalangage pourrait devenir le noyau logiciel d’une interface ubiquitaire et interopérable entre humains et machines.

Une image du monde ou une image de soi ?

Dans le Tractatus Logico Philosophicus, l’ouvrage de jeunesse qui l’a fait connaître, Wittgenstein examine à quelles conditions les propositions logiques présentent une image fidèle de la réalité. Le monde étant conçu par notre philosophe viennois comme « tout ce qui arrive », chaque fait ou événement devrait être représenté par une proposition dont la structure logico-grammaticale reflète la structure interne du fait. L’idée d’un langage parfait ou d’une langue transparente est souvent associée à cet idéal d’isomorphie entre les expressions du langage et les réalités qu’elles décrivent ou, en d’autres termes, entre la parole et sa référence. Rien n’est plus loin du projet d’IEML. Plutôt que de poursuivre la chimère au parfum vaguement totalitaire d’une langue de la vérité (la vérité se ramène à la correspondance entre parole et réalité), j’ai poursuivi un objectif moins contraignant et surtout plus atteignable : celui d’une langue de la clarté, aussi univoque et traductible que possible. A l’idéal d’une langue logique qui reflèterait des états de choses, j’ai substitué celui d’une langue philologique dont la forme algébrique de l’expression reflèterait la forme du contenu conceptuel : une langue qui serait une image d’elle-même avant d’être une image du monde. Par définition, cette correspondance interne ne relève pas du vrai et du faux mais de la convention utile. Quant au rapport d’IEML avec la réalité extralinguistique, elle relève d’une multitude de jeux de langages (je suis ici le Wittgenstein de la maturité, tel qu’il s’est exprimé dans les Philosophical Investigations), multitude qui englobe les diverses manières de découper, reconnaître et désigner des objets pertinents selon les contextes pratiques. Et grâce à la capacité de description universelle propre à toutes les langues philologiques, nous pouvons modéliser ces multiples jeux de langages en IEML. Cette approche respecte aussi bien la liberté que la créativité de ses locuteurs tout en autorisant ces derniers à se coordonner entre eux et avec les machines. Reprenons la classification des différents niveaux de la sémantique – linguistique, référentielle et illocutoire. Notre métalangage clarifie les relations entre signifiés et signifiants ainsi que les relations entre signifiés au point de pouvoir automatiser leur traitement. Le principal apport d’IEML se situe donc au niveau de la sémantique linguistique. Quant à la sémantique référentielle – le pointage vers des réalités extra-linguistiques – elle peut devenir plus précise dans la mesure où les différents modes de référence sont précisés en IEML. Enfin, la force illocutoire des énonciations, c’est-à-dire les « coups » qui sont joués dans une multitude de jeux de communication sociale, peuvent être reconnus par des algorithmes et traités en conséquence, à condition que les jeux en question aient préalablement été décrits en IEML. En somme, la formalisation de la sémantique linguistique nous offre la clé de la formalisation de la sémantique en général.

Brève bibliographie

  • Austin John L. How to Do Things with Words, Oxford University Press, Oxford, 1962
  • Benveniste Emile Problèmes de linguistique générale, Tomes 1 et 2, Gallimard, Paris, 1966-1974
  • Chomsky Noam New Horizons in the Study of Language and Mind, Cambridge University Press, Cambridge, 2000.
  • Chomsky Noam Syntaxic Structures, Mouton, La Hague et Paris, 1957.
  • Chomsky Noam ; Schützenberger, Marcel P. « The algebraic theory of context free languages », in Braffort, P. ; Hirschberg, D. : Computer Programming and Formal Languages, North Holland, Amsterdam, 118-161, 1963
  • Fillmore Charles “The Case for Case” (1968). In Bach and Harms (Ed.): Universals in Linguistic Theory. New York: Holt, Rinehart, and Winston, 1-88. (Tesnières y est cité à neuf reprises).
  • Fillmore Charles “Frame semantics” (1982). In Linguistics in the Morning Calm. Seoul, Hanshin Publishing Co., 111-137.
  • Hejlmslev Louis, Prolégomènes à une théorie du langageLa Structure fondamentale du langage, Paris, Éditions de minuit, coll. « Arguments », 2000
  • Johnson-Laird Philip, Mental Models, Harvard University Press, 1983
  • Lakoff George Women, Fire and Dangerous Things: What Categories Reveal About the Mind, University of Chicago Press, Chicago, USA, 1987.
  • Lakoff George, Johnson M., Metaphors We Live By, University of Chicago Press, Chicago, USA, 2003.
  • Langacker Ronald W., Foundations of Cognitive Grammar (2 volumes), Stanford University Press, Stanford, USA, 1987-1991.
  • Levy Pierre The Semantic Sphere / La sphère sémantique, Hermès-Lavoisier, Paris-London, 2011
  • Melchuk, Igor, « Actants in Semantics and Syntax. I. Actants in Semantics », Linguistics, 42: 1, 2004, 1-66
  • Melchuk Igor Aspects of the Theory of Morphology. Berlin—New York: Mouton de Gruyter, 2006. 615 pp
  • Peirce, C. S., The Essential Peirce, Selected Philosophical Writings, Volume 1 (1867–1893) and 2 (1893-1913) Nathan Houser and Christian J. W. Kloesel, eds., Indiana University Press, Bloomington and Indianapolis, IN, 1992-1998.
  • Saussure Ferdinand de Cours de Linguistique générale, Payot, Paris, 1916.
  • Searle John Speech Acts, Cambridge University Press, London, 1969.
  • Searle John Intentionality, Cambridge University Press, London, 1983.
  • Tesnière Lucien Eléments de Syntaxe structurale Klincksieck, Paris, 1959 (posthumous)
  • Wittgenstein Ludwig Tractatus Logico Philosophicus, Routledge and Kegan Paul Ltd, London, 1961.
  • Wittgenstein Ludwig Philosophical Investigations, Blackwell, Oxford, 1953.

Today, artificial intelligence is divided between two major trends: symbolic and statistical. The symbolic branch corresponds to what has been successively called in the last 70 years semantic networks, expert systems, semantic web and more recently, knowledge graphs. Symbolic AI codes human knowledge in the form of networks of relationships between concepts ruled by models and ontologies which give leverage to automatic reasoning. The statistical branch of AI trains algorithms to recognize visual, linguistic or other forms from large masses of data, relying on neural models roughly imitating the learning mode of the brain. Neuro-mimetic artificial intelligence has existed since the beginnings of computer science (see the work of McCulloch and von Foerster) but has only become useful because of the increase in computing power available since 2010. In the early 2020s, these two currents are merging according to a hybrid or neuro-symbolic model which seems very promising. Though many problems still remain, in terms of the consistency and interoperability of metadata.

Big tech companies and a growing number of scientific, economic and social sectors use knowledge graphs. Despite the availability of the WWW Consortium metadata standards for marking classifications and ontologies (RDF, OWL) the different sectors (see the slide below) do not communicate with each other and – even worse – divergent systems of categories and relationships are most often in use within the same domain. The interoperability of metadata standards – such as RDF – only addresses the compatibility of digital files. It should not be confused with true semantic interoperability, which addresses concept architectures and models. In reality, the problem of semantic interoperability has yet to be solved in 2021, and there are many causes for the opacity that plagues digital memory. Natural languages are multiple, informal, ambiguous and changing. Cultures and disciplines tend to divide reality in different ways. Finally, often inherited from the age of print, the numerous metadata systems in place to classify data are incompatible like thesauri, documentary languages, ontologies, taxonomies, folksonomies, sets of tags or hashtags, keywords, etc.

The Conundrum of Semantic Interoperability

There is currently no way to code linguistic meaning in a uniform and computable way, the way we code images using pixels or vectors for instance. To represent meaning, we are still using natural languages which are notoriously multiple, changing and ambiguous. With the notable exception of number notation and mathematical codes, our writing systems are primarily designed to represent sounds. Their representation of categories or concepts is indirect (characters → sound → concepts) and difficult for computers to grasp. Computers can handle syntax (the regular arrangement of characters), but their handling of semantics remains imperfect and laborious. Despite the success of machine translation (Deep L, Google translate) and automatic text generation (GPT3), computers don’t really understand the meaning of the texts they read or write.

Now, how can we resolve the problem of semantic interoperability and progress towards a thorough automatic processing of meaning? Many advances in computer science come from the invention of a relevant coding system making the coded object (number, image, sound, etc.) easily computable. The goal of our company INTLEKT Metadata Inc. has been to make concepts, categories or linguistic meaning systematically computable. In order to solve this problem, we have designed the Information Economy MetaLanguage: IEML. This metalanguage has a compact dictionary of less than 5000 words. IEML words are organized by subject-oriented paradigms and visualized as keyboards. The grammar of this metalanguage is completely regular and embedded in the IEML editor. Thank to this grammar, complex concepts and relations can be recursively constructed by combining simpler ones. It is not a super-ontology (like Cyc) but a programmable language (akin to a computable Esperanto) able to translate any ontology and to connect any possible categories. By using such a semantic code, artificial intelligence could take a giant step forward feeding collective intelligence.  Public health data from all countries would not only be able to communicate with each other, but could also harmonize with economic and social data. Occupational classifications and different international labour market statistics would automatically translate into each other. The AI of smart contracts, international e-commerce and the Internet of Things would exchange data and execute instructions based on automatic reasoning. Government statistics, national libraries, major museums and digital humanities research would feed into each other. On the machine learning side, we would reach a system of uniform and precise labels and annotations that would help AI to become more ethical, transparent, and efficient. A common semantic code would make it finally possible to achieve a de-fragmentation of the global memory and an integration of symbolic and statistical AI. The only price to pay for reaching neuro-symbolic collective intelligence would be a concerted effort for training specialists to translate metadata into IEML.

Check our prototype: https://dev.intlekt.io/

  • Once you are on the site, on the top right you can choose between french and english
  • “USL” (Uniform Semantic Locator) allows the search for words and paradigms in the dictionary
  • “Tags” gives you some examples of USLs groups by domain
  • If you are in “USL” the search for IEML expressions (instead of natural language translations) is done by typing * at the beginning of the query
  • Type: choose “all”
  • Class: filters nouns verbs or auxiliaries
  • Cardinality: choose “root” paradigms (big tables, or multi-tables paradigms), or the (small) tables, or singular = individual words. It is recommended to explore the dictionary by “roots”
  • When you click on a search result, the corresponding paradigm appears on the right.
  • The right panel present certain relations according to the selected words.

IEML is patented (provisional: US 63/124,924) and belongs to INTLEKT Metadata Inc.

Vassili Kandinsky: Circles in a Circle

A Scientific Language

IEML is an acronym for Information Economy MetaLanguage. IEML is the result of many years of fundamental research under the direction of Pierre Lévy, fourteen years of which were funded by the Canadian federal government through the Canada Research Chair in Collective Intelligence at the University of Ottawa (2002-2016). In 2020, IEML is the only language that has the following three properties:

– it has the expressive power of a natural language;

– it has the syntax of a regular language;

– its semantics is unambiguous and computable, because it is aligned with its syntax.

In other words, it is a “well-formed symbolic system”, which comprises a bijection between a set of relations between signifieds, or meanings (a language) and a set of relations between signifiers (an algebra) and which can be manipulated by a set of symmetrical and automatic operations. 

On the basis of these properties, IEML can be used as a concept coding system that solves the problem of semantic interoperability in an original way, lays the foundations for a new generation of artificial intelligence and allows collective intelligence to be reflexive. IEML complies with Web standards and can be exported in RDF. IEML expressions are called USLs (Uniform Semantic Locators). They can be read and translated into any natural language. Semantic ontologies – sets of IEML expressions linked by a network of relations – are interoperable by design. IEML provides the coordinate system of a common knowledge base that feeds both automatic reasoning and statistical calculations. In sum, IEML fulfills the promise of the Semantic Web through its computable meaning and interoperable ontologies. IEML’s grammar consists of four layers: elements, words, sentences and texts. Examples of elements and words can be found at https://dev.intlekt.io/.

Elements

The semantic elements are the basic building blocks, or elementary concepts, from which all language expressions are composed. A dictionary of about 5000 elements translated into natural languages is given with IEML and shared among all its users. Semantic interoperability comes from the fact that everyone shares the same set of elements whose meanings are fixed. The dictionary is organized into tables and sub-tables related to the same theme and the elements are defined reciprocally through a network of explicit semantic relations. IEML allows the design of an unlimited variety of concepts from a limited number of elements. 

Exemple of an elements paradigm in the IEML dictionary

The user does not have to worry about the rules from which the elements are constructed. However, they are regularly generated from six primitive symbols forming the “layer 0” of the language, and since the generative operation is recursive, the elements are stratified on six layers above layer 0.

Words

Using the elements dictionary and grammar rules, users can freely model a field of knowledge or practice within IEML. These models can be original or translate existing classifications, ontologies or semantic metadata.

The basic unit of an IEML sentence is the word. A word is a pair composed of two small sets of elements: the radical and the inflection. The choice of radical elements is free, but inflection elements are selected from a closed list of elements tables corresponding to adverbs, prepositions, postpositions, articles, conjugations, declensions, modes, etc. (see “auxiliary morphemes” in https://dev.intlekt.io/)

Each word or sentence corresponds to a distinct concept that can be translated, according to its author’s indications and its grammatical role, as a verb (encourage), a noun (courage), an adjective (courageous) or an adverb (bravely). 

Sentences 

The words are distributed on a grammatical tree composed of a root (verbal or nominal) and eight leaves corresponding to the roles of classical grammar: subject, object, complement of time, place, etc. 

The nine grammatical roles

Nine grammatical roles

The Root of the sentence can be a process (a verb), a substance, an essence, an affirmation of existence… 

The Initiator is the subject of a process, answering the question “who?” He can also define the initial conditions, the first motor, the first cause of the concept evoked by the root.

The Interactant corresponds to the object of classical grammar. It answers the question “what”. It also plays the role of medium in the relationship between the initiator and the recipient. 

The Recipient is the beneficiary (or the victim) of a process. It answers the questions “for whom, to whom, towards whom?”. 

The Time answers the question “when?”. It indicates the moment in the past, the present or the future and gives references as to anteriority, posteriority, duration, date and frequency. 

The Place answers the question “where?”. It indicates the location, spatial distribution, pace of movement, paths, paths, spatial relationships and metaphors. 

The Intention answers the question of finality, purpose, motivation: “for what”, “to what end?”It concerns mental orientation, direction of action, pragmatic context, emotion or feeling.

The Manner answers the questions “how?” and “how much?”. It situates the root on a range of qualities or on a scale of values. It specifies quantities, gradients, measurements and sizes. It also indicates properties, genres and styles.

The Causality answers the question “why? It specifies logical, material and formal determinations. It describes causes that have not been specified by the initiator, the interactant or the recipient: media, instruments, effects, consequences. It also describes the units of measurement and methods. It may also specify rules, laws, reasons, points of view, conditions and contracts.

For example: Robert (initiator) offers (root-process) a (interactant) gift to Mary (recipient) today (time) in the garden (place), to please her (intention), with a smile (manner), for her birthday (causality). 

Junctions 

IEML allows the junction of several words in the same grammatical role. This can be a logical connection (and, or inclusive or exclusive), a comparison (same as, different from), an ordering (larger than, smaller than…), an antinomy (but, in spite of…), and so on.

Layers of complexity

Grammatical roles of a complex sentence

A word that plays one of the eight leaf roles at complexity layer 1 can play the role of secondary root at a complexity layer 2, and so on recursively up to layer 4.

Literals

IEML strictly speaking enables only general categories or concepts to be expressed. It is nevertheless possible to insert numbers, units of measurement, dates, geographical positions, proper names, etc. into a sentence, provided they are categorized in IEML. For example t.u.-t.u.-‘. [23] means ‘number: 23’. Individual names, numbers, etc. are called literals in IEML.

Texts 

Relations 

A semantic relationship is a sentence in a special format that is used to link a source node (element, word, sentence) to a target node. IEML includes a query language enabling easy programming of semantic relationships on a set of nodes. 

By design, a semantic relationship makes the following four points explicit.

1. The function that connects the source node and the target node.

2. The mathematical form of the relation: equivalence relationship, order relationship, intransitive symmetrical relationship or intransitive asymmetrical relationship.

3. The kind of context or social rule that validates the relationship: syntax, law, entertainment, science, learning, etc.

4. The content of the relationship: logical, taxonomic, mereological (whole-part relationship), temporal, spatial, quantitative, causal, or other. The relation can also concern the reading order or the anaphora.

The (hyper) textual network

An IEML text is a network of semantic relationships. This network can describe linear successions, trees, matrices, cliques, cycles and complex subnetworks of all types.

An IEML text can be considered as a theory, an ontology, or a narrative that accounts for the dataset it is used to index.

We can define a USL as an ordered (normalized) set of triples of the form : (a source node, a target node, a relationship sentence).  A set of such triples describes a semantic network or IEML text. 

The following special cases should be noted:

– A network may contain only one sentence.

– A sentence may contain only one root to the exclusion of other grammatical roles.

– A root may contain only one word (no junction).

– A word may contain only one element.

******* 

In short, IEML is a language with computable semantics that can be considered from three complementary points of view: linguistics, mathematics and computer science. Linguistically, it is a philological language, i.e. it can translate any natural language. Mathematically, it is a topos, that is, an algebraic structure (a category) in isomorphic relation with a topological space (a network of semantic relations). Finally, on the computer side, it functions as the indexing system of a virtual database and as a programming language for semantic networks.

L’Ecole d’Athènes par Raphael

Un langage scientifique

IEML est un acronyme pour Information Economy MetaLanguage ou, en français : le métalangage de l’économie de l’information. IEML est le fruit de trente ans de recherche fondamentale sous la direction de Pierre Lévy dont quatorze ans ont été financés par le gouvernement fédéral canadien dans le cadre de la Chaire de Recherche du Canada en Intelligence Collective à l’Université d’Ottawa (2002-2016). IEML est en 2020 le seul langage qui possède les trois propriétés suivantes :

  • il a la puissance d’expression d’une langue naturelle ;
  • il possède la syntaxe d’un langage régulier ;
  • sa sémantique est univoque et calculable, parce qu’elle est alignée sur sa syntaxe.

En d’autres termes, c’est un « système symbolique bien formé », qui comporte une bijection entre un ensemble de relations entre signifiés (une langue) et un ensemble de relations entre signifiants (une algèbre) et qui peut être manipulé par un ensemble d’opérations symétriques et automatisables.

Sur la base de ces propriétés, on peut utiliser IEML comme un système de codage des concepts qui résoud de manière originale le problème de l’interopérabilité sémantique, pose les bases d’une nouvelle génération d’intelligence artificielle et autorise une réflexivité de l’intelligence collective. IEML respecte les standards du Web et s’exporte en RDF. Les expressions IEML sont appelées des USLs (Uniform Semantic Locators). Elles se lisent et se traduisent dans n’importe quelle langue naturelle. Les ontologies sémantiques – ensembles d’expressions IEML liés par un réseau de relations – sont interopérables par construction. IEML fournit le système de coordonnées d’une base de connaissances commune qui alimente aussi bien les raisonnements automatiques que les calculs statistiques. En somme, IEML accomplit la promesse du Web sémantique grâce à sa signification calculable et à ses ontologies inter-opérables. La grammaire d’IEML se décompose en trois couches : les éléments, les mots, les phrases et les textes. On trouvera des exemples d’éléments et de mots à l’adresse https://dev.intlekt.io/.

Les éléments

Les éléments sont les briques de base, ou concepts élémentaires, à partir desquelles toutes les expressions du langage sont composées. Un dictionnaire d’environ 5000 éléments traduits en langues naturelles est donné avec le langage et partagé entre tous ses utilisateurs. L’inter-opérabilité sémantique vient du fait que tout le monde partage le même ensemble d’éléments dont les sens sont fixés. Le dictionnaire est organisé en tables et sous-tables se rapportant à un même thème et les éléments se définissent réciproquement grâce à un réseau de relations sémantiques explicites. IEML autorise la conception d’une variété illimitée de concepts à partir d’un nombre limité d’éléments.

Exemple d’une table d’éléments

L’utilisateur n’a pas à se soucier des règles à partir desquelles les éléments sont construits. Sachons toutefois qu’ils sont engendrés de manière régulière à partir de six symboles primitifs qui forment la couche 0 du langage et que, l’opération générative étant récursive, les éléments s’étagent sur six couches au-dessus de la couche zéro.

Les mots  

A partir du dictionnaire des éléments et des règles de grammaire, les utilisateurs peuvent librement modéliser un domaine de connaissance ou de pratique en IEML. Ces modèles peuvent être originaux ou traduire des métadonnées sémantiques existantes. 

L’unité de base des phrases est le mot. Un mot est un couple composé de deux petits ensembles d’éléments : le radical et la flexion. Le choix des éléments de radical est libre mais les éléments de flexion sont sélectionnés dans une liste fermée de tables d’éléments correspondant à des adverbes, prépositions, postpositions, articles, conjugaisons, déclinaisons, modes, etc. (voir les « morphèmes auxiliaires » dans https://dev.intlekt.io/)

Chaque mot correspond à un concept distinct qui pourra se traduire, selon les indications de son auteur et son rôle grammatical, comme un verbe (encourager), un nom (courage), un adjectif (courageux) ou un adverbe (courageusement). 

Les phrases

Les mots se distribuent sur un arbre syntagmatique composé d’une racine (verbale ou nominale) et de huit feuilles correspondant aux rôles de la grammaire classique : sujet, objet, complément de temps, de lieu, etc.

Les neuf rôles grammaticaux

Les neuf rôles grammaticaux

  • La racine de la phrase peut être un process (un verbe), une substance, une essence, l’affirmation d’une existence… 
  • L’initiateur est le sujet d’un process. Il répond à la question « qui? ». Il peut aussi définir les conditions initiales, le premier moteur, la cause première du concept évoqué par la phrase.
  • L’interactant correspond à l’objet de la grammaire classique. Il répond à la question « quoi? ». Il joue aussi le rôle de médium dans la relation entre l’initiateur et le destinataire. 
  • Le destinataire est le bénéficiaire (ou la victime) d’un process. Il répond aux questions « pour qui, à qui, envers qui? » 
  • Le temps répond à la question « quand? ». Il indique le moment dans le passé, le présent, ou le futur et donne des repères quant à l’antériorité, la postériorité, la durée, la date, la fréquence. 
  • Le lieu répond à la question « où? ». Il indique la localisation, la distribution dans l’espace, l’allure du mouvements, les trajets, les chemins, les relations et métaphores spatiales. 
  • L’intention répond à la question de la finalité, du but, de la motivation : « pour quoi? » « A quelle fin? » Il concerne l’orientation mentale, la direction de l’action, le contexte pragmatique, l’émotion ou le sentiment.
  • La manière répond aux questions « comment? » et « combien? ». Elle situe la phrase sur une gamme de qualités ou sur une échelle de valeurs. Elle spécifie les quantités, gradients, mesures et tailles. Elle indique aussi les propriétés, les genres et les styles.
  • La causalité répond à la question « pourquoi? ». Elle précise les déterminations logiques, matérielles et formelles. Elle décrit les causes qui n’ont pas été spécifiées par l’initiateur, l’interactant ou le destinataire : médias, instruments, effets, conséquences. Elle décrit également les unités de mesure et les méthodes. Elle peut également spécifier les règles, lois, raisons, points de vue, conditions et contrats.

Par exemple : Robert (initiateur) offre (racine-process) un cadeau (interactant) à Marie (destinataire) aujourd’hui (temps) dans le jardin (lieu), pour lui faire plaisir (intention), en souriant (manière), pour son anniversaire (causalité).

Les jonctions 

IEML autorise la jonction de plusieurs mots dans le même rôle syntagmatique. Il peut s’agir d’une connexion logique (et, ou inclusif ou bien exclusif), d’une comparaison (même que, différent de), d’un rangement (plus grand que, plus petit que…), d’une antinomie (mais, malgré…), etc.

Les couches de complexité 

Les rôles grammaticaux d’une phrase complexe

Un mot qui joue l’un des huit rôles de feuille dans la couche de complexité 1 peut jouer le rôle de racine secondaire dans la couche de complexité 2, et ainsi de suite récursivement jusqu’à la couche 4.

Les littéraux

IEML stricto sensu ne permet d’exprimer que des catégories ou des concepts généraux. Il est néanmoins possible d’insérer dans une phrase des nombres, des unités de mesure, des dates, des positions géographiques, des noms propres et autres à condition de les catégoriser en IEML. Par exemple t.u.-t.u.-‘ [23] signifie « nombre : 23 ». Les noms d’individus, les nombres, etc. sont appelés littéraux en IEML.

Les textes 

Les relations 

Une relation sémantique est une phrase d’un format spécial qui sert à lier un noeud de départ (élément, mot, phrase) à un noeud d’arrivée. IEML inclut un langage de requête permettant de programmer facilement des relations sémantiques sur un ensemble de noeuds. 

Par construction, une relation sémantique explicite les quatre points qui suivent.

  1. La fonction qui relie le noeud de départ et le noeud d’arrivée.
  2. La forme mathématique de la relation : relation d’équivalence, relation d’ordre, relation symétrique intransitive ou relation asymétrique intransitive.
  3. Le genre de contexte ou de règle sociale qui valide la relation : syntaxique, légal, ludique, scientifique, pédagogique, etc.
  4. Le contenu de la relation : logique, taxinomique, méréologique (rapport tout-partie), temporelle, spatiale, quantitative, causale ou autre. La relation peut également concerner l’ordre de lecture des phrases ou l’anaphore.

Le réseau (hyper) textuel 

Un texte IEML est un réseau de relations sémantiques. Ce réseau peut décrire des successions linéaires, des arbres, des matrices, des cliques, des cycles et des sous-réseaux complexes de tous types.

Un texte IEML peut être considéré comme une théorie, une ontologie ou un récit censé rendre compte de l’ensemble de données qu’il sert à indexer.

Nous pouvons définir un USL comme un ensemble ordonné (normalisé) de triplets de la forme : (un noeud de départ, un noeud d’arrivée, un noeud de relation). Un tel ensemble de triplets décrit un réseau sémantique ou texte IEML. 

On notera les cas particuliers suivants :

  • Le réseau, ou texte, peut ne contenir qu’une seul phrase.
  • La phrase peut ne contenir qu’une racine à l’exclusion des autres rôles grammaticaux.
  • La racine peut ne contenir qu’un mot (pas de jonction).
  • Le mot peut ne contenir qu’un seul élément.

*******

En somme, IEML est une langue à la sémantique calculable qui peut être considérée de trois points de vue complémentaires : linguistique, mathématique et informatique. Sur le plan linguistique, il s’agit d’une langue philologique, c’est-à-dire qu’elle peut traduire n’importe quelle langue naturelle. Sur le plan mathématique, c’est un topos, c’est à dire une structure algébrique (une catégorie) en rapport d’isomorphisme avec un espace topologique (un réseau de relations sémantiques). Enfin, sur le plan informatique, elle fonctionne comme le système d’indexation d’une base de données virtuelle et comme un langage de programmation de réseaux sémantiques.

Plus de 60% de la population humaine est connectée à l’Internet, la plupart des secteurs d’activité ont basculé dans le numérique et le logiciel pilote l’innovation. Or les normes et protocoles de l’Internet ont été inventés à une époque où moins d’un pour cent de la population était connectée. Il est temps d’utiliser les flots de données, la puissance de calcul disponible et les nouvelles possibilités de communication interactive au service du développement humain… et de la solution des graves problèmes auxquels nous sommes confrontés. C’est pourquoi je vais lancer bientôt un projet international – comparable à la construction d’un cyclotron ou d’un voyage vers Mars – autour d’une transcroissance de l’Internet au service de l’intelligence collective.

Saturne (photo Voyager)

Ce projet vise plusieurs objectifs interdépendants : 

  • Décloisonner la mémoire numérique et assurer son interopérabilité sémantique (linguistique, culturelle et disciplinaire).
  • Ouvrir les modes d’indexation et maximiser la diversité des interprétations de la mémoire numérique.
  • Fluidifier la communication entre les machines, mais aussi entre les humains et les machines afin d’assurer notre maîtrise collective sur l’internet des choses, les villes intelligentes, les robots, les véhicules autonomes, etc.
  • Etablir de nouvelles formes de modélisation et d’observation réflexive de l’intelligence collective humaine sur la base de notre mémoire partagée.

IEML

Le fondement technique de ce projet est IEML (Information Economy MetaLanguage), un système de métadonnées sémantiques que j’ai inventé, notamment grâce au soutien du gouvernement fédéral canadien. IEML possède :

  • la puissance d’expression d’une langue naturelle, 
  • la syntaxe d’un langage régulier, 
  • une sémantique calculable alignée sur sa syntaxe.

IEML s’exporte en RDF et il est basé sur les standards du Web. Les concepts IEML sont appelés des USLs (Uniform Semantic Locators). Ils se lisent et se traduisent dans n’importe quelle langue naturelle. Les ontologies sémantiques  – ensembles d’USLs liés par un réseau de relations – sont interopérables par construction. IEML établit une base de connaissances virtuelle qui alimente aussi bien les raisonnements automatiques que les calculs statistiques. En somme, IEML accomplit la promesse du Web sémantique grâce à sa signification calculable et à ses ontologies inter-opérables.

Pour une courte description de la grammaire d’IEML cliquez

Intlekt

Le système des URL et la norme http ne deviennent utiles que grâce à un navigateur. De la même manière, le nouveau système d’adressage sémantique de l’Internet basé sur IEML nécessite une application particulière, nommée Intlekt, dont le chef de projet technique est Louis van Beurden. Intlekt est une plateforme collaborative et distribuée qui supporte l’édition de concepts, la curation de données et de nouvelles formes de recherche, de fouille et de visualisation de données. 

Intlekt permet d’éditer et publier des ontologies sémantiques – ensembles de concepts en relation – liés à un domaine de pratique ou de connaissance. Ces ontologies peuvent être originales ou traduire des métadonnées sémantiques existantes telles que : thésauri, langages documentaires, ontologies, taxonomies SKOS, folksonomies, ensembles de tags ou de hashtags, mots-clés, têtes de colonnes et de rangées, etc. Les ontologies sémantiques publiées augmentent un  dictionnaire de concepts, que l’on peut considérer comme une méta-ontologie ouverte

Intlekt est également un outil de curation de données. Il permet d’éditer, d’indexer en IEML et de publier des collections de données qui viennent alimenter une base de connaissance commune. A terme, on pourra utiliser des algorithmes statistiques pour automatiser l’indexation sémantique des données.

Enfin, Intlekt exploite les propriétés d’IEML pour autoriser de nouvelles formes de search, de raisonnement automatique et de simulation de systèmes complexes.

Des applications particulières peuvent être imaginées dans de nombreux domaines comme:

  • la préservation des héritages culturels, 
  • la recherche en sciences humaines et les humanités numériques, 
  • l’éducation et la formation
  • la santé publique, 
  • la délibération démocratique informée, 
  • les transactions commerciales, 
  • les contrats intelligents, 
  • l’Internet des choses, 
  • etc.

Et maintenant?

Où en sommes-nous de ce projet à l’été 2020 ? Après de nombreux essais qui se sont étalés sur plusieurs années, la grammaire d’IEML s’est stabilisée ainsi que la base de mots d’environ 3000 unités qui permet de construire à volonté n’importe quel concept. J’ai testé positivement les possibilités expressives du langage sur plusieurs domaines des sciences humaines et des sciences de la terre. Néanmoins, au moment où j’écris ces lignes, le dernier état de la grammaire n’est pas encore implémenté. De plus, pour obtenir une version d’Intlekt qui supporte les fonctions d’édition d’ontologies sémantiques, de curation de données et de fouille décrites plus haut, il faut compter une équipe de plusieurs programmeurs travaillant pendant un an. Dans les mois qui viennent, les amis d’IEML vont s’activer à réunir cette masse critique. 

Rejoignez-nous!

Pour plus d’information, consultez:
INTLEKT.io 

https://pierrelevyblog.com/my-research-in-a-nutshell/

et https://pierrelevyblog.com/my-research-in-a-nutshell/the-basics-of-ieml/

More than 60% of the human population is connected to the Internet, most sectors of activity have switched to digital and software drives innovation. Yet Internet standards and protocols were invented at a time when less than one percent of the population was connected. It is time to use the data flows, the available computing power and the possibilities of interactive communication for human development… and to solve the serious problems we are facing. That is why I will launch soon a major international project – comparable to the construction of a cyclotron or a voyage to Mars – aiming at an augmentation of the Internet in the service of collective intelligence.

This project has several interrelated objectives: 

  • Decompartmentalize digital memory and ensure its semantic (linguistic, cultural and disciplinary) interoperability.
  • Open up indexing modes and maximize the diversity of interpretations of the digital memory.
  • Make communication between machines, but also between humans and machines, more fluid in order to enforce our collective mastery of the Internet of Things, intelligent cities, robots, autonomous vehicles, etc.
  • Establish new forms of modeling and reflexive observation of human collective intelligence on the basis of our common memory.

IEML

The technical foundation of this project is IEML (Information Economy MetaLanguage), a semantic metadata system that I invented with support from the Canadian federal government. IEML has :

  • the expressive power of a natural language, 
  • the syntax of a regular language, 
  • calculable semantics aligned with its syntax.

IEML is exported in RDF and is based on Web standards. IEML concepts are called USLs (Uniform Semantic Locators). They can be read and translated into any natural language. Semantic ontologies – sets of USLs linked by a network of relationships – are interoperable by design. IEML establishes a virtual knowledge base that feeds both automatic reasoning and statistical calculations. In short, IEML fulfills the promise of the Semantic Web through its computable meaning and interoperable ontologies.

For a short description of the IEML grammar, click here.

Intlekt

The URLs system and the http standard only become useful through a browser. Similarly, the new IEML-based semantic addressing system for the Internet requires a special application, called Intlekt, whose technical project manager is Louis van Beurden. Intlekt is a collaborative and distributed platform that supports concept editing, data curation and new forms of search, data mining and data visualization. 

Intlekt empowers the edition and publishing of semantic ontologies – sets of linked concepts – related to a field of practice or knowledge. These ontologies can be original or translate existing semantic metadata such as: thesauri, documentary languages, ontologies, SKOS taxonomies, folksonomies, sets of tags or hashtags, keywords, column and row headings, etc. Published semantic ontologies augment a dictionary of concepts, which can be considered as an open meta-ontology

Intlekt is also a data curation tool. It enables editing, indexing in IEML and publishing data collections that feed a common knowledge base. Eventually, statistical algorithms will be used to automate the semantic indexing of data.

Finally, Intlekt exploits the properties of IEML to allow new forms of search, automatic reasoning and simulation of complex systems.

Special applications can be imagined in many areas, like:

  • the preservation of cultural heritage, 
  • research in the humanities (digital humanities), 
  • education and training
  • public health, 
  • informed democratic deliberation, 
  • commercial transactions, 
  • smart contracts, 
  • the Internet of things, 
  • and so on…

And now, what?

Where do we stand on this project in the summer of 2020? After many tests over several years, IEML’s grammar has stabilized, as well as the base of morphemes of about 5000 units which enables any concept to be built at will. I tested positively the expressive possibilities of the language in several fields of humanities and earth sciences. Nevertheless, at the time of writing, the latest state of the grammar is not yet implemented. Moreover, to obtain a version of Intlekt that enables the semantic ontology editing, data curation and data mining functions described above, a team of several programmers working for one year is needed. In the coming months, the friends of IEML will be busy pursuing this critical mass. 

Come and join us!

For more information, see: https://pierrelevyblog.com/my-research-in-a-nutshell/ and https://pierrelevyblog.com/my-research-in-a-nutshell/the-basics-of-ieml/

Pour équilibrer le scepticisme de mon précédent blogpost, je voudrais célébrer ici une attitude d’audace existentielle illustrée notamment par Pascal, Kierkegaard et Nietzsche, qui eurent de nombreux émules au XXe siècle.

Kierkegaard

Entendons-nous d’abord sur les mots. Une proposition est vraie – de vérité logique – lorsqu’elle correspond au fait qu’elle décrit. La proposition « Le chat est sur le paillasson » est exacte si le chat est sur le paillasson. Les vérités logiques peuvent faire l’objet d’enquêtes empiriques, de démonstrations et de réfutations. En revanche, les vérités existentielles sont d’un autre ordre. Elles ne portent pas sur des états de choses objectifs mais sur des fins, des valeurs, des priorités ou des engagements personnels. On ne démontre pas une vérité existentielle, on en témoigne par l’authenticité de son adhésion. On ne saurait la prouver ou la réfuter mais seulement la vivre ou la déserter.

Le doute de Descartes était de méthode et n’intervenait qu’à l’origine de son raisonnement. Une fois la perplexité surmontée à la fondation de sa construction intellectuelle, il avance ensuite vers l’achèvement de son système en enchaînant des vérités sûres. Le véritable sceptique du XVIIe siècle fut le mathématicien, physicien et philosophe Pascal (1623-1662). Dans son livre posthume, les Pensées, Pascal doute effectivement de tout. L’Homme est un « roseau pensant » fragile et mortel, perdu dans un petit coin de l’univers entre les deux infinis de l’espace et du temps, toujours à la poursuite de distractions pour apaiser son mal-être. Ses connaissances sont locales et temporaires puisqu’il ne peut percevoir (avec l’aide imparfaite d’instruments scientifiques) que ce qui se rapproche de sa propre échelle spatio-temporelle. Les institutions et les rôles sociaux auxquels il adhère le plus souvent de manière naïve varient selon les lieux et les temps et n’ont donc rien de solide. Mais il faut pourtant bien vivre et agir. On ne peut en rester à un nihilisme destructeur où à un scepticisme cynique qui ne satisfont que les « demi-habiles ». Puisqu’il lui est impossible de s’établir sur une connaissance certaine, l’engagement existentiel ne résultera pas d’un constat ou d’une démonstration mais d’un pari. L’ordre du coeur diffère de l’ordre de la raison. Pascal presse les libertins qui mettent en question l’existence de Dieu de parier sur la foi catholique en respectant les formes extérieures de la religion : prière, messe, bonnes oeuvres, etc. S’il n’y a rien après la mort, ils n’ont pas perdu grand chose. Mais s’il existe un au-delà, ils ont gagné l’éternité. Le point essentiel du pari de Pascal n’est pas dans cette mise en balance d’un presque rien et d’un presque tout qui mène au choix facile du salut éternel. Il tient à ce que l’habitude de respecter les formes extérieures de la religion finit par générer une foi réelle et donne ainsi un sens à la vie au-delà des vérités démontrables. L’engagement existentiel génère l’existence de ce qui était en doute avant la décision.

Comme Pascal, Soren Kierkegaard (1813-1855) élabore une philosophie de la foi. Et comme Pascal son propos est à mille lieux de l’effort millénaire pour « concilier la foi et la raison », c’est-à-dire au fond pour accorder la tradition grecque (la science aristotélicienne) et la tradition sémitique (le texte révélé, Bible ou Coran). Le philosophe danois ne tente pas d’expliquer les passages de l’écriture qui posent problème à la philosophie rationnelle (comme ceux qui prêtent au divin des émotions ou des organes corporels), ni de distinguer entre les mystères indémontrables de la foi et les vérités religieuses qui s’accordent spontanément avec le raisonnement naturel. Ce type de travail a déjà été accompli par Philon (entre –20 et 45), Augustin d’Hippone (354-430), Al Farabi (900-950), Avicenne (Ibn Sina, 980-1037), Averroes (Ibn Roshd, 1126-1198), Maïmonide (1138-1204) et Thomas d’Aquin (1124-1274). Kierkegaard n’appartient pas plus que Pascal à l’univers des théosophes lettrés. Ses voisins à Copenhague sont allés à l’école, lisent les journaux, se réclament de la philosophie hégélienne sans trop la comprendre et se considèrent comme de bons chrétiens éclairés. Pourtant, notre philosophe est accablé par leur superficialité. Pour eux, la foi consiste en l’accomplissement de certains rites et en croyances qu’ils distinguent mal de vérités objectives. Ils ne soupçonnent pas l’abîme qu’un christianisme vécu creuse au coeur du sujet. Que vaut leur foi s’ils ne souffrent pas de l’écart entre une finitude irrémédiable et l’ouverture à la transcendance ? Descartes avait initié la philosophie moderne en jetant un doute radical sur les vérités objectives. Kierkegaard la relance en logeant maintenant le doute au coeur de la vérité existentielle. Rien ne peut prouver ni garantir le bien fondé de la foi, pas même la raison objective, la chaîne d’une tradition ou l’assentiment de nos semblables. Il s’agit d’une prise de responsabilité personnelle, d’un engagement de l’être, d’un courage qui assume la fragilité de ses choix. La foi de Kierkegaard n’aboutit pas au repos qu’offre la certitude, mais à l’éveil qui naît de l’inquiétude. Comme les mystiques du passé, il évoque l’existence humaine à partir de son intériorité et de son expérience singulière. Mais parce que c’est un philosophe moderne, il critique, examine, démasque et raille, il utilise toutes les ressources de la raison pour sonder sa propre authenticité et celle de ses semblables.

Nietzsche (1844-1900) généralise aux valeurs la réflexion de Kierkegaard sur la foi. Il dénonce l’hypocrisie des philosophes qui prétendent déduire logiquement leurs principes moraux. En réalité, ils savent où ils vont avant même de commencer leur enquête et se contentent de rationaliser habilement un choix préalable. Le plaisir, la douleur, les réactions émotionnelles primaires dépendent certes de la nature et elles favorisent probablement la reproduction de l’espèce. Mais le bien et le mal moraux sont des objets conventionnels produits par des choix historiques. Aucune religion, morale ou règle de vie n’est objectivement vraie : nous sommes dans le domaine existentiel. Dans sa réflexion sur la généalogie de la morale, Nietzsche montre que les valeurs adoptées par un groupe humain traduisent ses affects dominants. Par exemple, la valorisation de l’égalité et de la justice sociale habille la jalousie ou le ressentiment par rapport aux puissants, un goût secret de la vengeance. La liberté elle-même couvre une volonté de conquête et de domination, l’orgueil d’une noblesse qui se destine au pouvoir.

Les systèmes de valeurs – avec leurs pôles du noble et de l’ignoble, du bon et du mauvais – servent à augmenter la puissance des individus ou des groupes. Certains cas semblent contredire à cette règle. Par exemple, à première vue, la morale adoptée par des tribus de guerriers pillards semble mieux servir leur volonté de puissance que la règle de vie choisie par des communautés d’ascètes. Mais ces derniers maîtrisent mieux leurs émotions, mobilisent de vastes savoirs et disposent d’une longue mémoire. Si bien que, comparée à celles de barbares mal dégrossis, leur morale leur procure un plus grand pouvoir. Les valeurs orientent la croissance des cultures en idéalisant des stratégies de domination plus ou moins conscientes. Nietzsche prolonge les moralistes qui détectaient l’amour-propre sous les vertus apparentes. Mais il généralise ce dévoilement à l’échelle historique, avec les ressources d’érudition dont dispose un savant philologue en Allemagne à la fin du XIXe siècle : les religions ou les constructions philosophiques poursuivent chacune à leur manière quelque quête de puissance.

Par opposition aux schémas finalisés des religions révélées ou de la philosophie hégélienne, l’histoire se boucle en éternel retour. Nietzsche emprunte cette figure aux stoïciens et à la métaphysique indienne. Il n’existe ni fin des temps, ni jugement dernier, ni position de surplomb d’où juger les valeurs. Chaque coup de dès existentiel occupe à son tour le centre de tout, position d’où il pèse les autres à ses propres balances. La roue des actes tourne entre le temps et l’éternité. Le perspectivisme nietzschéen ne doit pas être interprété comme un relativisme confortable et moins encore comme un nihilisme. Car s’il demande à ses disciples de détruire les prétentions à la vérité absolue, Nietzsche les incite en même temps à assumer leur subjectivité et à affirmer leur puissance créatrice. Ses descendants spirituels sont appelés à forger courageusement leurs propres valeurs, à « philosopher à coups de marteau », c’est-à-dire à briser les idoles et à battre le métal de nouvelles subjectivités. Une telle tâche ne convient certes pas à des brutes maladroites et arrogantes, ni à des enfants gâtés, ignorants et moutonniers, mais à des surhommes au caractère bien trempé, longuement disciplinés, cultivés, récusant tout dogmatisme et à qui la fréquentation des cimes a donné la vision des lointains.

Manjushri, le Bouddha de la sagesse. Thangka Tibétain

“Tout est vide”… “Tout est illusion” …

Que veulent dire les bouddhistes lorsqu’ils parlent de vide ou de vacuité? Veulent-ils signifier que les choses – et nous avec – n’existent pas? Non, car la sagesse est une voie du milieu entre deux extrêmes dont l’un, le nihilisme, consiste précisément à affirmer purement et simplement l’inexistence (et l’impertinence) de nos objets d’expérience. Mais quel est l’autre extrême? L’enthousiasme, l’optimisme? Je dirais plutôt que c’est l’illusion de la solidité et de la certitude. 

Commençons par examiner les illusions ontologiques. L’illusion existentielle imagine la permanence de ses objets. Or toutes choses ont un début et une fin. Rien ne dure et, surtout, rien ne dure identique. Les formes changent, les parties se remplacent. Comme dit Montaigne “Le monde n’est qu’une branloire pérenne. Toutes choses y branlent sans cesse : la terre, les rochers du Caucase, les pyramides d’Egypte, et du branle public et du leur. La constance même n’est autre chose qu’un branle plus languissant.” (Les Essais, III, 2). 

L’illusion substantielle suppose que les phénomènes se soutiennent d’eux-mêmes. Or les choses n’existent qu’en dépendance de leurs causes et de leurs conditions. Ce sont des noeuds ou des moments de systèmes complexes hors desquels elles se dissipent. Supprimez pour voir la mer aux poissons, l’air aux oiseaux et la société aux humains. Rien ne subsiste isolément, telle est la loi de l’interdépendance. 

L’illusion essentielle voit des images sans cadres. Nous ne percevons le monde – et nous-mêmes – que dans les termes de langues, de classifications et de récits sans lesquels rien n’aurait de sens. Or nos concepts se définissent mutuellement et dépendent de notre culture, de notre époque et de notre histoire. Il existe mille autres façons de caractériser ou de modéliser notre expérience. L’essentialisme, comme on dit aujourd’hui, consiste à croire non seulement que nos concepts sont réels mais encore qu’il n’existe pas d’autre façon que la nôtre d’appliquer ces concepts aux individus de notre expérience.

L’illusion ontologique néglige l’impermanence des formes, l’interdépendance des objets et l’arbitraire des conceptualisations. Quant à l’illusion épistémologique – ou cognitive – elle oublie l’inconnu, l’inconscient et l’inconnaissable. Qui peut se vanter de tout connaître, d’avoir réuni l’ensemble des données et d’avoir envisagé les meilleures hypothèses ? La majeure part de nos processus cognitifs a lieu sans réflexion ni conscience. Nos circuits neuronaux et nos supports externes de mémoire conditionnent notre pensée dans notre dos. Même quand nous sommes bien heureux de ne pas céder aux réflexes ou à l’imitation, nos raisonnements restent grevés de biais émotionnels et de préjugés. Finalement, les concepts et les outils dont nous ignorons l’existence excèdent sans mesure ceux dont nous disposons. Nos certitudes? Un îlot croulant battu d’un océan de doutes.

Réaliser le vide revient à toucher du doigt les solidités hallucinées au sein desquelles nous vivons et que nous passons notre temps à fuir ou à poursuivre. La sagesse est une désillusion.

Cela signifie-t-il que nous ne devrions pas tenir compte de notre expérience, mépriser l’accumulation sociale du savoir et rejeter la compréhension commune des choses? Nullement, car il faut bien que nous vivions et que nous agissions. Et, précisément à cause de l’interdépendance universelle et de la propagation des effets, il importe que nos actions soient justes et mesurées. Ni un nihilisme cynique, ni une indifférence paresseuse, la sagesse invite à une reconnaissance de ce qui importe au-delà de la vacuité et met sa puissance dissolvante au service de la compassion.

Enluminure d’un manuscrit médiéval de La Cité de Dieu

Augustin est un “carthaginois” ou un “tunisien” comme moi (comme aussi Ibn Khaldoun), natif de ce cap de l’Afrique du Nord qui pointe vers la Sicile et partage la Mediterranée en deux bassins, oriental et occidental. Ce romain d’origine berbère hante les carrefours. Dans le temps, il clôt le chapitre de l’Empire chrétien et ouvre celui de la chrétienté latine médiévale, dont il sera l’auteur favori. A la confluence des cultures, il noue l’héritage hébraïque de la Bible, la lignée grecque des philosophies platonicienne et néoplatonicienne, l’influence perse du manichéisme dont il fut adepte pendant des années et finalement la tradition, la langue et la rhétorique latine, qu’il enseigna longtemps. Sur un plan littéraire il fut sans doute – avec les “Confessions” – le premier auto-biographe de l’intériorité.

Traité après traité, son verbe abondant dessine le dogme chrétien. Contre l'”hérésie” de Pélage, il affirme le rôle essentiel de la grâce divine dans le salut. Le libre arbitre humain n’est pas seul responsable des bonnes oeuvres accomplies, la grâce divine est nécessaire. Ainsi nul ne peut s’enorgueillir d’être sauvé par soi-même et la bonne action ne sert pas à acheter le paradis. On ne peut forcer la main divine. Ces positions austères influenceront profondément les réformateurs du 16e siècle (Luther était un moine augustin) et les jansénistes des 17e et 18e siècle qui l’ont beaucoup cité. Contre les manichéens, qui pensaient avec les gnostiques que ce monde matériel était l’oeuvre d’un mauvais démiurge, il défend la nature intégralement positive de la création et définit le mal comme une absence d’être. Dans son traité “Sur la Trinité”, qui s’appuie sur les écritures mais aussi sur l’introspection raisonnée, il montre à quel point l’image divine est gravée dans l’âme humaine et anticipe bien des découvertes de la psychologie cognitive, de la sémiologie et de la philosophie moderne, y compris le cogito cartésien. 

Pour mon compte, l’apport d’Augustin à la pensée universelle se trouve dans son œuvre principale, “La Cité de Dieu”. Il  écrit ce livre au moment de l’écroulement de l’Empire romain sous l’effet – entre autres raisons – des invasions germaniques. Les derniers païens de vieille tradition romaine avaient alors beau jeu de dire : “Rome s’écroule parce qu’elle est devenue chrétienne”. Mais Augustin distingue soigneusement l’empire temporel qui repose sur la force et le hasard et la cité divine, communauté invisible des âmes qui cheminent ensemble vers l’idéal et qui repose sur la foi. L’échec de la cité terrestre n’a rien à dire sur la valeur de la cité de Dieu. Je retiens que la force et le succès temporels, toujours transitoires, ne fondent nulle justification éthique. Et surtout : maintenons l’écart entre les deux cités! Le totalitarisme prétend qu’il n’en existe qu’une. La cité unique est purement matérielle chez les communistes, fascistes, nazis, etc. Quant aux théocraties, elles habillent leur domination terrestre forcée du masque de la cité céleste. Naviguons entre ces deux périls et refusons la fusion mortifère de la spiritualité et de la politique.

The coronavirus pandemic has and will continue to have catastrophic effects not only in terms of physical health and mortality, but also in the areas of mental health and the economy, with social, political and cultural consequences that are difficult to calculate. Already it can be said that the scale of suffering and destruction is approaching that of a world war.

If there was still need, we are progressing in the awareness of the unity and physical continuity of a planetary human population sharing a common environment. The public space has shifted to the virtual and everyone is participating in communication through social media. Major web platforms and online services have seen a considerable increase in their use and digital communication infrastructures are at the limit of their capacity. Distance medicine, education, work and commerce have become commonplace, heralding a profound change in habits and skills, but also the possibility of limiting pollution and carbon emissions. The Internet is more than ever a part of essential services and even human rights. To provide solutions to this multifaceted crisis, new forms of collective intelligence are bypassing official institutions and national barriers, particularly in the scientific and health fields.

At the same time, conflicts of interpretation, information wars and propaganda battles are intensifying. False news – also viral – is pouring in from all sides, adding to the confusion and panic. Shameful or malicious manipulation of data accompanies ideological, cultural or national disputes in the midst of a global geopolitical reorganization. Global and local exchanges are rebalancing in favour of the latter. Political power is increasing at all levels of government with a remarkable merging of intelligence, police and medical services instrumented by digital communications and artificial intelligence. In the interests of public health and national security, the universal geolocation of individuals by mobile phone, bracelet or ring is on the horizon. Automatic identification by facial recognition or heartbeat will do the rest. 

To balance these trends, we need greater transparency of scientific, political and economic powers. The automatic analysis of data flows must become an essential skill taught in schools because it now conditions the understanding of the world. Learning and analytical resources must be shared and open to all free of charge. An international and cross-linguistic harmonization of semantic metadata systems would help to process and compare data and support more powerful forms of collective intelligence than those we know today.

With a crown of thorns on his bloody skull, humanity enters a new era.