Archives for posts with tag: artificial intelligence

Résumé

Le but de ce texte est de présenter une vue générale des limites de l’IA contemporaine et de proposer une voie pour les dépasser. L’IA a accompli des progrès considérables depuis l’époque des Claude Shannon, Alan Turing et John von Neumann. Néanmoins, de nombreux obstacles se dressent encore sur la route indiquée par ces pionniers. Aujourd’hui l’IA symbolique se spécialise dans la modélisation conceptuelle et le raisonnement automatique tandis que l’IA neuronale excelle dans la catégorisation automatique. Mais les difficultés rencontrées aussi bien par les approches symboliques que neuronales sont nombreuses. Une combinaison des deux branches de l’IA, bien que souhaitable, laisse encore non résolus les problèmes du cloisonnement des modèles et les difficultés d’accumulation et d’échange des connaissances. Or l’intelligence humaine naturelle résout ces problèmes par l’usage du langage. C’est pourquoi je propose que l’IA adopte un modèle calculable et univoque du langage humain, le Métalangage de l’Économie de l’Information (IEML pour Information Economy MetaLanguage), un code sémantique de mon invention. IEML a la puissance d’expression d’une langue naturelle, il possède la syntaxe d’un langage régulier, et sa sémantique est univoque et calculable parce qu’elle est une fonction de sa syntaxe. Une architecture neuro-sémantique basée sur IEML allierait les forces de l’IA neuronale et de l’IA symbolique classique tout en permettant l’intégration des connaissances grâce à un calcul interopérable de la sémantique. De nouvelles avenues s’ouvrent à l’intelligence artificielle, qui entre en synergie avec la démocratisation du contrôle des données et l’augmentation de l’intelligence collective.
La fin du texte contient des références bibliographiques et des liens pour approfondir.

Art: Emma Kunz

Introduction

Examinons d’abord comment le terme “intelligence artificielle” (IA) est utilisé dans la société en général, par exemple par les journalistes et les publicitaires. L’observation historique montre que l’on a tendance à classer dans l’intelligence artificielle les applications considérées comme “avancées” à l’époque où elles apparaissent. Mais quelques années plus tard ces mêmes applications seront le plus souvent réinterprétées comme appartenant à l’informatique ordinaire. Par exemple, la reconnaissance optique de caractères, perçue comme de l’IA à l’origine, est aujourd’hui considérée comme normale et silencieusement intégrée dans de nombreux logiciels. Une machine capable de jouer aux échecs était célébrée comme un exploit technique jusqu’aux années 1970, mais l’on peut aujourd’hui télécharger un programme d’échecs gratuit sur son smartphone sans que nul ne s’en étonne. De plus, selon que l’IA est en vogue (comme aujourd’hui) ou déconsidérée (comme dans les années 1990-2000), les efforts de marketing mettront ce terme en avant ou le remplaceront par d’autres. Par exemple, les “systèmes experts” des années 1980 deviennent les anodines “règles d’affaire” des années 2000. C’est ainsi que des techniques ou des concepts identiques changent de dénomination selon les modes, rendant la perception du domaine et de son évolution particulièrement opaque.

Quittons maintenant le vocabulaire du journalisme ou du marketing pour nous intéresser à la discipline académique. L’intelligence artificielle désigne depuis les années 1950 la branche de l’informatique qui se préoccupe de modéliser et de simuler l’intelligence humaine dans son ensemble plutôt que de résoudre tel ou tel problème particulier. La modélisation informatique de l’intelligence humaine est un but scientifique légitime qui a eu et continuera à avoir des retombées théoriques et pratiques considérables. Néanmoins, échaudés par les prévisions enthousiastes, mais démenties par les faits, des débuts de la discipline, la plupart des chercheurs du domaine ne croient pas que l’on construira bientôt des machines intelligentes autonomes. Beaucoup de recherches dans ce domaine – ainsi que la plupart des applications pratiques – visent d’ailleurs une augmentation de la cognition humaine plutôt que sa reproduction mécanique. Par opposition au programme de recherche orienté vers la construction d’une intelligence artificielle générale autonome, j’ai défendu dans mon livre La Sphère Sémantique l’idée d’une intelligence artificielle au service de l’intelligence collective et du développement humain. Je poursuis ici cette ligne de pensée.

D’un point de vue technique, l’IA se partage en deux grandes branches: symbolique et statistique. Un algorithme d’IA statistique “apprend” à partir des données qu’on lui fournit. Il simule donc (imparfaitement, nous le verrons plus bas), la dimension inductive du raisonnement humain. Par contraste, l’IA symbolique n’apprend pas à partir des données, mais dépend de la formalisation logique de la connaissance d’un domaine par des ingénieurs. Comparée à l’IA statistique, elle demande donc en principe une quantité plus importante de travail intellectuel humain. Un algorithme d’IA symbolique applique aux données les règles qu’on lui a données. Il simule donc plutôt la dimension déductive du raisonnement humain. Je vais successivement passer en revue ces deux grandes branches de l’IA, en m’attachant plus particulièrement à souligner leurs limites.

L’IA statistique et ses limites

L’IA neuronale

La branche statistique de l’IA entraîne des algorithmes à partir d’énormes masses de données pour les rendre capable de reconnaître des formes visuelles, sonores, linguistiques ou autres. C’est ce que l’on appelle l’apprentissage automatique ou machine learning. Lorsque l’on parle d’IA en 2021, c’est généralement pour désigner ce type de technique. On l’a vu, l’IA statistique économise le travail humain si on la compare à l’IA symbolique. Il suffit de fournir à un algorithme d’apprentissage automatique un ensemble de données d’entraînement pour qu’un programme de reconnaissance de formes s’écrive tout seul. Si l’on donne par exemple à une IA statistique des millions d’images de canards accompagnées d’étiquettes précisant que l’image représente un canard, elle apprend à reconnaître un canard et, à l’issue de son entraînement, elle sera capable de coller elle-même l’étiquette “canard” sur une image non catégorisée de ce volatile. Personne n’a expliqué à la machine comment reconnaître un canard : on s’est contenté de lui fournir des exemples. La traduction automatique répond au même principe : on donne à une IA statistique des millions de textes dans une langue A accompagnés de leur traduction dans une langue B. Entraîné sur ces exemples, le système apprend à traduire un texte de la langue A dans la langue B. C’est ainsi que fonctionnent des algorithmes de traduction automatique comme DeepL ou Google Translate. Pour prendre un exemple dans un autre domaine, l’IA statistique utilisée pour conduire les “véhicules autonomes” fonctionne également en appariant deux ensembles de données : des images de la route sont mises en correspondance avec des actions telles qu’accélérer, freiner, tourner, etc. En somme, l’IA statistique établit une correspondance (mapping) entre un ensemble de données et un ensemble d’étiquettes (cas de la reconnaissance de forme) ou bien entre deux ensembles de données (cas de la traduction ou des véhicules autonomes). Elle excelle donc dans les tâches de catégorisation, de reconnaissance de forme et d’appariement réflexe entre données perceptives et données motrices. 

Dans sa version la plus perfectionnée, l’IA statistique repose sur des modèles de réseaux neuronaux qui simulent grossièrement le mode d’apprentissage du cerveau. On parle d’apprentissage “profond” (deep learning en anglais) pour qualifier ces modèles parce qu’ils reposent sur plusieurs couches superposées de neurones formels. Les réseaux neuronaux représentent le sous-domaine le plus complexe et le plus avancé de l’IA statistique. L’intelligence artificielle de type neuronal existe depuis l’origine de l’informatique, comme l’illustrent les recherches de McCulloch dans les années 1940 et 50, de Franck Rosenblatt et Marvin Minsky dans les années 1950 et de von Fœrster dans les  années 1960 et 70. D’importants travaux dans ce domaine ont également été menés dans les années 1980, impliquant notamment David Rumelhart et Geoffrey Hinton, mais toutes ces recherches ont eu peu de succès pratique avant les années 2010.

Outre certains perfectionnements scientifiques des modèles, deux facteurs indépendants des progrès de la théorie expliquent que les réseaux neuronaux soient de plus en plus utilisés : la disponibilité d’énormes masses de données et l’augmentation de la puissance de calcul. À partir de la seconde décennie du XXIe siècle, les organisations s’engagent dans la transformation numérique et une part croissante de la population mondiale utilise le Web. Tout cela génère de gigantesques flux de données. Les informations ainsi produites sont traitées par les grandes plateformes numériques dans des centres de données (le “cloud“) qui concentrent une puissance de calcul inouïe. Au début du XXIe siècle, les réseaux neuronaux étaient implémentés par des processeurs conçus à l’origine pour le calcul graphique, mais les centres de données des grandes plateformes utilisent maintenant des processeurs spécialement destinés à l’apprentissage neuronal. C’est ainsi que des modèles théoriques intéressants, mais peu pratiques, du XXe siècle sont soudain devenus pertinents au XXIe siècle au point de soutenir une nouvelle industrie.

Des rendements décroissants

Néanmoins, après les avancées foudroyantes des années 2010 en matière d’apprentissage automatique par les réseaux neuronaux, les progrès semblent marquer le pas depuis quelques années. En effet, pour obtenir des performances marginalement meilleures, il faut désormais multiplier par plusieurs ordres de grandeur la taille des ensembles de données et la puissance de calcul utilisée pour entraîner les modèles. Nous avons déjà atteint l’époque des rendements cognitifs décroissants pour l’IA neuronale. Il est donc temps de s’interroger sur les limites de cet ensemble de techniques et d’envisager sérieusement un changement de paradigme. 

Les principaux problèmes portent sur la qualité des données d’entraînement, l’absence de modélisation causale, le caractère inexplicable des résultats, l’absence de généralisation, la cécité par rapport au sens des données et les difficultés d’accumulation et d’intégration des connaissances.

La qualité des données d’entraînement

Un ingénieur de Google aurait déclaré plaisamment: “Chaque fois que nous licencions un linguiste, notre performance en traduction automatique s’améliore”. Mais bien que l’IA statistique soit réputée peu gourmande en travail humain, les risques de biais et d’erreurs soulignés par des utilisateurs de plus en plus sourcilleux poussent à mieux sélectionner les données d’entraînement et à les étiqueter d’une manière plus soigneuse. Or cela demande du temps et de l’expertise humaine, bien qu’il s’agisse précisément des facteurs que l’on espérait éliminer.

L’absence d’hypothèses causales explicites

Tous les cours de statistiques commencent par une mise en garde contre la confusion entre corrélation et causalité. Une corrélation entre A et B ne prouve pas que A est la cause de B. Il peut s’agir d’une coïncidence, ou bien B peut être la cause de A, ou bien un facteur C non pris en compte par le recueil de données est la véritable cause de A et B, sans parler de toutes les relations systémiques complexes imaginables impliquant A et B. Or l’apprentissage automatique repose sur des appariements de données, c’est-à-dire sur des corrélations. La notion de causalité est étrangère à l’IA statistique, comme à de nombreuses techniques d’analyse de données massives, bien que des hypothèses causales interviennent souvent de manière implicite dans le choix des ensembles de données et de leur catégorisation. En somme, l’IA neuronale contemporaine n’est pas capable de distinguer les causes des effets. Pourtant, quand on utilise l’IA pour l’aide à la décision et plus généralement pour s’orienter dans des domaines pratiques, il est indispensable de posséder des modèles causaux explicites, car les actions efficaces doivent bel et bien intervenir sur les causes. Dans une démarche scientifique intégrale, les mesures statistiques et les hypothèses causales s’inspirent et se contrôlent réciproquement. Ne considérer que les corrélations statistiques relève d’une dangereuse hémiplégie cognitive. Quant à la pratique répandue qui consiste à garder ses théories causales implicites, elle interdit de les relativiser, de les comparer avec d’autres théories, de les généraliser, de les partager, de les critiquer et de les perfectionner.

Des résultats inexplicables 

Le fonctionnement des réseaux neuronaux est opaque. Des millions d’opérations transforment de manière incrémentale la force des connexions dans des assemblées de neurones comportant des centaines de couches. Comme leurs résultats ne peuvent être expliqués ni justifiés de manière conceptuelle, c’est-à-dire sur un mode compréhensible par des humains, il est difficile de faire confiance à ces modèles. Cette absence d’explication devient inquiétante lorsque les machines prennent des décisions financières, judiciaires, médicales ou liés à la conduite de véhicules autonomes, sans parler des applications militaires. Pour surmonter cet obstacle, et parallèlement au développement de l’éthique de l’intelligence artificielle, de plus en plus de chercheurs explorent le nouveau champ de recherche de “l’IA explicable” (explainable AI).

L’absence de généralisation. 

L’IA statistique se présente à première vue comme une forme de raisonnement inductif, c’est-à-dire comme une capacité à inférer des règles générales à partir d’une multitude de cas particuliers. Pourtant, les systèmes d’apprentissage automatique contemporains ne parviennent pas à généraliser au-delà des limites des données d’entraînement qui leur ont été fournies. Non seulement nous – les humains – sommes capables de généraliser à partir de quelques exemples, alors qu’il faut des millions de cas pour entraîner des machines, mais nous pouvons abstraire et conceptualiser ce que nous avons appris tandis que l’apprentissage automatique ne parvient pas à extrapoler et encore moins à conceptualiser. Il reste au niveau d’un apprentissage purement réflexe, étroitement circonscrit par l’espace des exemples qui l’ont alimenté.

La cécité au sens

Alors que les performances en traduction ou en écriture automatique (tel qu’illustré par le programme GPT3) progressent, les machines ne parviennent toujours pas à comprendre le sens des textes qu’elles traduisent ou rédigent. Leurs réseaux neuronaux ressemblent au cerveau d’un perroquet mécanique capable d’imiter des performances linguistiques sans avoir la moindre idée du contenu des textes. La succession des mots dans une langue ou leur correspondance d’une langue à l’autre sont bien maîtrisées, mais les textes “reconnus” n’alimentent pas de représentations utilisables des situations ou des domaines de connaissance dont ils traitent. 

Les difficultés d’accumulation et d’intégration des connaissances par l’IA statistique 

Privée de concepts, l’IA statistique parvient difficilement à accumuler des connaissances. A fortiori, l’intégration de savoirs de divers champs d’expertise semble hors de portée. Cette situation ne favorise pas les échanges de connaissances entre machines. Il faut donc souvent recommencer à zéro pour chaque nouveau projet. Signalons néanmoins l’existence de modèles de traitement des langues naturelles comme BERT qui sont pré-entraînés sur des données générales et qu’il est ensuite possible de spécialiser dans des domaines particuliers. Une forme limitée de capitalisation est donc atteignable. Mais il reste impossible d’intégrer directement à un système neuro-mimétique l’ensemble des connaissances objectives accumulées par l’humanité depuis quelques siècles.

L’IA symbolique et ses limites

La branche symbolique de l’IA correspond à ce qui a été successivement appelé dans les soixante-dix dernières années: réseaux sémantiques, systèmes à base de règles, bases de connaissances, systèmes experts, web sémantique et, plus récemment, graphes de connaissance. Depuis ses origines dans les années 1940-50, une bonne partie de l’informatique appartient de fait à l’IA symbolique. 

L’IA symbolique code la connaissance humaine de manière explicite sous forme de réseaux de relations entre catégories et de règles logiques donnant prise au raisonnement automatique. Ses résultats sont donc plus facilement explicables que ceux de l’IA statistique. 

Les difficultés d’accumulation et d’intégration des connaissances par l’IA symbolique

L’IA symbolique fonctionne bien dans les micromondes fermés des jeux ou des laboratoires, mais se trouve rapidement dépassée dans les environnements ouverts qui ne répondent pas à un petit nombre de règles strictes. La plupart des programmes d’IA symbolique utilisés dans des environnements de travail réels ne résolvent de problèmes que dans un domaine étroitement limité, qu’il s’agisse de diagnostic médical, de dépannage de machines, de conseil en investissement ou autre. Un “système expert” fonctionne de fait comme un médium d’encapsulation et de distribution d’un savoir-faire particulier, qui peut être distribué partout où on en a besoin. La compétence pratique devient alors disponible même en l’absence de l’expert humain. 

À la fin des années 1980, à la suite d’une série de promesses inconsidérées suivies de déceptions, commence ce que l’on a appelé “l’hiver” de l’intelligence artificielle (toutes tendances confondues). Pourtant, les mêmes procédés continuent à être utilisés pour résoudre le même type de problèmes. On a seulement renoncé au programme de recherche général dans lequel ces méthodes s’inscrivaient. C’est ainsi qu’au début du XXIe siècle, les règles d’affaires des logiciels d’entreprise et les ontologies du Web Sémantique ont succédé aux systèmes experts des années 1980. Malgré les changements de nom, il est aisé de reconnaître dans ces nouvelles spécialités les procédés de la bonne vieille IA symbolique. 

À partir du début du XXIe siècle, le “Web sémantique” s’est donné pour finalité d’exploiter les informations disponibles dans l’espace ouvert du Web. Afin de rendre les données lisibles par les ordinateurs, on organise les différents domaines de connaissance ou de pratique en modèles cohérents. Ce sont les “ontologies”, qui ne peuvent que reproduire le cloisonnement logique des décennies précédentes, malgré le fait que les ordinateurs soient maintenant beaucoup plus interconnectés.

Malheureusement, nous retrouvons dans l’IA symbolique les mêmes difficultés d’intégration et d’accumulation des connaissances que dans l’IA statistique. Ce cloisonnement entre en opposition avec le projet originel de l’intelligence artificielle comme discipline scientifique, qui veut modéliser l’intelligence humaine en général et qui tend normalement vers une accumulation et une intégration des connaissances mobilisables par les machines.

Malgré le cloisonnement de ses modèles, l’IA symbolique est cependant un peu mieux lotie que l’IA statistique en matière d’accumulation et d’échange. Un nombre croissant d’entreprises, à commencer par les grandes compagnies du Web, organisent leurs bases de données au moyen d’un graphe de connaissance constamment amélioré et augmenté. Par ailleurs, Wikidata offre un bon exemple de graphe de connaissance ouvert grâce auquel une information lisible aussi bien par les machines que par les humains s’accumule progressivement. Néanmoins, chacun de ces graphes de connaissance est organisé selon les finalités – toujours particulières – de ses auteurs, et ne peut être réutilisable facilement pour d’autres fins. Ni l’IA statistique, ni l’IA symbolique ne possèdent les propriétés de recombinaison fluide que l’on est en droit d’attendre des modules d’une intelligence artificielle au service de l’intelligence collective.

L’IA symbolique est gourmande en travail intellectuel humain

On a bien tenté d’enfermer toute la connaissance humaine dans une seule ontologie afin de permettre une meilleure interopérabilité, mais alors la richesse, la complexité, l’évolution et les multiples perspectives du savoir humain sont effacées. Sur un plan pratique, les ontologies universelles – voire celles qui prétendent formaliser l’ensemble des catégories, relations et règles logiques d’un vaste domaine – deviennent vite énormes, touffues, difficiles à comprendre et à maintenir pour l’humain qui est amené à s’en occuper. Un des principaux goulets d’étranglement de l’IA symbolique est d’ailleurs la quantité et la haute qualité du travail humain nécessaire à modéliser un domaine de connaissance, aussi étroitement circonscrit soit-il. En effet, il est non seulement nécessaire de lire la documentation, mais il faut encore interroger et écouter longuement plusieurs experts du domaine à modéliser. Acquis par l’expérience, les savoirs de ces experts s’expriment le plus souvent par des récits, des exemples et par la description de situations-types. Il faut alors transformer une connaissance empirique de style oral en un modèle logique cohérent dont les règles doivent être exécutables par un ordinateur. En fin de compte, le raisonnement des experts sera bien automatisé, mais le travail “d’ingénierie de la connaissance” d’où procède la modélisation ne peut pas l’être.

Position du problème: quel est le principal obstacle au développement de l’IA?

Vers une intelligence artificielle neuro-symbolique

Il est maintenant temps de prendre un peu de recul. Les deux branches de l’IA – neuronale et symbolique – existent depuis le milieu du XXe siècle et elles correspondent à deux styles cognitifs également présents chez l’humain. D’une part, nous avons la reconnaissance de formes (pattern recognition) qui correspond à des modules sensorimoteurs réflexes, que ces derniers soient appris ou d’origine génétique. D’autre part, nous avons une connaissance conceptuelle explicite et réfléchie, souvent organisée en modèles causaux et qui peut faire l’objet de raisonnements. Comme ces deux styles cognitifs fonctionnent ensemble dans la cognition humaine, il n’existe aucune raison théorique pour ne pas tenter de les faire coopérer dans des systèmes d’intelligence artificielle. Les bénéfices sont évidents et, en particulier, chacun des deux sous-systèmes peut remédier aux problèmes rencontrés par l’autre. Dans une IA mixte, la partie symbolique surmonte les difficultés de conceptualisation, de généralisation, de modélisation causale et de transparence de la partie neuronale. Symétriquement, la partie neuronale amène les capacités de reconnaissance de forme et d’apprentissage à partir d’exemples qui font défaut à l’IA symbolique. 

Aussi bien d’importants chercheurs en intelligence artificielle que de nombreux observateurs avertis de la discipline poussent dans cette direction d’une IA hybride. Par exemple, Dieter Ernst a récemment défendu une “intégration entre les réseaux neuronaux, qui excellent dans la classification des perceptions et les systèmes symboliques, qui excellent dans l’abstraction et l’inférence”. Emboîtant le pas à Gary Marcus, les chercheurs en IA Luis Lamb et Arthur D’avila Garcez ont récemment publié un article en faveur d’une IA neuro-symbolique dans laquelle des représentations acquises par des moyens neuronaux seraient interprétées et traitées par des moyens symboliques. Il semble donc que l’on ait trouvé une solution au problème du blocage de l’IA : il suffirait d’accoupler intelligemment les branches symbolique et statistique plutôt que de les maintenir séparées comme deux programmes de recherche en concurrence. D’ailleurs, ne voit-on pas les grandes compagnies du Web, qui mettent en avant l’apprentissage automatique et l’IA neuronale dans leurs efforts de relations publiques, développer plus discrètement en interne des graphes de connaissance pour organiser leur mémoire numérique et donner sens aux résultats des réseaux neuronaux? Mais avant de déclarer la question réglée, réfléchissons encore un peu aux données du problème.

Cognition animale et cognition humaine

Pour chacune des deux branches de l’IA, nous avons dressé une liste des obstacles qui se dressent sur le chemin menant vers une intelligence artificielle moins fragmentée, plus utile et plus transparente. Or nous avons trouvé un même inconvénient des deux côtés: le cloisonnement logique, les difficultés d’accumulation et d’intégration. Réunir le neuronal au symbolique ne nous aidera pas à surmonter cet obstacle puisque ni l’un ni l’autre n’en sont capables. Pourtant, les sociétés humaines réelles peuvent transformer des perceptions muettes et des savoir-faire issus de l’expérience en connaissances partageables. À force de dialogue, un spécialiste d’un domaine finit par se faire comprendre d’un spécialiste d’un autre domaine et va peut-être même lui enseigner quelque chose. Comment reproduire ce type de performances cognitives dans des sociétés de machines? Qu’est-ce qui joue le rôle intégrateur du langage naturel dans les systèmes d’intelligence artificielle?

Bien des gens pensent que, le cerveau étant le support organique de l’intelligence, les modèles neuronaux sont la clé de sa simulation. Mais de quelle intelligence parle-t-on? N’oublions pas que tous les animaux ont un cerveau, or ce n’est pas l’intelligence du moucheron ou de la baleine que l’IA veut simuler, mais celle de l’humain. Et si nous sommes “plus intelligents” que les autres animaux (au moins de notre point de vue) ce n’est pas à cause de la taille de notre cerveau. L’éléphant possède un plus gros cerveau que l’Homme en termes absolus et le rapport entre la taille du cerveau et celle du corps est plus grand chez la souris que chez l’humain. C’est principalement notre capacité linguistique, notamment supportée par les aires de Broca, Wernicke et quelques autres (uniques à l’espèce humaine), qui distingue notre intelligence de celle des autres vertébrés supérieurs. Or ces modules de traitement du langage ne sont pas fonctionnellement séparés du reste du cerveau, ils informent au contraire l’ensemble de nos processus cognitifs, y compris nos compétences techniques et sociales. Nos perceptions, nos actions, nos émotions et nos communications sont codées linguistiquement et notre mémoire est largement organisée par un système de coordonnées sémantiques fourni par le langage.

Fort bien, dira-t-on. Simuler les capacités humaines de traitement symbolique, y compris la faculté linguistique, n’est-ce pas précisément ce que l’IA symbolique est censée faire? Mais alors comment se fait-il qu’elle soit cloisonnée en ontologies distinctes, qu’elle peine à assurer l’interopérabilité sémantique de ses systèmes et qu’elle ne parvienne si difficilement à accumuler et à échanger les connaissances? Tout simplement parce que, malgré son nom de “symbolique”, l’IA ne dispose toujours pas d’un modèle calculable du langage. Depuis les travaux de Chomsky, nous savons calculer la dimension syntaxique des langues, mais leur dimension sémantique reste hors de portée de l’informatique. Afin de comprendre cette situation, il est nécessaire de rappeler quelques éléments de sémantique.

La sémantique en linguistique

Du point de vue de l’étude scientifique du langage, la sémantique d’un mot ou d’une phrase se décompose en deux parties, mélangées dans la pratique, mais conceptuellement distinctes: la sémantique linguistique et la sémantique référentielle. En gros, la sémantique linguistique s’occupe des relations entre les mots alors que la sémantique référentielle traite de la relation entre les mots et les choses.

La sémantique linguistique ou sémantique mot-mot. Un symbole linguistique (mot ou phrase) possède généralement deux faces: le signifiant, qui est une image visuelle ou acoustique et le signifié qui est un concept ou une catégorie générale. Par exemple, le signifiant “arbre”, a pour signifié : “végétal ligneux, de taille variable, dont le tronc se garnit de branches à partir d’une certaine hauteur”. La relation entre signifiant et signifié étant fixée par la langue, le signifié d’un mot ou d’une phrase se définit comme un nœud de relations avec d’autres signifiés. Dans un dictionnaire classique, chaque mot est situé par rapport à d’autres mots proches (le thésaurus) et il est expliqué par des phrases (la définition) utilisant des mots eux-mêmes expliqués par d’autres phrases, et ainsi de suite de manière circulaire. Un dictionnaire classique relève principalement de la sémantique linguistique. Les verbes et les noms communs (par exemple: arbre, animal, organe, manger) représentent des catégories qui sont elles-mêmes connectées par un dense réseau de relations sémantiques telles que: “est une partie de”, “est un genre de”, “appartient au même contexte que”, “est la cause de”, “est antérieur à”, etc. Nous ne pouvons penser et communiquer à la manière humaine que parce que nos mémoires collectives et personnelles sont organisées par des catégories générales connectées par des relations sémantiques.

La sémantique référentielle ou sémantique mot-chose. Par contraste avec la sémantique linguistique, la sémantique référentielle fait le pont entre un symbole linguistique (signifiant et signifié) et un référent (un individu réel). Lorsque je dis que “les platanes sont des arbres”, je précise le sens conventionnel du mot “platane” en le mettant en relation d’espèce à genre avec le mot “arbre” et je ne mets donc en jeu que la sémantique linguistique. Mais si je dis que “Cet arbre-là, dans la cour, est un platane”, alors je pointe vers un état de chose réel, et ma proposition est vraie ou fausse. Ce second énoncé met évidemment en jeu la sémantique linguistique puisque je dois d’abord connaître le sens des mots et la grammaire du français pour la comprendre. Mais s’ajoute à la dimension linguistique une sémantique référentielle puisque l’énoncé se rapporte à un objet particulier dans une situation concrète. Certains mots, comme les noms propres, n’ont pas de signifiés. Leur signifiant renvoie directement à un référent. Par exemple, le signifiant “Alexandre le Grand” désigne un personnage historique et le signifiant “Tokyo” désigne une ville. Par contraste avec un dictionnaire ordinaire, qui définit des concepts ou des catégories, un dictionnaire encyclopédique contient des descriptions d’individus réels ou fictifs pourvus de noms propres tels que divinités, héros de roman, personnages et événements historiques, objets géographiques, monuments, œuvres de l’esprit, etc. Sa principale fonction est de répertorier et de décrire des objets externes au système d’une langue. Il enregistre donc une sémantique référentielle.

Nota bene: Une catégorie est une classe d’individus, une abstraction. Il peut y avoir des catégories d’entités, de process, de qualités, de quantités, de relations, etc. Les mots “catégorie” et “concept” sont ici traités comme des synonymes.

La sémantique en IA

En informatique, les références ou individus réels (les réalités dont on parle) deviennent les données alors que les catégories générales deviennent les rubriques, champs ou métadonnées qui servent à classer et retrouver les données. Par exemple, dans la base de données d’une entreprise, “nom de l’employé”, “adresse” et “salaire” sont des catégories ou métadonnées tandis que “Tremblay”, “33 Boulevard René Lévesques” et “65 K$ / an” sont des données. Dans ce domaine technique, la sémantique référentielle correspond au rapport entre données et métadonnées et la sémantique linguistique au rapport entre les métadonnées ou catégories organisatrices, qui sont généralement représentées par des mots ou de courtes expressions linguistiques. 

Dans la mesure ou la finalité de l’informatique est d’augmenter l’intelligence humaine, elle doit notamment nous aider à donner sens aux flots de données numériques et à en tirer le maximum de connaissances utiles pour l’action. À cet effet, nous devons catégoriser correctement les données – c’est-à-dire mettre en œuvre une sémantique mot-chose – et organiser les catégories selon des relations pertinentes, qui nous permettent d’extraire des données toutes les connaissances utiles pour l’action – ce qui correspond à la sémantique mot-mot.

En discutant le sujet de la sémantique en informatique, nous devons nous souvenir que les ordinateurs ne voient pas spontanément un mot ou une phrase comme un concept en relation déterminée avec d’autres concepts dans le cadre d’une langue, mais seulement comme des suites de lettres, des “chaînes de caractères”. C’est pourquoi les relations entre les catégories qui semblent évidentes aux humains et qui relèvent de la sémantique linguistique, doivent être ajoutées – le plus souvent à la main – dans une base de données si l’on veut qu’un programme en tienne compte.

Examinons maintenant dans quelle mesure l’IA symbolique modélise la sémantique. Si l’on considère les ontologies du “Web Sémantique” (le standard en IA symbolique), on découvre que les sens des mots et des phrases n’y dépendent pas de la circularité auto-explicative de la langue (comme dans un dictionnaire classique), mais d’un renvoi à des URI (Uniform Resource Identifiers) qui fonctionne sur le mode de la sémantique référentielle (comme un dictionnaire encyclopédique). Au lieu de reposer sur des concepts (ou catégories) déjà donnés dans une langue et qui se présentent dès l’origine comme des nœuds de relations avec d’autres concepts, les échafaudages du Web sémantique s’appuient sur des concepts définis séparément les uns des autres au moyen d’identifiants uniques. La circulation du sens dans un réseau de signifiés est escamotée au profit d’une relation directe entre signifiant et référent, comme si tous les mots étaient des noms propres. En l’absence d’une sémantique linguistique fondée sur une grammaire et un dictionnaire communs, les ontologies restent donc cloisonnées. En somme, l’IA symbolique contemporaine n’a pas accès à la pleine puissance cognitive et communicative du langage parce qu’elle ne dispose pas d’une langue, mais seulement d’une sémantique référentielle rigide.

Pourquoi l’IA n’utilise-t-elle pas les langues naturelles – avec leur sémantique linguistique inhérente – pour représenter les connaissances? La réponse est bien connue : parce que les langues naturelles sont ambiguës. Un mot peut avoir plusieurs sens, un sens peut s’exprimer par plusieurs mots, les phrases ont plusieurs interprétations possibles, la grammaire est élastique, etc. Comme les ordinateurs ne sont pas des êtres incarnés et pleins de bon sens, comme nous, ils ne sont pas capables de désambiguïser correctement les énoncés en langue naturelle. Pour ses locuteurs humains, une langue naturelle étend un filet de catégories générales prédéfinies qui s’expliquent mutuellement. Ce réseau sémantique commun permet de décrire et de faire communiquer aussi bien les multiples situations concrètes que les différents domaines de connaissance. Mais, du fait des limitations des machines, l’IA ne peut pas faire jouer ce rôle à une langue naturelle. C’est pourquoi elle reste aujourd’hui fragmentée en micro-domaines de pratiques et de connaissance, chacun d’eux avec sa sémantique particulière.

L’automatisation de la sémantique linguistique pourrait ouvrir de nouveaux horizons de communication et de raisonnement à l’intelligence artificielle. Pour traiter la sémantique linguistique, l’IA aurait besoin d’une langue standardisée et univoque, d’un code spécialement conçu à l’usage des machines, mais que les humains pourraient aisément comprendre et manipuler. Cette langue permettrait enfin aux modèles de se connecter et aux connaissances de s’accumuler. En somme, le principal obstacle au développement de l’IA est l’absence d’un langage commun calculable. C’est précisément le problème résolu par IEML, qui possède la capacité d’exprimer le sens, comme les langues naturelles, mais dont la sémantique est non ambiguë et calculable, comme un langage mathématique. L’utilisation d’IEML rendra l’IA moins coûteuse en efforts humains, plus apte à traiter le sens et la causalité, et surtout, capable d’accumuler et d’échanger des connaissances.

Une solution basée sur un codage de la sémantique

Le métalangage de l’économie de l’information

Beaucoup de progrès en informatique viennent de l’invention d’un système de codage pertinent rendant l’objet codé (nombre, image, son, etc.) facilement calculable par une machine. Par exemple, le codage binaire pour les nombres et le codage en pixels ou en vecteurs pour les images. C’est pourquoi je me suis attaché à la conception d’un code qui rende la sémantique linguistique calculable. Cette langue artificielle, IEML (Information Economy MetaLanguage) possède une grammaire régulière et un dictionnaire compact de trois mille mots. Des catégories complexes peuvent être construites en combinant les mots selon les règles de la grammaire. Les catégories complexes peuvent à leur tour être utilisées pour en définir d’autres, et ainsi de suite récursivement. Une des parties les plus difficiles de la conception d’IEML a été de trouver le plus petit ensemble de mots à partir duquel n’importe quelle catégorie pourrait être construite. 

Sur un plan linguistique, IEML possède la même capacité expressive qu’une langue naturelle. Elle peut donc traduire n’importe quelle autre langue. C’est d’autre part une langue univoque : ses expressions n’ont qu’un seul sens. Enfin, sa sémantique est calculable. Cela signifie que son dictionnaire et ses règles de grammaire suffisent à déterminer automatiquement le sens de ses expressions (ce qui n’est pas le cas des langues naturelles). Soulignons qu’IEML n’est pas une ontologie universelle, mais bel et bien une langue qui permet d’exprimer n’importe quelle ontologie ou classification particulière. 

Sur un plan mathématique, IEML est un langage régulier au sens de Chomsky : c’est une algèbre. Elle est donc susceptible de toutes sortes de traitements et de transformations automatiques. 

Sur un plan informatique, comme nous le verrons plus en détail ci-dessous, le métalangage donne prise à un langage de programmation de réseaux sémantiques et supporte le système d’indexation d’une base de connaissances.

L’éditeur IEML

Le métalangage de l’économie de l’information est défini par sa grammaire et son dictionnaire, que l’on trouvera en consultant le site intlekt.io. Mais la langue ne suffit pas. Nous avons besoin d’un outil numérique facilitant son écriture, sa lecture et son utilisation: l’éditeur IEML. 

L’éditeur IEML sert à produire et à explorer des modèles de données. Cette notion de “modèle” englobe les réseaux sémantiques, les systèmes de métadonnées sémantiques, les ontologies, les graphes de connaissances et les systèmes d’étiquettes pour catégoriser des données d’entraînement. L’éditeur contient un langage de programmation permettant d’automatiser la création de nœuds (les catégories) et de liens (les relations sémantiques entre catégories). Ce langage de programmation est de type déclaratif, c’est-à-dire qu’il ne demande pas à son utilisateur d’organiser des flots d’instructions conditionnelles, mais seulement de décrire les résultats à obtenir.

Mode d’utilisation de l’éditeur

Comment se sert-on de l’éditeur? 

  1. Le modélisateur répertorie les catégories qui vont servir de conteneurs (ou de cases-mémoire) aux différents types de données. S’il a besoin de catégories qui ne correspondent à aucun des 3000 mots du dictionnaire IEML il les crée au moyen de phrases.
  2. Il programme ensuite les relations sémantiques qui vont connecter les données catégorisées. Les relations, définies par des phrases, ont un contenu sémantique aussi varié que nécessaire. Leurs propriétés mathématiques (réflexivité, symétrie, transitivité) sont spécifiées. Des instructions conditionnent l’établissement des relations à la présence de signifiants ou de valeurs de données déterminées à certaines adresses syntaxiques des catégories.
  3. Une fois les données catégorisées, le programme tisse automatiquement le réseau de relations sémantiques qui va leur donner sens. Des fonctions de fouille de données, d’exploration hypertextuelle et de visualisation des relations par tables et par graphes permettent aux utilisateurs finaux d’explorer le contenu modélisé.

Avantages

Plusieurs traits fondamentaux distinguent l’éditeur IEML des outils contemporains qu’on utilise pour modéliser les données: les catégories et relations sont programmables, les modèles obtenus sont interopérables et transparents.

Catégories et relations sont programmables. La structure régulière d’IEML permet de générer les catégories et de tisser les relations de manière fonctionnelle ou automatique au lieu de les créer une par une. Cette propriété fait gagner au modélisateur un temps considérable. Le temps gagné par l’automatisation de la création des catégories et des relations compense largement le temps passé à coder les catégories en IEML, et cela d’autant plus qu’une fois créées, les nouvelles catégories et relations peuvent être échangées entre les utilisateurs. 

Les modèles sont interopérables. Tous les modèles se ramènent au même dictionnaire de trois mille mots et à la même grammaire. Les modèles sont donc interopérables, c’est-à-dire qu’ils peuvent facilement fusionner ou échanger des catégories et des sous-modèles. Chaque modèle reste adapté à un contexte particulier, mais les modèles peuvent désormais se comparer, s’interconnecter et s’intégrer.

Les modèles sont transparents. Bien qu’ils soient codés en IEML, les modèles rédigés au moyen de l’éditeur IEML sont lisibles en langue naturelle. De plus, les catégories et relations se présentent comme des mots ou des phrases. Or les mots sont expliqués par leurs relations avec les autres mots du dictionnaire et le sens des phrases est défini par les mots qui les composent selon une grammaire régulière. Toutes les catégories et toutes les relations sont donc explicitement définies, ce qui rend les modèles clairs aussi bien pour les modélisateurs que pour les utilisateurs finaux et adéquats aux principes d’éthique et de transparence contemporains.

Au prix d’un bref apprentissage, l’éditeur peut être utilisé par des non-informaticiens qui ne connaissent pas la langue IEML. Seule la grammaire (simple et régulière) doit être maîtrisée, les mots IEML étant représentés en langues naturelles. L’éditeur IEML pourrait être utilisé dans les écoles et ouvrir la voie à une démocratisation de la maîtrise des données.

L’architecture neuro-sémantique

Figure 1: Une architecture Neuro-sémantique pour l’IA

Je vais maintenant proposer une architecture de système d’IA basée sur IEML. Cette architecture (schématisée dans la figure 1) est évidemment un cas particulier d’architecture neuro-symbolique, mais je la nomme neuro-sémantique afin de souligner qu’elle résout le problème du calcul de la sémantique et de l’interopérabilité sémantique entre systèmes. 

Les neurones sensorimoteurs

Le module d’entrée est occupé par des réseaux de neurones sensoriels, qui ont été entraînés par des exemples de données catégorisées en IEML. On doit distinguer plusieurs types de données d’entraînement (texte, image, sons, etc.) d’où résultent plusieurs types de réseaux de neurones. Les données catégorisées par les neurones sensoriels sont transmis à la base de connaissance sémantique. Si l’on détecte des incohérences, des erreurs ou des biais, il faut évidemment revoir les données d’entraînement ou réviser leur conceptualisation. Le système doit donc comprendre une boucle de dialogue entre les annotateurs de données qui entraînent les réseaux de neurones et les ingénieurs qui gèrent la base de connaissance.

En sortie, des réseaux de neurones moteurs transforment des données catégorisées en données qui commandent des actions, telles que rédaction de texte, synthèse d’image, émission vocale, instructions envoyées à des effecteurs (robots), etc. Ces neurones moteurs sont entraînés sur des exemples qui apparient des données catégorisées en IEML et des données motrices. Là encore, les données d’entraînement et les réseaux de neurones doivent être distinguées selon leurs types.

La mémoire et le traitement sémantique

La base de connaissance est organisée par un réseau sémantique. Elle est donc de préférence supportée par une base de données de graphes (graph database). Sur le plan de l’interface, cette base de connaissance se présente comme une encyclopédie hypertextuelle du domaine dont elle traite. Elle autorise aussi la programmation de simulations et de divers tableaux de bord pour la veille et le renseignement.

L’éditeur IEML évoqué à la section précédente peut servir à d’autres tâches qu’à la modélisation. Il permet en effet de conditionner les opérations d’écriture-lecture les plus variées à la présence de contenus sémantiques situés à certaines adresses syntaxiques. Lorsqu’ils sont codés en IEML les concepts deviennent les variables d’une algèbre, ce qui n’est évidemment pas le cas lorsqu’elles sont exprimés en langue naturelle. C’est pourquoi des transformations sémantiques peuvent être programmées et calculées. Cette programmation sémantique ouvre la voie non seulement aux raisonnements logiques classiques auxquels les moteurs d’inférence de l’IA symbolique nous ont habitué depuis des décennies, mais aussi à d’autres formes de raisonnement automatique. Puisqu’en IEML la sémantique est une image fonctionnelle de la syntaxe, il devient possible d’automatiser le raisonnement analogique de type “A est à B ce que C est à D”.  D’autres d’opérations sémantiques peuvent également être programmées, telles que sélection et fouille ; substitution, insertion ou effacement ; extraction de sous-réseaux sémantiques pertinents ; résumé ou développement ; inversion, allusion, atténuation ou amplification ; extraction ou projection de structures narratives, et ainsi de suite.

Quelques applications 

Quelques applications évidentes de notre architecture d’IA neuro-sémantique sont : l’intégration de données, l’aide à la décision à partir de modèles causaux, la gestion des connaissances, la compréhension et le résumé de texte, la génération de texte contrôlée (contrairement aux systèmes de type GPT3 dont le texte n’est pas contrôlé), les chatbots et la robotique. Je vais maintenant brièvement commenter deux exemples d’usage : la compréhension de texte et la génération de texte contrôlée. 

Concernant la génération de texte contrôlée, imaginons en entrée des données de télémétrie, des informations comptables, des examens médicaux, des résultats de tests de connaissance, etc. On peut alors concevoir en sortie des textes narratifs en langue naturelle synthétisant le contenu des flux de données d’entrée : diagnostics médicaux, bulletins scolaires, rapports, conseils, etc. Quant à la compréhension de texte, elle suppose d’abord la catégorisation automatique du contenu du document présenté en entrée du système. Dans un deuxième temps, le modèle sémantique extrait du texte est inscrit dans la mémoire du système de manière à s’intégrer aux connaissances déjà acquises. En somme, des systèmes d’intelligence artificielle pourraient accumuler des connaissances à partir de la lecture automatique de documents. À supposer qu’IEML soit adopté, les systèmes d’intelligence artificielle deviendraient non seulement capables d’accumuler des connaissances, mais de les intégrer en modèles cohérents et de les échanger. Il s’agit évidemment là d’une perspective à long terme qui exigera des efforts coordonnés.

Conclusion: vers un tournant humaniste en IA

Sans langage, nous n’aurions accès ni au questionnement, ni au dialogue, ni au récit. La langue est simultanément un médium de l’intelligence personnelle – il est difficile de penser sans dialogue intérieur – et de l’intelligence collective. La plupart de nos connaissances ont été accumulées et transmises par la société sous forme linguistique. Vu le rôle de la parole dans l’intelligence humaine, Il est surprenant qu’on ait espéré atteindre une intelligence artificielle générale sans disposer d’un modèle calculable du langage et de sa sémantique. La bonne nouvelle est que nous en avons finalement un. Même si l’architecture neuro-sémantique ici proposée ne débouche pas directement sur une intelligence artificielle générale, elle autorise au moins la construction d’applications capables de traiter le sens des textes ou des situations. Elle permet aussi d’envisager un marché des données privées étiquetées en IEML qui stimulerait, s’il en était besoin, le développement de l’apprentissage statistique. Elle devrait aussi supporter une mémoire publique collaborative qui serait particulièrement utile dans les domaines de la recherche scientifique, de l’éducation et de la santé.

La multiplicité des langues, des systèmes de classification, des points de vue disciplinaires et des contextes pratiques cloisonne aujourd’hui la mémoire numérique. Or la communication des modèles, la comparaison critique des points de vue et l’accumulation des connaissances sont essentiels à la cognition symbolique humaine, une cognition indissolublement personnelle et collective. L’intelligence artificielle ne pourra durablement augmenter la cognition humaine qu’à la condition d’être interopérable, cumulable, intégrable, échangeable et distribuée. C’est dire qu’on ne fera pas de progrès notable en intelligence artificielle sans viser en même temps une intelligence collective capable de se réfléchir et de se coordonner dans la mémoire mondiale. L’adoption d’une langue calculable fonctionnant comme système universel de coordonnées sémantiques – une langue facile à lire et à écrire permettant de tout dire comme de distinguer les nuances – ouvrirait de nouvelles voies à l’intelligence collective humaine, y compris sous la forme d’une interaction immersive multimédia dans le monde des idées. En ce sens, la communauté des utilisateurs d’IEML pourrait inaugurer une nouvelle époque de l’intelligence collective.

L’IA contemporaine, majoritairement statistique, a tendance à créer des situations où les données pensent à notre place et à notre insu. Par contraste, je propose de développer une IA qui aide les humains à prendre le contrôle intellectuel des données pour en extraire un sens partageable de manière durable. IEML nous permet de repenser la finalité et le mode d’action de l’IA d’un point de vue humaniste, point de vue pour qui le sens, la mémoire et la conscience personnelle doivent être traités avec le plus grand sérieux.

NOTES ET RÉFÉRENCES

Sur les origines de l’IA
L’expression “Intelligence artificielle” fut utilisée pour la première fois en 1956, lors d’une conférence du Dartmouth College à Hanover, New Hampshire. Participaient notamment à cette conférence l’informaticien et chercheur en sciences cognitives Marvin Minsky (Turing Award 1969) et l’inventeur du langage de programmation LISP John McCarthy (Turing Award 1971).

Sur l’augmentation cognitive
L’augmentation cognitive (plutôt que l’imitation de l’intelligence humaine) était l’orientation principale de nombre des pionniers de l’informatique et du Web. Voir par exemple :
– Bush, Vannevar. “As We May Think.” Atlantic Monthly, July 1945.
– Licklider, Joseph. “Man-Computer Symbiosis.” IRE Transactions on Human Factors in Electronics, 1, 1960, 4-11.
– Engelbart, Douglas. Augmenting Human Intellect. Technical Report. Stanford, CA: Stanford Research Institute, 1962.
– Berners-Lee, Tim. Weaving the Web. San Francisco: Harper, 1999.

Sur l’histoire de l’IA neuronale
Beaucoup de gens connaissent Geoffrey Hinton, Yann Le Cun et Yoshua Benjio comme les fondateurs de l’IA neuronale contemporaine. Mais l’IA neuronale commence dès les années 40 du XXe siècle. Je fournis ci-dessous une brève bibliographie.
– McCulloch, Warren, and Walter Pitts. “A Logical Calculus of Ideas Immanent in Nervous Activity.” Bulletin of Mathematical Biophysics, 5, 1943: 115-133. 
– McCulloch, Warren. Embodiments of Mind. Cambridge, MA: MIT Press, 1965.)
– Lévy, Pierre. “L’Œuvre de Warren McCulloch.” Cahiers du CREA, 7, 1986, p. 211-255.
– Frank Rosenblatt est l’inventeur du Perceptron, qui peut être considéré comme le premier système d’apprentissage automatique basé sur un réseau neuro-mimétique. Voir son livre Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms, publié en 1962 par Spartan Books.
– Le mémoire de doctorat de 1954 de Marvin Minsky était intitulé: “Theory of neural-analog reinforcement systems and its application to the brain-model problem.”
– Minsky critiquera le perceptron de Frank Rosenblatt dans son livre Perceptrons de 1969 (MIT Press) écrit avec Seymour Papert et poursuivra par la suite le programme de recherche de l’IA symbolique.
– Toujours de Minsky, The Society of Mind (Simon and Schuster, 1986) résume bien son approche de la cognition humaine comme une émergence à partir de l’interaction de multiples modules cognitifs aux fonctions variées.
– Foerster, Heinz von. Observing Systems: Selected Papers of Heinz von Foerster. Seaside, CA: Intersystems Publications, 1981.
– Von Fœrster était directeur du Biological Computer Laboratory. Voir Lévy, Pierre. “Analyse de contenu des travaux du Biological Computer Laboratory (BCL).” In Cahiers du CREA, 8, 1986, p. 155-191.
– McClelland, James L., David E. Rumelhart and PDP research group. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. 2 vols. Cambridge, MA: MIT Press, 1986.
– Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (9 October 1986). “Learning representations by back-propagating errors”. Nature. 323 (6088): 533–536. Hinton a été reconnu pour ses travaux pionniers par un prix Turing obtenu avec Yann LeCun et Joshua Benjio en 2018.

La critique de l’IA statistique
Ce texte reprend quelques-uns des arguments avancés par des chercheurs comme Judea Pearl, Gary Marcus et Stephen Wolfram.
– Judea Pearl, a reçu le prix Turing en 2011 pour ses travaux sur la modélisation de la causalité en IA. Il a  écrit avec Dana Mackenzie, The Book of Why, The new science of cause and effect, Basic books, 2019.
– Voir l’article séminal de Gary Marcus de 2018 “Deep learning, a critical appraisal” https://arxiv.org/pdf/1801.00631.pdf?u (Consulté le 8 août 2021)
– Voir aussi le livre de Gary Marcus, écrit avec Ernest Davis, Rebooting AI: Building Artificial Intelligence We Can Trust, Vintage, 2019.
– Stephen Wolfram est l’auteur du logiciel Mathematica et du moteur de recherche Wolfram Alpha. Voir son entretien pour Edge.org de 2016 “AI and the future of civilisation” https://www.edge.org/conversation/stephen_wolfram-ai-the-future-of-civilization Consulté le 8 août 2021.
– Outre les travaux de Judea Pearl sur l’importance de la modélisation causale en IA, rappelons les thèses du philosophe Karl Popper sur les limites du raisonnement inductif et des statistiques. Voir, en particulier, de Karl Popper, Objective Knowledge: An Evolutionary Approach. Oxford: Clarendon Press, 1972.

Sur l’IA neuronale contemporaine
– Sur BERT, voir: https://en.wikipedia.org/wiki/BERT_(language_model) Consulté le 8 août 2021.
– Voir le récent rapport du Center for Research on Foundation Models (CRFM) at the Stanford Institute for Human-Centered Artificial Intelligence (HAI), intitulé On the Opportunities and Risks of Foundation Models et qui commence ainsi: “AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks.” https://arxiv.org/abs/2108.07258
– Sur Open AI https://openai.com/blog/gpt-3-apps/ et https://www.technologyreview.com/2020/08/22/1007539/gpt3-openai-language-generator-artificial-intelligence-ai-opinion/ Sites visités le 16 août 2021.

Sur l’IA symbolique contemporaine
– L’intégration des connaissances existantes dans les systèmes d’IA est un des principaux objectifs du ​​”Wolfram Language” de Stephen Wolfram. Voir https://www.wolfram.com/language/principles/ consulté le 16 août 2021.
– Sur le Web sémantique, voir le site https://www.w3.org/standards/semanticweb/# et https://en.wikipedia.org/wiki/Semantic_Web Consultés le 8 août 2021
–  Sur Wikidata: https://www.wikidata.org/wiki/Wikidata:Main_Page Consulté le 16 août 2021.
– Sur le projet Cyc de Douglas Lenat : ​​https://en.wikipedia.org/wiki/Cyc Consulté le 8 août 2021.

Sur la perspective neuro-symbolique
– “AI Research and Governance Are at a Crossroads” by Dieter Ernst. https://www.cigionline.org/articles/ai-research-and-governance-are-crossroads/ Consulté le 8 août 2021.
–  Neurosymbolic AI: The 3rd Wave, Artur d’Avila Garcez and Luıs C. Lamb, Décembre, 2020 (https://arxiv.org/pdf/2012.05876.pdf) Consulté le 8 août 2021.
– Voir le récent rapport de L’université de Stanford “100 Year Study on AI” qui identifie le courant neuro-symbolique comme une des clés de l’avancement de la discipline.  https://ai100.stanford.edu/ Consulté le 20 septembre 2021.

Sur l’interopérabilité sémantique
– Tous les éditeurs de métadonnées sémantique prétendent à l’interopérabilité, mais il s’agit généralement d’une interopérabilité des formats de fichiers, cette dernière étant effectivement assurée par les standards du Web sémantique (XML, RDF, OWL, etc.). Mais je parle dans ce texte d’interopérabilité des modèles sémantiques proprement dits (on parle de concepts: les catégories et leurs relations). Donc ne pas confondre interopérabilité sémantique et l’interopérabilité des formats. Voir sur ce point: https://pierrelevyblog.com/2021/04/03/esquisse-dun-modele-daffaire-pour-un-changement-de-civilisation/
– Si nécessaire, les modèles rédigés au moyen de l’éditeur IEML peuvent être exportés dans les formats standards de métadonnées sémantiques tels que RDF et JSON-LD.

Sur Chomsky et la syntaxe
– Chomsky, Noam. Syntaxic Structures. The Hague and Paris: Mouton, 1957.
– Chomsky, Noam, and Marcel-Paul Schützenberger. “The Algebraic Theory of Context-Free Languages.” In Computer Programming and Formal Languages. Ed. P. Braffort and D. Hirschberg. Amsterdam: North Holland, 1963. p. 118-161.
– Pour une approche plus philosophique, voir Chomsky, Noam. New Horizons in the Study of Language and Mind. Cambridge, UK: Cambridge UP, 2000.
– Voir aussi mon article sur les fondements linguistiques d’IEML.

Sur les noms propres
– J’adopte ici en gros la position de Saul Kripke, suivie par la majorité des philosophes et grammairiens. Voir, de Saul Kripke, Naming and Necessity, Oxford, Blackwell, 1980. Trad. fr. La logique des noms propres, Paris, Minuit, 1982, (trad. P. Jacob et F. Recanati).
– Voir ma récente entrée de blog à ce sujet.

Pierre Lévy sur IEML
– “Toward a Self-referential Collective Intelligence: Some Philosophical Background of the IEML Research Program.” Computational Collective Intelligence, Semantic Web, Social Networks and Multiagent Systems, ed. Ngoc Than Nguyen, Ryszard Kowalczyk and Chen Shyi-Ming, First International Conference, ICCCI, Wroclaw, Poland, Oct. 2009, proceedings, Berlin-Heidelberg-New York: Springer, 2009, p. 22-35. 
– “The IEML Research Program: From Social Computing to Reflexive Collective Intelligence.” In Information Sciences, Special issue on Collective Intelligence, ed. Epaminondas Kapetanios and Georgia Koutrika, vol. 180, no. 1, Amsterdam: Elsevier, 2 Jan. 2010, p. 71-94.
– Les considérations philosophiques et scientifiques qui m’ont mené à l’invention d’IEML ont été amplement décrites dans La Sphère sémantique. Computation, cognition, économie de l’information. Hermes-Lavoisier, Paris / Londres 2011 (400 p.). Trad. anglaise: The Semantic Sphere. Computation, cognition and information economy. Wiley, 2011. Ce livre contient une nombreuse bibliographie.
– Les principes généraux d’IEML sont résumés dans: https://intlekt.io/ieml/ (consulté le 17 août 2021).
– Sur la grammaire d’IEML, voir: https://intlekt.io/ieml-grammar/ (consulté le 17 août 2021).
– Sur le dictionnaire d’IEML, voir: https://intlekt.io/ieml-dictionary/ (consulté le 17 août 2021).
– Pour une exposition des principes linguistiques à la base d’IEML, voir: https://intlekt.io/the-linguistic-roots-of-ieml/ (consulté le 17 août 2021).

Autres références pertinentes de Pierre Lévy
L’intelligence collective, pour une anthropologie du cyberespace, La Découverte, Paris, 1994. Traduction en anglais par Robert Bonono: Collective Intelligence Perseus Books, Cambridge MA, 1997.
 – “Les systèmes à base de connaissance comme médias de transmission de l’expertise” (knowledge based systems as media for transmission of expertise), in Intellectica  (Paris) special issue on “Expertise and cognitive sciences”, ed. Violaine Prince. 1991. p. 187 to 219.
– J’ai analysé en détail le travail d’ingénierie de la connaissance sur plusieurs cas dans mon livre De la programmation considérée comme un des beaux-arts, La Découverte, Paris, 1992.

Today, artificial intelligence is divided between two major trends: symbolic and statistical. The symbolic branch corresponds to what has been successively called in the last 70 years semantic networks, expert systems, semantic web and more recently, knowledge graphs. Symbolic AI codes human knowledge in the form of networks of relationships between concepts ruled by models and ontologies which give leverage to automatic reasoning. The statistical branch of AI trains algorithms to recognize visual, linguistic or other forms from large masses of data, relying on neural models roughly imitating the learning mode of the brain. Neuro-mimetic artificial intelligence has existed since the beginnings of computer science (see the work of McCulloch and von Foerster) but has only become useful because of the increase in computing power available since 2010. In the early 2020s, these two currents are merging according to a hybrid or neuro-symbolic model which seems very promising. Though many problems still remain, in terms of the consistency and interoperability of metadata.

Big tech companies and a growing number of scientific, economic and social sectors use knowledge graphs. Despite the availability of the WWW Consortium metadata standards for marking classifications and ontologies (RDF, OWL) the different sectors (see the slide below) do not communicate with each other and – even worse – divergent systems of categories and relationships are most often in use within the same domain. The interoperability of metadata standards – such as RDF – only addresses the compatibility of digital files. It should not be confused with true semantic interoperability, which addresses concept architectures and models. In reality, the problem of semantic interoperability has yet to be solved in 2021, and there are many causes for the opacity that plagues digital memory. Natural languages are multiple, informal, ambiguous and changing. Cultures and disciplines tend to divide reality in different ways. Finally, often inherited from the age of print, the numerous metadata systems in place to classify data are incompatible like thesauri, documentary languages, ontologies, taxonomies, folksonomies, sets of tags or hashtags, keywords, etc.

The Conundrum of Semantic Interoperability

There is currently no way to code linguistic meaning in a uniform and computable way, the way we code images using pixels or vectors for instance. To represent meaning, we are still using natural languages which are notoriously multiple, changing and ambiguous. With the notable exception of number notation and mathematical codes, our writing systems are primarily designed to represent sounds. Their representation of categories or concepts is indirect (characters → sound → concepts) and difficult for computers to grasp. Computers can handle syntax (the regular arrangement of characters), but their handling of semantics remains imperfect and laborious. Despite the success of machine translation (Deep L, Google translate) and automatic text generation (GPT3), computers don’t really understand the meaning of the texts they read or write.

Now, how can we resolve the problem of semantic interoperability and progress towards a thorough automatic processing of meaning? Many advances in computer science come from the invention of a relevant coding system making the coded object (number, image, sound, etc.) easily computable. The goal of our company INTLEKT Metadata Inc. has been to make concepts, categories or linguistic meaning systematically computable. In order to solve this problem, we have designed the Information Economy MetaLanguage: IEML. This metalanguage has a compact dictionary of less than 5000 words. IEML words are organized by subject-oriented paradigms and visualized as keyboards. The grammar of this metalanguage is completely regular and embedded in the IEML editor. Thank to this grammar, complex concepts and relations can be recursively constructed by combining simpler ones. It is not a super-ontology (like Cyc) but a programmable language (akin to a computable Esperanto) able to translate any ontology and to connect any possible categories. By using such a semantic code, artificial intelligence could take a giant step forward feeding collective intelligence.  Public health data from all countries would not only be able to communicate with each other, but could also harmonize with economic and social data. Occupational classifications and different international labour market statistics would automatically translate into each other. The AI of smart contracts, international e-commerce and the Internet of Things would exchange data and execute instructions based on automatic reasoning. Government statistics, national libraries, major museums and digital humanities research would feed into each other. On the machine learning side, we would reach a system of uniform and precise labels and annotations that would help AI to become more ethical, transparent, and efficient. A common semantic code would make it finally possible to achieve a de-fragmentation of the global memory and an integration of symbolic and statistical AI. The only price to pay for reaching neuro-symbolic collective intelligence would be a concerted effort for training specialists to translate metadata into IEML.

Check our prototype: https://dev.intlekt.io/

  • Once you are on the site, on the top right you can choose between french and english
  • “USL” (Uniform Semantic Locator) allows the search for words and paradigms in the dictionary
  • “Tags” gives you some examples of USLs groups by domain
  • If you are in “USL” the search for IEML expressions (instead of natural language translations) is done by typing * at the beginning of the query
  • Type: choose “all”
  • Class: filters nouns verbs or auxiliaries
  • Cardinality: choose “root” paradigms (big tables, or multi-tables paradigms), or the (small) tables, or singular = individual words. It is recommended to explore the dictionary by “roots”
  • When you click on a search result, the corresponding paradigm appears on the right.
  • The right panel present certain relations according to the selected words.

IEML is patented (provisional: US 63/124,924) and belongs to INTLEKT Metadata Inc.

More than 60% of the human population is connected to the Internet, most sectors of activity have switched to digital and software drives innovation. Yet Internet standards and protocols were invented at a time when less than one percent of the population was connected. It is time to use the data flows, the available computing power and the possibilities of interactive communication for human development… and to solve the serious problems we are facing. That is why I will launch soon a major international project – comparable to the construction of a cyclotron or a voyage to Mars – aiming at an augmentation of the Internet in the service of collective intelligence.

This project has several interrelated objectives: 

  • Decompartmentalize digital memory and ensure its semantic (linguistic, cultural and disciplinary) interoperability.
  • Open up indexing modes and maximize the diversity of interpretations of the digital memory.
  • Make communication between machines, but also between humans and machines, more fluid in order to enforce our collective mastery of the Internet of Things, intelligent cities, robots, autonomous vehicles, etc.
  • Establish new forms of modeling and reflexive observation of human collective intelligence on the basis of our common memory.

IEML

The technical foundation of this project is IEML (Information Economy MetaLanguage), a semantic metadata system that I invented with support from the Canadian federal government. IEML has :

  • the expressive power of a natural language, 
  • the syntax of a regular language, 
  • calculable semantics aligned with its syntax.

IEML is exported in RDF and is based on Web standards. IEML concepts are called USLs (Uniform Semantic Locators). They can be read and translated into any natural language. Semantic ontologies – sets of USLs linked by a network of relationships – are interoperable by design. IEML establishes a virtual knowledge base that feeds both automatic reasoning and statistical calculations. In short, IEML fulfills the promise of the Semantic Web through its computable meaning and interoperable ontologies.

For a short description of the IEML grammar, click here.

Intlekt

The URLs system and the http standard only become useful through a browser. Similarly, the new IEML-based semantic addressing system for the Internet requires a special application, called Intlekt, whose technical project manager is Louis van Beurden. Intlekt is a collaborative and distributed platform that supports concept editing, data curation and new forms of search, data mining and data visualization. 

Intlekt empowers the edition and publishing of semantic ontologies – sets of linked concepts – related to a field of practice or knowledge. These ontologies can be original or translate existing semantic metadata such as: thesauri, documentary languages, ontologies, SKOS taxonomies, folksonomies, sets of tags or hashtags, keywords, column and row headings, etc. Published semantic ontologies augment a dictionary of concepts, which can be considered as an open meta-ontology

Intlekt is also a data curation tool. It enables editing, indexing in IEML and publishing data collections that feed a common knowledge base. Eventually, statistical algorithms will be used to automate the semantic indexing of data.

Finally, Intlekt exploits the properties of IEML to allow new forms of search, automatic reasoning and simulation of complex systems.

Special applications can be imagined in many areas, like:

  • the preservation of cultural heritage, 
  • research in the humanities (digital humanities), 
  • education and training
  • public health, 
  • informed democratic deliberation, 
  • commercial transactions, 
  • smart contracts, 
  • the Internet of things, 
  • and so on…

And now, what?

Where do we stand on this project in the summer of 2020? After many tests over several years, IEML’s grammar has stabilized, as well as the base of morphemes of about 5000 units which enables any concept to be built at will. I tested positively the expressive possibilities of the language in several fields of humanities and earth sciences. Nevertheless, at the time of writing, the latest state of the grammar is not yet implemented. Moreover, to obtain a version of Intlekt that enables the semantic ontology editing, data curation and data mining functions described above, a team of several programmers working for one year is needed. In the coming months, the friends of IEML will be busy pursuing this critical mass. 

Come and join us!

For more information, see: https://pierrelevyblog.com/my-research-in-a-nutshell/ and https://pierrelevyblog.com/my-research-in-a-nutshell/the-basics-of-ieml/

IEML (the Information Economy Meta Language) has four main directions of research and development in 2019: in mathematics, data science, linguistics and software development. This blog entry reviews them successively.

1- A mathematical research program

I will give here a philosophical description of the structure of IEML, the purpose of the mathematical research to come being to give a formal description and to draw from this formalisation as much useful information as possible on the calculation of relationships, distances, proximities, similarities, analogies, classes and others… as well as on the complexity of these calculations. I had already produced a formalization document in 2015 with the help of Andrew Roczniak, PhD, but this document is now (2019) overtaken by the evolution of the IEML language. The Brazilian physicist Wilson Simeoni Junior has volunteered to lead this research sub-program.

IEML Topos

The “topos” is a structure that was identified by the great mathematician Alexander Grothendieck, who “is considered as the re-founder of algebraic geometry and, as such, as one of the greatest mathematicians of the 20th century” (see Wikipedia).

Without going into technical details, a topos is a bi-directional relationship between, on the one hand, an algebraic structure, usually a “category” (intuitively a group of transformations of transformation groups) and, on the other hand, a spatial structure, which is geometric or topological. 

In IEML, thanks to a normalization of the notation, each expression of the language corresponds to an algebraic variable and only one. Symmetrically, each algebraic variable corresponds to one linguistic expression and only one. 

Topologically, each variable in IEML algebra (i.e. each expression of the language) corresponds to a “point”. But these points are arranged in different nested recursive complexity scales: primitive variables, morphemes of different layers, characters, words, sentences, super-phrases and texts. However, from the level of the morpheme, the internal structure of each point – which comes from the function(s) that generated the point – automatically determines all the semantic relationships that this point has with the other points, and these relationships are modelled as connections. There are obviously a large number of connection types, some very general (is contained in, has an intersection with, has an analogy with…) others more precise (is an instrument of, contradicts X, is logically compatible with, etc.).

The topos that match all the expressions of the IEML language with all the semantic relationships between its expressions is called “The Semantic Sphere”.

Algebraic structure of IEML

In the case of IEML, the algebraic structure is reduced to 

  • 1. Six primitive variables 
  • 2. A non-commutative multiplication with three variables (substance, attribute and mode). The IEML multiplication is isomorphic to the triplet ” departure vertex, arrival vertex, edge ” which is used to describe the graphs.
  • 3. A commutative addition that creates a set of objects.

This algebraic structure is used to construct the following functions and levels of variables…

1. Functions using primitive variables, called “morpheme paradigms”, have as inputs morphemes at layer n and as outputs morphemes at layer n+1. Morpheme paradigms include additions, multiplications, constants and variables and are visually presented in the form of tables in which rows and columns correspond to certain constants.

2. “Character paradigms” are complex additive functions that take morphemes as inputs and characters as outputs. Character paradigms include a group of constant morphemes and several groups of variables. A character is composed of 1 to 5 morphemes arranged in IEML alphabetical order. (Characters may not include more than five morphemes for cognitive management reasons).

3. IEML characters are assembled into words (a substance character, an attribute character, a mode character) by means of a multiplicative function called a “word paradigm”. A word paradigm intersects a series of characters in substance and a series of characters in attribute. The modes are chosen from predefined auxiliary character paradigms, depending on whether the word is a noun, a verb or an auxiliary. Words express subjects, keywords or hashtags. A word can be composed of only one character.

4. Sentence building functions assemble words by means of multiplication and addition, with the necessary constraints to obtain grammatical trees. Mode words describe the grammatical/semantic relationships between substance words (roots) and attribute words (leaves). Sentences express facts, proposals or events; they can take on different pragmatic and logical values.

5. Super-sentences are generated by means of multiplication and addition of sentences, with constraints to obtain grammatical trees. Mode sentences express relationships between substance sentences and attribute sentences. Super-sentences express hypotheses, theories or narratives.

6. A USL (Uniform Semantic Locator) or IEML text is an addition (a set) of words, sentences and super-sentences. 

Topological structure of IEML: a semantic rhizome

Static

The philosophical notion of rhizome (a term borrowed from botany) was developed on a philosophical level by Deleuze and Guattari in the preface to Mille Plateaux (Minuit 1980). In this Deleuzo-Guattarian lineage, by rhizome I mean here a complex graph whose points or “vertices” are organized into several levels of complexity (see the algebraic structure) and whose connections intersect several regular structures such as series, tree, matrix and clique. In particular, it should be noted that some structures of the IEML rhizome combine hierarchical or genealogical relationships (in trees) with transversal or horizontal relationships between “leaves” at the same level, which therefore do not respect the “hierarchical ladder”. 

Dynamic

We can distinguish the abstract, or virtual, rhizomatic grid drawn by the grammar of the language (the sphere to be dug) and the actualisation of points and relationships by the users of the language (the dug sphere of chambers and galleries).  Characters, words, sentences, etc. are all chambers in the centre of a star of paths, and the generating functions establish galleries of “rhizomatic” relationships between them, as many paths for exploring the chambers and their contents. It is therefore the users, by creating their lexicons and using them to index their data, communicate and present themselves, who shape and grow the rhizome…

Depending on whether circuits are more or less used, on the quantity of data or on the strength of interactions, the rhizome undergoes – in addition to its topological transformations – various types of quantitative or metric transformations. 

* The point to remember is that IEML is a language with calculable semantics because it is also an algebra (in the broad sense) and a complex topological space. 

* In the long term, IEML will be able to serve as a semantic coordinate system for the information world at large.

2 A research program in data science

The person in charge of the data science research sub-program is the software engineer (Eng. ENSIMAG, France) Louis van Beurden, who holds also a master’s degree in data science and machine translation from the University of Montréal, Canada. Louis is planning to complete a PhD in computer science in order to test the hypothesis that, from a data science perspective, a semantic metadata system in IEML is more efficient than a semantic metadata system in natural language and phonetic writing. This doctoral research will make it possible to implement phases A and B of the program below and to carry out our first experiment.

Background information

The basic cycle in data science can be schematized according to the following loop:

  • 1. selection of raw data,
  • 2. pre-processing, i.e. cleaning data and metadata imposition (cataloguing and categorization) to facilitate the exploitation of the results by human users,
  • 3. statistical processing,
  • 4. visual and interactive presentation of results,
  • 5. exploitation of the results by human users (interpretation, storytelling) and feedback on steps 1, 2, 3

Biases or poor quality of results may have several causes, but often come from poor pre-treatment. According to the old computer adage “garbage in, garbage out“, it is the professional responsibility of the data-scientists to ensure the quality of the input data and therefore not to neglect the pre-processing phase where this data is organized using metadata.

Two types of metadata can be distinguished: 1) semantic metadata, which describes the content of documents or datasets, and 2) ordinary metadata, which describes authors, creation dates, file types, etc. Let us call “semantic pre-processing” the imposition of semantic metadata on data.

Hypothesis

Since IEML is a univocal language and the semantic relationships between morphemes, words, sentences, etc. are mathematically computable, we assume that a semantic metadata system in IEML is more efficient than a semantic metadata system in natural language and phonetic writing. Of course, the efficiency in question is related to a particular task: search, data analysis, knowledge extraction from data, machine learning, etc.

In other words, compared to a “tokenization” of semantic metadata in phonetic writing noting a natural language, a “tokenization” of semantic metadata in IEML would ensure better processing, better presentation of results to the user and better exploitation of results. In addition, semantic metadata in IEML would allow datasets that use different languages, classification systems or ontologies to be de-compartmentalized, merged and compared.

Design of the first experience

The ideal way to do an experiment is to consider a multi-variable system and transform only one of the system variables, all other things being equal. In our case, it is only the semantic metadata system that must vary. This will make it easy to compare the system’s performance with one (phonetic tokens) or the other (semantic tokens) of the semantic metadata systems.

  • – The dataset of our first experience encompasses all the articles of the Sens Public scientific journal.
  • – Our ordinary metadata are the author, publication date, etc.
  • – Our semantic metadata describe the content of articles.
  •     – In phonetic tokens, using RAMEAU categories, keywords and summaries,
  •     – In IEML tokens by translating phonetic tokens.
  • – Our processes are “big data” algorithms traditionally used in natural language processing 
  •     – An algorithm for calculating the co-occurrences of keywords.
  •     – A TF-IDF (Term Frequency / Inverse Document Frequency) algorithm that works from a word / document matrix.
  •     – A clustering algorithm based on “word embeddings” of keywords in articles (documents are represented by vectors, in a space with as many dimensions as words).
  • – A user interface will offer a certain way to access the database. This interface will be obviously adapted to the user’s task (which remains to be chosen, but could be of the “data analytics” type).
  • Result 1 corresponds to the execution of the “machine task”, i.e. the establishment of a connection network on the articles (relationships, proximities, groupings, etc.). We’ll have to compare….
  •     – result 1.1 based on the use of phonetic tokens with 
  •     – result 1.2 based on the use of IEML tokens.
  • Result 2 corresponds to the execution of the selected user-task (data analytics, navigation, search, etc.). We’ll have to compare….
  •     – result 2.1, based on the use of phonetic tokens, with 
  •     – result 2.2, based on the use of IEML tokens.

Step A: First indexing of a database in IEML

Reminder: the data are the articles of the scientific journal, the semantic metadata are the categories, keywords and summaries of the articles. From the categories, keywords and article summaries, a glossary of the knowledge area covered by the journal is created, or a sub-domain if it turns out that the task is too difficult. It should be noted that in 2019 we do not yet have the software tools to create IEML sentences and super-phrases that allow us to express facts, proposals, theories, narratives, hypotheses, etc. Phrases and super-phrases, perhaps accessible in a year or two, will therefore have to wait for a later phase of the research.

The creation of the glossary will be the work of a project community, linked to the editors of Sens-Public magazine and the Canada Research Chair in Digital Writing (led by Prof. Marcello Vitali-Rosati) at the Université de Montréal (Digital Humanities). Pierre Lévy will accompany this community and help it to identify the constants and variables of its lexicon. One of the auxiliary goals of the research is to verify whether motivated communities can appropriate IEML to categorize their data. Once we are satisfied with the IEML indexing of the article database, we will proceed to the next step.

Step B: First experimental test

  • 1. The test is determined to measure the difference between results based on phonetic tokens and results based on IEML tokens. 
  • 2. All data processing operations are carried out on the data.
  • 3. The results (machine tasks and user tasks) are compared with both types of tokens.

The experiment can eventually be repeated iteratively with minor modifications until satisfactory results are achieved.

If the hypothesis is confirmed, we proceed to the next step

Step C: Towards an automation of semantic pre-processing in IEML.

If the superior efficiency of IEML tokens for semantic metadata is demonstrated, then there will be a strong interest in maximizing the automation of IEML semantic pre-processing

The algorithms used in our experiment are themselves powerful tools for data pre-processing, they can be used, according to methods to be developed, to partially automate semantic indexing in IEML. The “word embeddings” will make it possible to study how IEML words are correlated with the natural language lexical statistics of the articles and to detect anomalies. For example, we will check if similar USLs (a USL is an IEML text) point to very different texts or if very different texts have similar USLs. 

Finally, methods will be developed to use deep learning algorithms to automatically index datasets in IEML.

Step D: Research and development perspective in Semantic Machine Learning

If step C provides the expected results, i.e. methods using AI to automate the indexing of data in IEML, then big data indexed in IEML will be available.  As progress will be made, semantic metadata may become increasingly similar to textual data (summary of sections, paragraphs, sentences, etc.) until translation into IEML is achieved, which remains a distant objective.

The data indexed in IEML could then be used to train artificial intelligence algorithms. The hypothesis that machines learn more easily when data is categorized in IEML could easily be validated by experiments of the same type as described above, by comparing the results obtained from training data indexed in IEML and the results obtained from the same data indexed in natural languages.

This last step paves the way for a better integration of statistical AI and symbolic AI (based on facts and rules, which can be expressed in IEML).

3 A research program in linguistics, humanities and social sciences

Introduction

The semiotic and linguistic development program has two interdependent components:

1. The development of the IEML metalanguage

2. The development of translation systems and bridges between IEML and other sign systems, in particular… 

  •     – natural languages,
  •     – logical formalisms,
  •     – pragmatic “language games” and games in general,
  •     – iconic languages,
  •     – artistic languages, etc.

This research and development agenda, particularly in its linguistic dimension, is important for the digital humanities. Indeed, IEML can serve as a system of semantic coordinates of the cultural universe, thus allowing the humanities to cross a threshold of scientific maturity that would bring their epistemological status closer to that of the natural sciences. Using IEML to index data and to formulate assumptions would result in….

  • (1) a de-silo of databases used by researchers in the social sciences and humanities, which would allow for the sharing and comparison of categorization systems and interpretive assumptions;
  • (2) an improved analysis of data.
  • (3) The ultimate perspective, set out in the article “The Role of the Digital Humanities in the New Political Space” (http://sens-public.org/article1369.html in French), is to aim for a reflective collective intelligence of the social sciences and humanities research community. 

But IEML’s research program in the perspective of the digital humanities – as well as its research program in data science – requires a living and dynamic semiotic and linguistic development program, some aspects of which I will outline here.

IEML and the Meaning-Text Theory

IEML’s linguistic research program is very much based on the Meaning-Text theory developed by Igor Melchuk and his school. “The main principle of this theory is to develop formal and descriptive representations of natural languages that can serve as a reliable and convenient basis for the construction of Meaning-Text models, descriptions that can be adapted to all languages, and therefore universal. ”(Excerpt translated from the Wikipedia article on Igor Melchuk). Dictionaries developed by linguists in this field connect words according to universal “lexical functions” identified through the analysis of many languages. These lexical functions have been formally transposed into the very structure of IEML (See the IEML Glossary Creation Guide) so that the IEML dictionary can be organized by the same tools (e.g. Spiderlex) as those of the Meaning-Text Theory research network. Conversely, IEML could be used as a pivot language – or concept description language – *between* the natural language dictionaries developed by the network of researchers skilled in Meaning-Text theory.

Construction of specialized lexicons in the humanities and social sciences

A significant part of the IEML lexicon will be produced by communities having decided to use IEML to mark out their particular areas of knowledge, competence or interaction. Our research in specialized lexicon construction aims to develop the best methods to help expert communities produce IEML lexicons. One of the approaches consists in identifying the “conceptual skeleton” of a domain, namely its main constants in terms of character paradigms and word paradigms. 

The first experimentation of this type of collaborative construction of specialized lexicons by experts will be conducted by Pierre Lévy in collaboration with the editorial team of the Sens Public scientific journal and the Canada Research Chair in Digital Textualities at the University of Montréal (led by Prof. Marcello Vitali-Rosati). Based on a determination of their economic and social importance, other specialized glossaries can be constructed, for example on the theme of professional skills, e-learning resources, public health prevention, etc.

Ultimately, the “digital humanities” branch of IEML will need to collaboratively develop a conceptual lexicon of the humanities to be used for the indexation of books and articles, but also chapters, sections and comments in documents. The same glossary should also facilitate data navigation and analysis. There is a whole program of development in digital library science here. I would particularly like to focus on the human sciences because the natural sciences have already developed a formal vocabulary that is already consensual.

Construction of logical, pragmatic and narrative character-tools

When we’ll have a sentence and super-phrase editor, it is planned to establish a correspondence between IEML – on the one hand – and propositional calculus and first order logics – on the other hand –. This will be done by specifying special character-tools to implement logical functions. Particular attention will be paid to formalizing the definition of rules and the declaration that “facts” are true in IEML. It should be noted in passing that, in IEML, grammatical expressions represent classes, sets or categories, but that logical individuals (proper names, numbers, etc.) or instances of classes are represented by “literals” expressed in ordinary characters (phonetic alphabets, Chinese characters, Arabic numbers, URLs, etc.).

In anticipation of practical use in communication, games, commerce, law (smart contracts), chatbots, robots, the Internet of Things, etc., we will develop a range of character-tools with illocutionary force such as “I offer”, “I buy”, “I quote”, “I give an instruction”, etc.

Finally, we will making it easier for authors of super-sentences by developing a range of character-tools implementing “narrative functions”.

4 A software development program

A software environment for the development and public use of the IEML language

Logically, the first multi-user IEML application will be dedicated to the development of the language itself. This application is composed of the following three web modules.

  • 1. A morpheme editor that also allows you to navigate in the morphemes database, or “dictionary”.
  • 2. A character and word editor that also allows navigation in the “lexicon”.
  • 3. A navigation and reading tool in the IEML library as a whole, or “IEML database” that brings together the dictionary and lexicon, with translations, synonyms and comments in French and English for the moment.

The IEML database is a “Git” database and is currently hosted by GitHub. Indeed, a Git database makes it possible to record successive versions of the language, as well as to monitor and model its growth. It also allows large-scale collaboration among teams capable of developing specific branches of the lexicon independently and then integrating them into the main branch after discussion, as is done in the collaborative development of large software projects. As soon as a sub-lexicon is integrated into the main branch of the Git database, it becomes a “common” usable by everyone (according to the latest General Public License version.

Morpheme and word editors are actually “Git clients” that feed the IEML database. A first version of this collaborative read-write environment should be available in the fall of 2019 and then tested by real users: the editors of the Scientific Journal “Sens Public” as well as other participants in the University of Montréal’s IEML seminar.

The following versions of the IEML read/write environment should allow the editing of sentences and texts as well as literals that are logical individuals not translated into IEML, such as proper names, numbers, URLs, etc.

A social medium for collaborative knowledge management

A large number of applications using IEML can be considered, both commercial and non-commercial. Among all these applications, one of them seems to be particularly aligned with the public interest: a social medium dedicated to collaborative knowledge and skills management. This new “place of knowledge” could allow the online convergence of the missions of… 

  • – museums and libraries, 
  • – schools and universities, 
  • – companies and administrations (with regard to their knowledge creation and management dimension), 
  • – smart cities, employment agencies, civil society networks, NGO, associations, etc.

According to its general philosophy, such a social medium should…

  • – be supported by an intrinsically distributed platform, 
  • – have the simplicity – or the economy of means – of Twitter,
  • – ensure the sovereignty of users over their data,
  • – promote collaborative processes.

The main functions performed by this social medium would be:

  • – data curation (reference and categorization of web pages, edition of resource collections), 
  • – teaching offers and learning demands,
  • – offers and demands for skills, or employment market.

IEML would serve as a common language for

  • – data categorization, 
  • – description of the knowledge and skills, 
  • – the expression of acts within the social medium (supply, demand, consent, publish, etc.)
  • – addressing users through their knowledge and skills.

Three levels of meaning would thus be formalized in this medium.

  • (1) The linguistic level in IEML  – including lexical and narrative functions – formalizes what is spoken about (lexicon) and what is said (sentences and super-phrases).
  • – (2) The logical – or referential – level adds to the linguistic level… 
  •     – logical functions (first order logic and propositional logic) expressed in IEML using logical character-tools,
  •     – the ability of pointing to references (literals, document URLs, datasets, etc.),
  •     – the means to express facts and rules in IEML and thus to feed inference engines.
  • – (3) The pragmatic level adds illocutionary functions and users to the linguistic and logical levels.
  •     – Illocutionary functions (thanks to pragmatic character-tools) allow the expression of conventional acts and rules (such as “game” rules). 
  •     – The pragmatic level obviously requires the consideration of players or users, as well as user groups.
  •     – It should be noted that there is no formal difference between logical inference and pragmatic inference but only a difference in use, one aiming at the truth of propositions according to referred states of things, the other calculating the rights, obligations, gains, etc. of users according to their actions and the rules of the games they play.

The semantic profiles of users and datasets will be arranged according to the three levels that have just been explained. The “place of knowledge” could be enhanced by the use of tokens or crypto-currencies to reward participation in collective intelligence. If successful, this type of medium could be generalized to other areas such as health, democratic governance, trade, etc.

KUO CHENG LIAO-IA-CI

Image: Kuo Cheng Liao (found here).

Je voudrais répondre dans cette petite entrée de blog à quelques questions qui m’ont été posées par des amis Turcs (du site Çeviri Konusmalar) au sujet de l’intelligence artificielle et de l’autonomie des machines. Voir ici sur Twitter…

Un des rôles de la philosophie est de catégoriser l’expérience humaine de façon à réduire le plus possible l’illusion, ou si l’on préfère à trouver les concepts qui vont nous permettre de comprendre notre situation et de mieux guider notre action. Cela amène souvent les philosophes à contredire l’opinion courante. Aujourd’hui cette opinion est propagée par le journalisme et la fiction. Aussi bien les journalistes que les auteurs de roman ou de série TV présentent les robots ou l’intelligence artificielle comme capable d’autonomie et de conscience, que ce soit dès maintenant ou dans un futur proche. Cette représentation est à mon avis fausse, mais elle fonctionne très bien parce qu’elle joue…

  • ou bien sur la peur d’être éliminé ou asservi par des machines (sensationnalisme ou récit dystopique),
  • ou bien sur l’espoir que l’intelligence artificielle va nous aider magiquement à résoudre tous nos problèmes ou – pire – qu’elle représenterait une espèce plus avancée que l’homme (dans le cas de certaines publicités ou d’utopies naïves).

Dans les deux cas, espoir ou peur, le ressort principal est la passion, l’émotion, et non pas une compréhension exacte de ce que c’est que le traitement automatique de l’information et du rôle qu’il joue dans l’intelligence humaine.

Afin de recadrer cette question de l’autonomie des machines, je voudrais répondre ici le plus simplement possible à trois questions:

  1. Qu’est-ce que l’intelligence humaine?
  2. Qu’est-ce que l’informatique, ou les machines à traiter l’information?
  3. Est-ce que les machines peuvent devenir autonomes?

Qu’est-ce que c’est que l’Intelligence humaine?

D’abord il faut reconnaître que les humains sont des animaux et que les animaux ont déjà des capacité de mémoire, de représentation interne des situations, de résolution de problèmes, d’apprentissage, etc. Les animaux sont des êtres sensibles, qui ressentent attraction et répulsion, plaisir et douleur, voire empathie. Les plus plus intelligents d’entre eux ont la capacité de transmettre certaines connaissances acquises dans l’expérience à leur progéniture, d’utiliser des outils, etc. Ensuite, l’intelligence animale se manifeste de manière particulièrement frappante sur un plan collectif ou social et, pour ce qui nous intéresse, notamment chez les primates (les grands singes), dont nous faisons partie. Les primates ont des structures sociales avec des rôles sociaux fort différenciés et des stratégies collectives élaborées pour se défendre, se nourrir, contrôler leur territoire, etc. Nous partageons bien sûr toute cette intelligence animale. Mais nous avons en plus la manipulation symbolique.

Ce qui différencie l’intelligence humaine de l’intelligence animale c’est d’abord et avant tout l’usage du langage et des systèmes symboliques. Un système symbolique c’est un moyen de communication et de pensée dont les éléments – les symboles – ont deux aspects: un aspect sensible (visible, audible) et un aspect invisible, abstrait, la catégorie générale. Et le rapport entre le signifiant sensible – le son – et le signifié intelligible – le sens – est conventionnel, décidé par la société. Il n’y a aucune autre raison que la convention et l’usage pour que le concept de raison, par exemple, se représente par les deux syllabes et zon en français, et la preuve c’est que ça se dit autrement dans d’autres langues. Tous les animaux communiquent mais seuls les êtres humains parlent, posent des questions, reconnaissent leur ignorance, dialoguent et surtout racontent des histoires. L’usage du langage donne aux humains non pas la conscience (que les autres animaux ont déjà), mais la conscience réflexive. La capacité de réfléchir sur les concepts nous est donnée par la manipulation des symboles.

Avec cette capacité de manipulation symbolique et cette réflexivité viennent deux caractéristiques spéciales de l’humanité: les systèmes techniques et les institutions sociales, tous deux d’une grande complexité et en constante évolution historique.

Une énorme partie de l’intelligence humaine est réifiée dans l’environnement technique et vécue dans des institutions sociales (rituels, politique, droit, religion, morale, etc.). La partie individuelle de notre intelligence est marginale, mais essentielle, c’est elle qui nous permet d’innover, de progresser et d’améliorer notre condition.

Qu’est-ce que l’informatique, ou le traitement automatique de l’information?

L’intelligence artificielle est une expression de type « marketing » pour designer en fait la zone la plus avancée et toujours en mouvement des techniques de traitement de l’information.

Quand je dis que l’intelligence humaine a toujours été artificielle, je ne veux pas dire que les humains sont des robots ou des machines, je veux dire que les humains ont toujours utilisé des procédés techniques pour augmenter leur intelligence, qu’il s’agisse de l’intelligence personnelle ou collective. L’écriture nous a donné le moyen d’étendre notre mémoire individuelle et nos capacités critiques. Aujourd’hui l’Internet nous permet un accès rapide à une quantité d’information que nos ancêtres n’auraient jamais pu imaginer. Mais ce n’est pas seulement une question de mémoire, nous avons aussi des capacités de calcul, de simulation de systèmes complexes, d’analyse automatique des données, voire de raisonnement automatique qui amplifient les capacités cognitives “purement biologiques” des premiers homo sapiens. Nous avons le même cerveau que les hommes préhistoriques, avec la même capacité de manipuler les symboles et de raconter des histoires, mais nous avons en plus un énorme appareillage d’enregistrement, de communication et de traitement des symboles qu’ils n’avaient pas et qui se branche sur la partie purement biologique de notre intelligence.

L’informatique, le traitement automatique des données, avec sa pointe avancée et mouvante qu’on appelle l’intelligence artificielle, est apparue dans la seconde moitié du 20e siècle, mais elle poursuit un effort multi-séculaire d’augmentation cognitive qui a commencé avec l’écriture, s’est poursuivi avec le perfectionnement des systèmes de codage de la connaissance, la notation des nombres par position et le 0, l’imprimerie et les médias électriques…

La partie névralgique du nouvel appareillage de traitement automatique des symboles se trouve aujourd’hui dans d’énormes centres de calculs qu’on appelle le “cloud” et dont nos ordinateurs et smartphones ne sont que des terminaux. Mais dans ce réseau de machines, le traitement automatique des données se fait uniquement sur la forme sensible des symboles, sur le signifiant ramené à des zeros et des uns. Les ordinateurs n’ont pas accès au signifié, au sens.

Puisqu’on m’interroge sur le machine learning, oui, parmi toutes les techniques de calcul utilisées aujourd’hui par les ingénieurs en informatique, le machine learning, et le deep learning qui en est un cas particulier, sont en plein développement depuis une dizaine d’années. Mais il faut se garder d’attribuer à l’apprentissage automatique plus qu’il ne peut donner. Il s’agit essentiellement d’algorithmes de traitement statistique auxquels on soumet en entrée d’énormes masses de données et qui produisent en sortie des modèles de reconnaissance de formes ou d’action qui sont “appris” des données. Or non seulement l’apprentissage machine dépend des algorithmes qui sont programmés et continuellement débogués par des humains, mais en plus ses résultats en sortie dépendent des masses de données qui leur sont fournies en entrée. Or ce sont encore des humains qui choisissent les données, les filtrent, les classent, les catégorisent, les organisent, les interprètent, etc. Aussi bien les approches logiques que les approches statistiques de l’intelligence artificielle condensent dans des machines logicielles et matérielles des connaissances et des finalités humaines. Leur autonomie, si autonomie il y a, ne peut être que locale et momentanée. A moyen et long terme, les machines ne peuvent évoluer qu’avec nous et vice versa: nous ne pouvons évoluer qu’avec elles.

La question de l’autonomie des machines

Le traitement automatique des données prolonge l’ensemble du système technique contemporain et il baigne dedans. Il est totalement dépendant de la production d’énergie, de la distribution d’électricité, de la production des matériaux, etc. On ne peut absolument pas imaginer le système technique contemporain sans l’informatique mais pas non plus l’informatique sans toute cette infrastructure technique.

De la même manière, le système technique s’effondrerait rapidement si les humains disparaissaient. Notre environnement technique est conçu, construit, utilisé, entretenu, réparé, interprété par des humains: il n’a aucune autonomie d’aucune sorte.

la technique nous *apparaît* autonome parce que nous projetons sur elle les effets émergents des interactions sociales et des inerties socio-techniques que nous ne pouvons pas contrôler à l’échelle individuelle. Nous avons tendance à réifier les effets de nombreuses décisions et actions humaines agrégées dans les machines et à prêter aux machines une volonté propre. Mais c’est une illusion. Une illusion qui nous décharge de nos responsabilités personnelles et collectives: “c’est la faute de la machine”.

Qu’on utilise une interface pseudo-humaine ou des robots androïdes autant qu’on veut, mais c’est un artifice, un décor. Le robot ou la machine est toujours susceptible d’être éteint ou débranché, quant à son logiciel dans le cloud, il doit sans cesse être déboggué et de nouvelles versions doivent être téléchargées périodiquement. Pour moi, cette idée de la machine autonome relève du fétichisme : on donne une personnalité à un appareil qui n’est pas un être sensible et qui a été – encore une fois – conçu, fabriqué, marqueté, vendu, utilisé, réparé et qui va finalement être jeté à la poubelle au profit d’un nouveau modèle.

Nous avons des machines capables de traitement automatique des symboles. Et nous ne les avons que depuis moins d’un siècle. A l’échelle de l’évolution historique, trois ou quatre générations, ce n’est presque rien. A la fin du XXe siècle, 1% de la population humaine avait accès à l’Internet et le Machine Learning était confiné dans des laboratoires scientifiques. Aujourd’hui plus de 60% de la population est branchée et le machine learning s’applique à grande échelle aux données entreposées dans le cloud. Face à cette mutation si rapide, nous avons la responsabilité d’orienter, autant que possible, le développement technique, social et culturel. Plutôt que de s’égarer dans le fantasme de la machine qui prend le pouvoir, pour le meilleur ou pour le pire, Il me semble beaucoup plus intéressant d’utiliser les machines pour une augmentation de l’intelligence humaine, intelligence à la fois personnelle et collective. C’est plutôt dans cette direction qu’il faut travailler parce que c’est la seule qui soit utile et raisonnable. Et c’est d’ailleurs ce que font en silence les principaux industriels du secteur, même si la “singularité” attire plus l’attention des foules.

Si vous visez le divin, ou le dépassement, ne tentez pas de remplacer l’homme par une machine prétendument consciente et ne craignez pas non plus un tel remplacement, parce qu’il est impossible. Ce qui est peut-être possible, en revanche, est un état de la technique et de la civilisation dans lequel l’intelligence collective humaine pourra s’observer scientifiquement, déployer et cultiver sa complexité inepuisable dans le miroir numérique. Faire travailler les machines à l’emergence d’une intelligence collective réflexive, un pas apres l’autre…

Pas une pipe

This blog post offers a simple guide to the landscape of signification in language. We’ll begin by distinguishing the numerous elements that construct meaning. We’ll start by having a look at signs, and how they are everywhere in communication between living beings and how a sign is different from a symbol for instance. A symbol is a special kind of sign unique to humans, that folds into a signifier (a sound, an image, etc.) and a signified (a category or a concept). We’ll learn that the relationship between a signifier and a signified is conventional. A bit further, I’ll explain the workings of language, our most powerful symbolic system. I will review successively what grammar is: the recursive construction of sense units; semantics: the relations between these units; and pragmatics: the relations between speech, reference and social context. I’ll end this chapter by recalling some of the problems in fields of natural language processing (NLP).

Sign, symbol, language

Sign

Meaning involves at least three actors playing distinct roles. A sign (1) is a clue, a trace, an image, a message or a symbol (2) that means something (3) for someone.

A sign may be an entity or an event. What makes it a sign is not its intrinsic properties but the role it plays in meaning. For example, an individual can be the subject (thing) of a conversation, the interpreter of a conversation (being) or he can be a clue in an investigation (sign).

A thing, designated by a sign, is often called the object or referent, and – again –what makes it a referent is not its intrinsic properties but the role it plays in the triadic relation.

A being is often called the subject or the interpreter. It may be a human being, a group, an animal, a machine or whatever entity or process endowed with self-reference (by distinguishing self from the environment) and interpretation. The interpreter always takes the context into account when it interprets a sign. For example, a puppy (being) understands that a bite (sign) from its playful sibling is part of a game (thing) and may not be a real threat in the context.

Generally speaking, communication and signs exist for any living organisms. Cells can recognize concentrations of poison or food from afar, plants use their flowers to trick insects and birds into their reproductive processes. Animals – organisms with brains or nervous systems – practice complex semiotic games that include camouflage, dance and mimicries. They acknowledge, interpret and emit signs constantly. Their cognition is complex: the sensorimotor cycle involves categorization, feeling, and environmental mapping. They learn from experience, solve problems, communicate and social species manifest collective intelligence. All these cognitive properties imply the emission and interpretation of signs. When a wolf growls, no need to add a long discourse, a clear message is sent to its adversary.

Symbol

A symbol is a sign divided into two parts: the signifier and the signified. The signified (virtual) is a general category, or an abstract class, and the signifier (actual) is a tangible phenomenon that represents the signified. A signifier may be a sound, a black mark on white paper, a trace or a gesture. For example, let’s take the word “tree” as a symbol. It is made of: 1) a signifier sound voicing the word “tree”, and 2) a signified concept that means it is part of the family of perennial plants with roots, trunk, branches, and leaves. The relationship between the signifier and the signified is conventional and depends on which symbolic system the symbol belongs to (in this case, the English language). What we mean by conventional is that in most cases, there is no analogy or causal connection between the sound and the concept: for example, between the sound “crocodile” and the actual crocodile species. We use different signifiers to indicate the same signified in different languages. Furthermore, the concepts symbolized by languages depend on the environment and culture of their speakers.

The signified of the sound “tree” is ruled by the English language and not left to the choice of the interpreter. However, it is in the context of a speech act that the interlocutor understands the referent of the word: is it a syntactic tree, a palm tree, a Christmas tree…? Let’s remember this important distinction: the signified is determined by the language but the referent depends on the context.

Language

A language is a general symbolic system that allows humans to think reflexively, ask questions, tell stories, dialogue and engage in complex social interactions. English, French, Spanish, Arabic, Russian, or Mandarin are all natural languages. Each one of us is biologically equipped to speak and recognize languages. Our linguistic ability is natural, genetic, universal and embedded in our brain. By contrast, any language (like English, French, etc.) is based on a social, conventional and cultural environment; it is multiple, evolving and hybridizing. Languages mix and change according to the transformations of demographic, technological, economic, social and political contexts.

Our natural linguistic abilities multiply our cognitive faculties. They empower us with reflexive thinking, making it easy for us to learn and remember, to plan in the long-term and to coordinate large-scale endeavors. Language is also the basis for knowledge transmission between generations. Animals can’t understand, grasp or use linguistic symbols to their full extent, only humans can. Even the best-trained animals can’t evaluate if a story is false or exaggerated. Koko the famous gorilla will never ask you for an appointment for the first Tuesday of next month, nor will it communicate to you where its grandfather was born. In animal cognition, the categories that organize perception and action are enacted by neural networks. In human cognition, these categories may become explicit once symbolized and move to the forefront of our awareness. Ideas become objects of reflection. With human language comes arithmetic, art, religion, politics, economy, and technology. Compared to other social animal species, human collective intelligence is most powerful and creative when it is supported and augmented by its linguistic abilities. Therefore, when working in artificial intelligence or cognitive computing, it would be paramount to understand and model the functioning of neurons and neurotransmitters common to all animals, as well as the structure and organization of language, unique to our species.

I will now describe briefly how we shape meaning through language. Firstly, we will review what the grammatical units are (words, sentences, etc.). Secondly, we will explore the semantic networks between these units, and thirdly, what are the pragmatic interactions between language and extralinguistic realities.

Grammatical units

A natural language is made of recursively nested units: a phoneme which is an elementary sound, a word, a chain of phonemes, a syntagm, a chain of words and a text, a chain of syntagms. A language has a finite dictionary of words and syntactic rules for the construction of texts. With its dictionary and set of syntactic rules, a language offers its users the possibility to generate – and understand – an infinity of texts.

Phonemes

Humans beings can’t pronounce or recognize several phonemes simultaneously. They can only pronounce one sound at a time. So languages have to obey the constraint of sequentiality. A speech is a chain of phonemes with an acoustic punctuation reflecting its grammatical organization.

Phonemes are meaningless sounds without signification1 and generally divided into consonants and vowels. Some languages also have “click” sounding consonants (in Eastern and Southern Africa) and others (in Chinese Mandarin) use different tones on their vowels. Despite the great diversity of sounds used to pronounce human languages, the number of conventional sounds in a language is limited: the order of magnitude is between thirty and one hundred.

Words

The first symbolic grammatical unit is the word, a signifier with a signified. By word, I mean an atomic unit of meaning. For example, “small” contains one unit of meaning. But “smallest” contains two: “small” (meaning tiny) and “est” (a superlative suffix used at the end of a word indicating the most).

Languages contain nouns depicting structures or entities, and verbs describing actions, events, and processes. Depending on the language, there are other types of words like adjectives, adverbs, prepositions or sense units that orient grammatical functions, such as gender, number, grammatical person, tense and cases.

Now let’s see how many words does a language hold? It depends. The largest English dictionary counts 200,000 words, Latin has 50,000 words, Chinese 30,000 characters and biblical Hebrew amounts to 6,000 words. The French classical author Jean Racine was able to evoke the whole range of human passions and emotions by using only 3,700 words in 13 plays. Most linguists think that whatever the language is, an educated, refined speaker masters about 10,000 words in his or her lifetime.

Sentences

Note that a word alone cannot be true or false. Its signifier points to its signified (an abstract category) and not to a state of things. It is only when a sentence is spoken in a context describing a reality – a sentence with a referent – that it can be true or false.

A syntagm (a topic, sentence, and super-sentence) is a sequence of words organized by grammatical relationships. When we utter a syntagm, we leave behind the abstract dictionary of a language to enter the concrete world of speech acts in contexts. We can distinguish three sub-levels of complexity in a syntagm: the topic, the sentence, and the super-sentence. Firstly, a topic is a super-word that designates a subject, a matter, an object or a process that cannot be described by just a single word, i.e., “history of linguistics”, “smartphone” or “tourism in Canada”. Different languages have diverse rules for building topics like joining the root of a word with a grammatical case (in Latin), or agglutination of words (in German or Turkish). By relating several topics together a sentence brings to mind an event, an action or a fact, i.e., “I bought her a smartphone for her twentieth birthday”. A sentence can be verbal like in the previous example, or nominal like “the leather seat of my father’s car”. Finally, a super-sentence evokes a network of relations between facts or events, like in a theory or a narrative. The relationships between sentences can be temporal (after), spatial (behind), causal (because), logical (therefore) or underline contrasts (but, despite…), and so on.

Texts

The highest grammatical unit is a text: a punctuated sequence of syntagms. The signification of a text comes from the application of grammatical rules by combining its signifieds. The text also has a referent inferred from its temporal, spatial and social context.

In order to construct a mental model of a referent, a reader can’t help but imagine a general intention of meaning behind a text, even when it is produced by a computer program, for instance.

Semantic relationships

When we hear a speech, we are actually transforming a chain of sounds into a semantic network, and from this network, we infer a new mental model of a situation. Conversely, we are able to transform a mental model into the corresponding semantic network and then from this network, back into a sequence of phonemes. Semantics is the back and forth translation between chains of phonemes and semantic networks. Semantic networks themselves are multi-layered and can be broken down into three levels: paradigmatic, syntagmatic and textual.

hierarchy-units-any-language

Figure: Hierarchy of grammatical units and semantic relations

Paradigmatic relationships

In linguistics, a paradigm is a set of semantic relations between words of the same language. They may be etymological, taxonomical relations, oppositions or differences. These relations may be the inflectional forms of a word, like “one apple” and “two apples”. Languages may comprise paradigms to indicate verb tenses (past, present, future) or mode (active, passive). For example, the paradigm for “go” is “go, went, gone”. The notion of paradigm also indicates a set of words which cover a particular functional or thematic area. For instance, most languages include paradigms for economic actions (buy, sell, lend, repay…), or colors (red, blue, yellow…). A speaker may transform a sentence by replacing one word from a paradigm by another from the same paradigm and get a sentence that still makes sense. In the sentence “I bought a car”, you could easily replace “bought” by “sold” because “buy” and “sell” are part of the same paradigm: they have some meaning in common. But in that sentence, you can’t replace “bought” by “yellow” for instance. Two words from the same paradigm may be opposites (if you are buying, you are not selling) but still related (buying and selling can be interchangeable).

Words can also be related when they are in taxonomic relation, like “horse” and “animal”. The English dictionary describes a horse as a particular case of animal. Some words come from ancient words (etymology) or are composed of several words: for example, the word metalanguage is built from “meta” (beyond, in ancient Greek) and “language”.

In general, the conceptual relationships between words from a dictionary may be qualified as paradigmatic.

Syntagmatic relationships

By contrast, syntagmatic relations describe the grammatical connections between words in the same sentence. In the two following sentences: “The gazelle smells the presence of the lion” and “The lion smells the presence of the gazelle”, the set of words are identical but the words “gazelle” and “lion” do not share the same grammatical role. Since those words are inversed in the syntagmatic structure, the sentences have distinct meanings.

Textual relationships

At the text level, which includes several syntagms, we find semantic relations like anaphoras and isotopies. Let’s consider the super-sentence: “If a man has talent and can’t use it, he’s failed.” (Thomas Wolfe). In this quotation “it” is an anaphora for “talent” and “he”, an anaphora for “a man”. When reading a pronoun (it, he), we resolve the anaphora when we know which noun – mentioned in a previous or following sentence – it is referring to. On the other hand, isotopies are recurrences of themes that weave the unity of a text: the identity of heroes (characters), genres (love stories or historical novels), settings, etc. The notion of isotopy also encompasses repetitions that help the listener understand a text.

Pragmatic interactions

Pragmatics weave the triadic relation between signs (symbols, speeches or texts), beings (interpreters, people or interlocutors) and things (referents, objects, reality, extra-textual context). On the pragmatic level of communication, speeches point to – and act upon – a social context. A speech act functions as a move in a game played by its speaker. So, distinct from semantic meaning, that we have analyzed in a previous section, pragmatic meaning would address questions like: what kind of act (an advice, a promise, a blame, a condemnation, etc.) is carried by a speech? Is a speech spoken in a play on a stage or in a real tribunal? The pragmatic meaning of a speech also relates to the actual effects of its utterance, effects that are not always known at the moment of the enunciation. For example: “Did I convince you? Have you kept your word?”. The sense of a speech can only be understood after its utterance and future events can always modify it.

A speech act is highly dependent on cultural conventions, on the identity of speakers and attendees, time and place, etc. By proclaiming: “The session is open”, I am not just announcing that an official meeting is about to start, I am actually opening the session. But I have to be someone relevant or important like the president of that assembly to do so. If I am a janitor and I say: “The session is open”, the act is not performed because I don’t have any legitimacy to open the session.

If an utterance is descriptive, it’s either true or false. In other cases, if an utterance does something instead of describing a state of things, it has a pragmatic force instead of a truth value.

Resolving ambiguities

We have just reviewed the different layers of grammatical, semantic and pragmatic complexity to better understand the meaning of a text. Now, we are going to examine the ambiguities that may arise during the reading or listening of a text in a natural language.

Semantic ambiguities

How do we go from to the sound of a chain of phonemes to the understanding of a text? From a sequence of sounds, we build a multi-layered (paradigmatic, syntagmatic and textual) semantic network. When weaving the paradigmatic layer, we answer questions like: “What is this word? To what paradigm does it belong? Which one of its meanings should I consider?”. Then, we connect words together by answering: “What are the syntagmatic relations between the words in that sentence?”. Finally, we comprehend the text by recognizing the anaphoras and isotopies that connect its sentences. Our understanding of a text is based on this three-layered network of sense units.

Furthermore, ambiguities or uncertainties of meaning in languages can happen on all three levels and can multiply their effects. In the case of homophony, the same sound can point to different words like in “ate” and “eight”. And sometimes, the same word may convey several distinct meanings like in “mole”: (1) a shortsighted mouse-like animal digging underground galleries, (2) an undercover spy, or (3) a pigmented spot or mark on the skin. In the case of synonymy, the same meaning can apply to distinct words like “tiny” and “small”. Amphibologies refer to syntagmatic ambiguities as in: “Mary saw a woman on the mountain with a telescope.” Who is on the mountain? Moreover, who has the telescope? Mary or the woman? On a higher level of complexity, textual relations can be even more ambiguous than paradigmatic and syntagmatic ones because rules for anaphoras and isotopies are loosely defined.

Resolving semantic ambiguities in pragmatic contexts

Human beings don’t always correctly resolve all the semantic ambiguities of a speech, but when they do, it is often because they take into account the pragmatic (or extra-textual) context that is generally implicit. It’s in a context, that deictic symbols like: here, you, me, that one over there, or next Tuesday, take their full meaning. Let’s add that, comparing a text in hand with the author’s corpus, genre, historical period, helps to better discern the meaning of a text. But some pragmatic aspects of a text may remain unknown. Ambiguities can stem from many causes: the precise referents of a speech, the uncertainty of the speaker’s social interactions, the ambivalence or concealment of the speaker’s intentions, and of course not knowing in advance the effects of an utterance.

Problems in natural language processing

Computer programs can’t understand or translate texts with dictionaries and grammars alone. They can’t engage in the pragmatic context of speeches like human beings do to disambiguate texts unless this context is made explicit. Understanding a text implies building and comparing complex and dynamic mental models of text and context.

On the other hand, natural language processing (a sub-discipline of artificial intelligence) compensates for the irregularity of natural languages by using a lot of statistical calculations and deep learning algorithms that have been trained on huge corpora. Depending on its training set, an algorithm can interpret a text by choosing the most probable semantic network amongst those compatible within a chain of phonemes. Imperatively, the results have to be validated and improved by human reviewers.

 

I was happily surprised to be chosen as an “IBM influencer” and invited to the innovation and disruption Forum organized in Toronto the 16th of November to celebrate the 100th anniversary of IBM in Canada. With a handful of other people, I had the privilege to meet with Bryson Koehler the CTO of the IBM Cloud and Watson (Watson is the name given to IBM’s artificial intelligence). That meeting was of great interest to me: I learned a lot about the current state of cloud computing and artificial intelligence.

Robot

Image: Demonstration of a robot at the IBM innovation and disruption forum in Toronto

Contrary to other big tech companies, IBM already existed when I was born in 1956. The company was in the business of computing even before the transistors. IBM adapted itself to electronics and dominated the industry in the era of big central mainframes. It survived the PC revolution when Microsoft and Apple were kings. They navigated the turbulent waters of the social Web despite the might of Google, Facebook, and Amazon. IBM is today one of the biggest players in the market for cloud computing, artificial intelligence and business consulting.

The transitions and transformations in IBM’s history were not only technological but also cultural. In the seventies, when I was a young philosopher and new technology enthusiast, IBM was the epitome of the grey suit, blue tie, black attache-case corporate America. Now, every IBM employee – from the CEO Dino Trevisani to the salesman – wears jeans. IBM used to be the “anti-Apple” company but now everybody has a Mac laptop. Instead of proprietary technology, IBM promotes open-source software. IBM posters advertise an all-inclusive and diverse “you” across the specter of gender, race, and age. Its official management and engineering philosophy is design thinking and, along with the innovative spirit, the greatest of IBM’s virtues is the ability to listen!

Toronto’s Forum was all about innovation and disruption. Innovation is mainly about entrepreneurship: self-confidence, audacity, tenacity, resilience and market orientation. Today’s innovation is “agile”: implement a little bit, test, listen to the clients, learn from your errors, re-implement, etc. As for the disruption, it is inevitable, not only because of the speed of digital transformation but also because of the cultural shifts and the sheer succession of generations. So their argument is fairly simple: instead of being disrupted, be the disruptor! The overall atmosphere of the Forum was positive and inspirational and it was a pleasure to participate.

There were two kinds of general presentations: by IBM clients and by IBM strategists and leaders. In addition, a lot of stands, product demonstrations and informative mini-talks on various subjects enabled the attendees to learn about current issues like e-health and hospital applications, robotics, data management, social marketing, blockchain and so on. One of the highlights of the day was the interview of Arlene Dickinson (a well known Canadian TV personality, entrepreneur, and investor) by Dino Trevisani, the CEO of IBM Canada himself. Their conversation about innovation in Canada today was both instructive and entertaining.

From my point of view as a philosopher specialized in computing, Bryson Koehler (CTO for IBM cloud and Watson) made a wonderful presentation, imbued with simplicity and clarity, yet full of interesting content. Before being an IBMer Bryson worked for the Weather Channel, so he was familiar handling exabytes of data! According to Bryson Koehler, the future is not only the cloud, that is to say, infrastructure and software as a service, but also in the “cloud-native architecture“, where a lot of loosely connected mini-services can be easily assembled like Lego blocks and on top of which you can build agile and resilient applications. Bryson is convinced that all businesses are going to become “cloud natives” because they need the flexibility and security that it provides. To illustrate this, I learned that Watson is not a standalone monolithic “artificial intelligence” anymore but is now divided into several mini-services, each one with its API, and part of the IBM cloud offer alongside other services like blockchain, video storage, weather forecast, etc.

BrysonImage: Bryson Koehler at the IBM innovation and disruption Forum in Toronto

Bryson Koehler recognizes that the techniques of artificial intelligence,  the famous deep learning algorithms, in particular, are all the same amongst the big competitors (Amazon, Google, Microsoft and IBM) in the cloud business. These algorithms are now taught in universities and implemented in open source programs. So what makes the difference in IA today is not the technique but the quality and quantity of the datasets in use to train the algorithms. Since every big player has access to the public data on the web and to the syndicated data (on markets, news, finance, etc.) sold by specialized companies, what makes a real difference is the *private data* that lies behind the firewall of businesses. So what is the competitive advantage of IBM? Bryson Koehler sees it in the trust that the company inspires to its clients, and their willingness to confide their data to its cloud. IBM is “secure by design” and will never use a client’s dataset to train algorithms used by this client’s competitors. Everything boils down to confidence.

At lunchtime, with a dozen of other influencers, I had a conversation with researchers at Watson. I was impressed by what I learned about cognitive computing, one of IBM’s leitmotiv. Their idea is that the value is not created by replicating the human mind in a computer but in amplifying human cognition in real-world situations. In other words, Big Blue (IBM’s nickname) does not entertain the myth of singularity. It does not want to replace people with machines but help its clients to make better decisions in the workplace. There is a growing flow of data from which we can learn about ourselves and the world. Therefore we have no other choice than to automate the process of selecting the relevant information, synthesize its content and predict, as much as possible, our environment. IBM’s philosophy is grounded in intellectual humility. In this process of cognitive augmentation, nothing is perfect or definitive: people make errors, machines too, and there is always room for improvement of our models. Let’s not forget that only humans have goals, ask questions and can be satisfied. Machines are just here to help.

Once the forum was over, I was walking in front of the Ontario lake and thought about the similarity between philosophy and computer engineering: aren’t both building cognitive tools?

Toronto-boardwalkImage: walking meditation in front of the Lake Ontario after the IBM innovation and disruption Forum in Toronto