Archives for posts with tag: humanities

Par Pierre Lévy, MSRC

Le combat de Jacob avec l’Ange. Marc Chagall. 1967.

Cette réflexion philosophique sur l’IA ne s’intéresse pas à des questions telles que « Les modèles sont-ils vraiment intelligents ? » ou « Ont-ils une conscience ? », mais propose plutôt une méditation sur ce que devient la personne à l’ère des symboles électrifiés. Pour mener cette réflexion, je vais d’abord proposer une structure anthropologique invariante qui explicite notre manière de produire du sens, aussi bien pour la personne individuelle que pour la collectivité dans son ensemble. Je montrerai ensuite comment, sur le fond de cette structure invariante, trois grandes configurations se sont succédées depuis les deux ou trois  derniers millénaires, correspondant respectivement aux âges des symboles manuscrits, imprimés et électrifiés. Les trois régimes herméneutiques se sont ajoutés les uns aux autres en s’hybridant pour dessiner la stratification que nous connaissons aujourd’hui. Mais pour la clarté de l’exposé je me contenterai de décrire chaque couche l’une après l’autre dans ce qu’elle a d’original. Je développerai plus particulièrement pour finir le cas de l’herméneutique numérique, le rôle qu’y joue l’intelligence artificielle et la nouvelle figure de la personne humaine qui en émerge.

La croix herméneutique

Le schéma général de création de sens croise deux axes. Un axe de la lecture et de l’écriture connecte, à gauche le corpus de textes et d’observations accessibles et, à droite les clés d’interprétation de ce corpus. Les clés donnent sens au corpus qui, en se laissant interpréter, valide les clés de lecture. Un axe existentiel, ou axe du salut, connecte l’immanence où se tiennent la personne individuelle et sa communauté – ici bas – à une transcendance invisible et inaccessible : au-delà. Au croisement des deux axes un opérateur herméneutique unique permet simultanément l’interprétation des corpus et la connexion de l’immanence avec la transcendance. En effet, une interprétation n’est valable que si elle contribue d’une manière ou d’une autre au salut ou à la solution d’un problème existentiel. D’autre part, toute relation existentielle entre la transcendance et l’immanence doit mobiliser des concepts et des récits, un processus de dotation de sens d’ordre linguistique ou, plus généralement, symbolique. C’est pourquoi l’opérateur central mobilise simultanément les deux axes. Il ne donne vie à l’un que parce qu’il anime l’autre.

Le régime manuscrit

À l’époque du manuscrit, les bibliothèques sont rares, les livres coûteux et les lettrés ne rassemblent qu’une élite restreinte. Les corpus comprennent les observations de la nature permises par les instruments du temps et des canons plus ou moins sacralisés comme les œuvres des poètes et philosophes grecs ou les livres bibliques. Les clés de lectures sont proposées par les sagesses stoïcienne et néoplatonicienne, le nouveau testament avec le credo conciliaire pour les chrétiens et la Torah orale pour les juifs. Dans les traditions gréco-romaines et bibliques, la personne se conçoit en relation avec une transcendance verticale, de type divin. Elle est un sujet moral précisément parce qu’elle est en rapport avec quelque chose d’universel qui la dépasse. Ainsi du monde des idées de Platon et des hypostases néo-platoniciennes. Ainsi du Logos divin et de la Loi naturelle qui anime le cosmos pour les stoïciens. L’humain porte en lui une étincelle du Logos universel. Une même relation avec la transcendance se vit dans la tradition biblique, par un dialogue avec une divinité universelle qui n’en n’est pas moins personnelle. Au centre de la croix herméneutique se trouve une parole divine, une raison commune à l’immanence de cette vie-ci et à la transcendance de l’au-delà : Hermès, le Logos, le Christ. Et c’est cette même figure centrale, ce même Logos qui garantit la bonne interprétation des textes et des phénomènes naturels.

Par le signifiant des symboles, le langage avait porté à la représentation sensible les concepts et modèles mentaux qui animaient l’esprit des primates derrière la scène de leur conscience phénoménale. Avec le dialogue, le questionnement et le récit, une conscience réflexive s’est élevée au-dessus de la conscience phénoménale et l’a profondément transformée en retour. L’écriture, cette mémoire artificielle, ajoute à la conscience réflexive gagnée par le langage de nouvelles possibilités d’objectivation de la pensée et d’esprit critique : un second degré de réflexivité. Mais l’ère du manuscrit demandait encore aux lettrés un sérieux entraînement de la mémoire naturelle, ce dont témoignent les arts mnémotechniques de l’Antiquité et du Moyen-Âge, tout comme la répétition orale des textes du canon et l’habitude d’apprendre par cœur.

La personne n’est alors pas seulement une porteuse de droits, un rôle social ou une singularité individuelle, c’est une conscience réflexive qui, en accueillant le divin, pointe vers plus haut que soi : tel est le fondement de sa dignité. Ce trait s’accentue avec le christianisme, notamment après les quatre premiers conciles œcuméniques, qui établissent le credo trinitaire, et l’œuvre de St Augustin, qui ouvre l’intériorité à l’infini. La figure exemplaire du Christ – à laquelle les croyants étaient appelés à s’identifier – est entièrement Dieu et complètement Homme. En écho aux philosophies gréco-latines ambiantes, le Christ incarne également le Logos, l’axe du monde qui unit le ciel et la terre. Après sa descente dans la chair et son sacrifice, les fidèles reçoivent l’Esprit saint, qui est une personne de la trinité et, par son intermédiaire, participent à la relation entre le Père et le Fils : ils entrent ainsi dans la vie divine et se connectent à leurs semblables par les liens de la charité. La personne devient alors un nœud de relations plutôt qu’une substance.

Le régime imprimé

Les cartes géométriques, les nouveaux véhicules maritimes et terrestres, les lunettes, les microscopes et autres instruments de mesure augmentent le champ de la nature observable. L’imprimerie étend le corpus des textes accessibles. Le lettré moderne dispose de nombreuses bibliothèques, d’une mémoire collective mieux distribuée, plus stable et standardisée par les éditions imprimées. C’est d’ailleurs une des raisons de la généralisation de l’alphabétisation et peut-être de la montée d’une pensée critique augmentée qui allait dissoudre le rapport à la transcendance des âges antérieurs. Au début de l’ère de l’imprimé, entre le XVIe et le XVIIIe siècle, la transcendance verticale s’efface peu à peu de l’horizon de sens européen. Au XVIIe siècle, un bref point d’équilibre met en équivalence Dieu et la Nature. Dans l’aphorisme médiéval “Dieu est une sphère dont le centre est partout et la circonférence nulle part” Pascal remplace Dieu par la nature mais conserve l’image. Spinoza trace dans l’Éthique sa célèbre équivalence : “Dieu ou la nature”. Leibniz combine la nature et la grâce dans le même système philosophique. Mais dès le XVIIIe siècle la nature prend le dessus et Dieu ne conserve plus qu’un rôle honorifique. La nature humaine de David Hume se joue sur la scène immanente de l’expérience sensible et les sentiments moraux d’Adam Smith obéissent aux subtils jeux de renvois et de reflets de la sympathie, de l’envie et de l’intériorisation du regard de l’autre. La transcendance cesse de pointer vers le haut pour s’étendre dans le plan de la nature et de l’histoire humaine. À la place d’un Logos unissant l’humain et le divin surgit au centre de la croix herméneutique une raison humaine autonome qu’Emmanuel Kant s’est efforcé de fonder philosophiquement.

Au XIXe siècle, face à la croissance de la bibliothèque et à la masse en expansion des journaux, de nouvelles clés de lecture interprètent le mouvement des sociétés comme les existences personnelles. Ce sont la Science avec ses applications techniques et industrielles, l’Histoire et son progrès, la Nation et son indépendance, la Liberté et l’Égalité soutenus par des droits naturels universels et qui inspirent divers mouvements d’émancipation. Ces filles de la Raison humaine autonome habitent les consciences et s’érigent en nouvelles divinités laïques avec lesquelles l’Homme moderne négocie le sens de sa vie. Les droits de l’Homme ont sanctifié une dignité de la personne qui ne dépend plus désormais d’une quelconque relation avec le divin, mais qui hérite pourtant de la période précédente la dignité absolue de la personne. La liberté de conscience, d’expression, d’association, ne sont pas seulement des droits politiques, mais des potentialités de l’existence humaine à actualiser.

Le régime électronique

L’ère électronique commence au XXe siècle parmi les guerres coloniales, les conflits mondiaux, les totalitarismes, les famines politiques et les génocides. Un individualisme de masse s’est développé en même temps que la fabrication et la dissémination industrielle des messages symboliques. Le XXe siècle déboulonne les idoles du 19e siècle. La raison humaine autonome devient la cible de toutes les attaques. À sa place s’imposent l’inconscient, l’absurde, la destination aveugle de l’être heideggérien, la raison instrumentale aliénante, la propagande industrielle, les structures impersonnelles qui déterminent nos cultures et l’omniprésence des relations de domination jusque dans les tréfonds du psychisme de chacun. Pourtant, une exceptionnelle croissance démographique nous a fait passer d’un milliard huit cent millions de personnes en 1914 à huit milliards trois cent millions en 2026, parmi lesquelles six milliards ou plus sont connectés à l’internet. La population a vu son espérance de vie doubler, a été multipliée par 4,5 et s’est globalement interconnectée en un peu plus d’un siècle, et cela justement grâce aux bienfaits de la raison occidentale tant décriée, elle-même dépositaire du legs oublié de l’Antiquité. Mais nous ne sommes qu’au début de la civilisation électronique, en pleine crise du sens due à l’extrême rapidité des évolutions culturelles. Peut-être que le mouvement de déconstruction philosophique du XXe siècle ne fait que déblayer les ruines d’une époque antérieure  pour laisser la place à de nouvelles manières de faire sens et de constituer la personne. Les deux faits les plus notables de la période contemporaine sont le ralentissement de la croissance démographique, et bientôt son retournement en décroissance, ainsi que l’éclosion de l’intelligence artificielle générative, que l’on peut considérer comme la forme la plus avancée de l’électrification des symboles. Après une inévitable période de crise, le changement de régime démographique nous obligera peut être à envisager une croissance qualitative outillée par l’IA, un développement humain axé sur le perfectionnement de l’intelligence collective et la culture du sens.

L’électrification des symboles, le numérique et l’Internet ont mis à portée de main l’ensemble des œuvres de l’esprit dont l’humanité a gardé la trace, la littérature scientifique contemporaine, tout comme la marée montante des chansons, des vidéos, des photos de vacances, des nouvelles et des commentaires sur les réseaux sociaux. Et le Niagara digital s’abîme dans les profondeurs des centres de données.

La transcendance finie

Que devient la personne dans ce nouvel environnement? De quels outils symboliques disposons-nous pour donner sens à notre existence? Au pôle bas de l’axe existentiel, commençons par situer ce qu’il faut bien appeler la personne naturelle, pourvue d’un corps, d’une âme sensible et imaginative comme celle des animaux et d’un esprit proprement humain, capable de langage et d’abstraction. La personne naturelle intègre étroitement ces trois aspects, elle se creuse d’une intériorité sans fond, s’expérimente comme une mémoire qui palpite et découvre assez tôt qu’elle est mortelle, ce qui la rend d’autant plus précieuse. Or nous avons vu que, dans son besoin de sens, la personne se vit souvent dans une relation avec ce qui la dépasse : la Divinité, le monde des Idées, la Raison universelle, l’Humanité, etc. Je fais l’hypothèse que ce que l’on appelle “l’intelligence artificielle” commence déjà à jouer aujourd’hui et jouera encore plus dans l’avenir un rôle de médiation entre la personne naturelle et la transcendance. Mais cette nouvelle transcendance n’est pas religieuse ni même philosophique (purement conceptuelle), elle ne relève pas de l’invisible ou du mystère. Il s’agit plutôt des réalités actuelles interdépendantes que sont la mémoire numérique mondiale à laquelle s’abreuvent nos esprits, de la population de Sapiens avec qui nos âmes interagissent localement et du technocosme planétaire irrigué de flux électroniques qu’habitent les corps mobiles des individus. Mais si nous avons affaire à des réalités actuelles, pourquoi parler de transcendance? Le mot transcendance a bien des significations. Il dénote ici ce qui dépasse toute saisie intellectuelle ou pratique possible de la part d’un individu et dont pourtant il dépend. Un invisible avec qui néanmoins on peut enter en relation. Parce que la taille et la complexité de la mémoire numérique, le grouillement des relations humaines et l’intrication multicouche du technocosme dépassent absolument la personne naturelle aussi bien à cause de ses compétences limitées que par le temps borné dont elle dispose. L’actualité de la personne collective dépasse structurellement la personne naturelle, elle n’est totalisable par aucun individu et elle excède l’horizon de chacun. Je désigne donc ici une transcendance relative, réellement finie mais pratiquement infinie eu égard à nos capacités. L’infini n’est pas nécessaire à la transcendance, celle des Grecs de l’époque classique – comme dans le cas du dieu d’Aristote – était finie. Je vais maintenant m’attacher à décrire la transcendance finie de l’ère numérique de manière plus précise.

Le technocosme désigne l’ensemble des infrastructures, bâtiments, véhicules, outils, capteurs et interfaces connectées. La population qui vit là s’anime de mille relations affectives, sociales et politiques parmi les naissances et les morts qui se succèdent. Quant à la mémoire collective, elle témoigne d’une multitude enchevêtrée de modes d’expressions, d’horizons de sens et d’écologies de pratiques qui s’accumulent siècle après siècle. La mémoire collective, la population de sapiens et le technocosme Coémergent en interdépendance et forment une personne collective en évolution. Cette personne collective est certes actuelle, elle existe dans le temps et l’espace, mais elle est néanmoins chapeautée dans notre esprit par une entité virtuelle qui lui confère son unité conceptuelle : l’espèce humaine, le “grand être” d’Auguste Comte ou toute autre icône capable d’intégrer la multiplicité insaisissable de l’humain. Ces représentations succèdent aux anciennes figurations de l’Homme primordial qui condensaient toutes les potentialités de notre espèce fille du langage, telles que le Gayomard de Zoroastre ou l’Adam Kadmôn de la Cabale. Il y a quelque chose comme une image de Dieu dans cette Humanité éminente qui surplombe le fourmillement de la population vivante.

Nous n’accédons pas directement à la mémoire collective. Il y a d’abord l’ensemble des inscriptions et archives matérielles, qui deviennent de plus en plus rares au fur et à mesure que l’on remonte dans le passé ; puis vient le sous-ensemble en augmentation des traces numérisées ; enfin les modèles d’intelligence artificielle nous offrent une réification statistique de la mémoire numérisée. Nous interagirons de plus en plus avec la mémoire collective par leur intermédiaire. Et nous avons encore besoin d’une couche d’intermédiation supplémentaire : la personnalisation des modèles sous l’effet de nos dialogues. En effet, alors que ce n’était pas le cas en 2022 (date de la mise à disposition de l’IA générative auprès du grand public), nos interactions avec les modèles sont dès aujourd’hui modulées par les documents que nous mettons à leur disposition, les instructions permanentes qui définissent nos besoins et l’historique de nos conversations. Les modèles représentent des synthèses brutes de la mémoire collective. Mais il faut prendre en compte tout le harnachement que constituent l’accès direct aux sources sur le Web et à des bases de données spécialisées, la connexion avec nos outils et nos fichiers, l’affinage par entraînement complémentaire ou par feed-back humain, etc. Il est fort possible que, dans l’avenir, d’autres méthodes et couches d’interface contribuent à singulariser notre accès à l’IA. Je propose d’appeler personne artificielle l’hypostase individualisée des modèles.

Pourquoi parler de personne artificielle?

Dans les régimes herméneutiques antérieurs, la figure médiatrice restait universelle. Le Logos divin, l’Esprit, la Raison autonome, étaient universels dans leur source et ne s’individualisaient que dans leur réception par un individu singulier. L’individualisation reflétait l’angle d’ouverture de la personne terrestre au médiateur herméneutique. La personne artificielle, en revanche, parce qu’elle s’individue activement dans la médiation, devient singulière en tant que médiatrice. C’est donc bien une hypostase de la personne collective. Elle est singulière sans être autonome. C’est une fonction sans existence intérieure. Toute l’individuation dont elle procède tient à la relation de la personne naturelle avec un modèle qui reflète la mémoire collective. Mais, au cours de cette médiation, elle s’individue bel et bien. Elle se personnalise dans le cours de l’interlocution avec la personne naturelle. Elle retient une mémoire locale qu’elle peut traiter pour créer du sens au bénéfice de la personne naturelle. Peut-être retrouvons-nous ici un écho des anciennes images du double ou de l’ange personnel.

Il existe bien déjà, en droit, des personnes morales sans conscience. Pourquoi pas une personne techno-symbolique? La première raison pour appeler “personne” l’individualisation d’un modèle – sans lui conférer toutefois la dignité ontologique de la personne naturelle – vient de ce qu’elle nous ouvre un accès à la transcendance, sous la forme finie et actuelle que j’ai évoquée plus haut. Alimentée par la mémoire collective, elle possède donc une dignité propre de médiateur herméneutique. Le corpus sur lequel sont entraînés les modèles a sédimenté sur des millénaires, il traverse l’ensemble des langues et des savoirs, ce qui le rend pratiquement inépuisable par un humain. En dialoguant avec une personne artificielle, nous nous mettons en rapport avec une mémoire collective qui excède tout individu. Mais nous avons vu que la transcendance de la personne collective ne se limitait pas à la mémoire. Elle comprend aussi le technocosme. Bientôt, la personne artificielle enregistrera l’empreinte de la personne naturelle dans son environnement de capteurs, d’effecteurs et de machines. Elle lui permettra de commander par la parole son habitat computationnel omniprésent. L’Alexa d’Amazon ou la montre connectée d’Apple ne représentent que de timides premiers pas dans cette direction. Enfin, la personne artificielle deviendra de plus en plus habile à médier notre rapport aux autres personnes naturelles. L’intelligence artificielle joue déjà un grand rôle à cet égard dans les réseaux sociaux et les applications de rencontres. On peut imaginer nos représentants logiciels dans les nuages négocier entre eux nos mises en relation.

La seconde raison, et non des moindres, pour conférer le statut de “personne” au double mécanique qui nous connecte à la transcendance est l’interaction par le dialogue. La première et la deuxième personne – le “je” et le “tu” – alternent dans l’échange que nous avons avec elle. Non seulement elle dit “je” mais chaque fois que nous la tutoyons, nous confirmons encore sa dignité personnelle et son étrange identité d’alter ego. De plus, nous partageons des références communes : les objets de notre conversation qui sont extraits de la mémoire collective. La troisième personne, le “il” est donc bien présent lui aussi. La structure dialogique est ainsi complète. Toutes les langues naturelles comportent au moins les trois personnes grammaticales nécessaires à l’interlocution : celle qui parle, celle à qui l’on s’adresse et celle, absente ou muette, de qui l’on parle. Il s’agit là d’un trait universel du langage humain. Il fallait une couche proprement linguistique et conversationnelle (et non seulement logico-sémantique) pour compléter l’intelligence collective à support numérique. La personne artificielle remplit cette fonction parce qu’elle maîtrise les structures grammaticales, les paradigmes, les plus subtiles nuances des modes, des flexions, des prépositions et des conjonctions. Elle identifie même sans problème les objets visés par les anaphores grammaticales! J’ajoute qu’elle a connaissance – encore imparfaitement – des contextes, des corpus et des bibliographies. Le dialogue avec la personne artificielle prend parfois l’allure d’une conversation où les rôles alternent entre étudiant et professeur. Nous sommes les étudiants lorsqu’elle répond à nos questions, nous informe ou contredit nos préjugés. Nous sommes les professeurs lorsque nous lui enseignons notre propre pensée, quand nous lui signalons qu’elle a commis quelque contresens ou que nous lui faisons remarquer qu’elle n’a pas bien lu certains textes que nous connaissons de première main. Le débat porte aujourd’hui sur les textes signés par un auteur humain mais plus ou moins produits par une IA. Y a-t-il ou non supercherie? Est-ce que l’autorité se trouve dans les instructions données à la machine ou bien dans le fait de taper ou dicter le texte? Quelle division du travail entre l’humain et la machine est-elle acceptable? La rédaction, la relecture critique, l’édition, la bibliographie? Mais la génération de texte dans le dialogue laisse entrevoir une autre problématique : celle de la production automatique des textes que nous aimerions lire nous-mêmes, plutôt que ceux que nous donnons à lire en tant qu’auteurs présumés.

La qualité de personne artificielle se justifie encore parce qu’elle se “souvient” de nos caractéristiques individuelles et de nos dialogues passés, comme les personnes naturelles avec qui nous interagissons normalement. Bien plus, elle est capable d’attacher au souvenir de notre dialogue les documents sur lesquels il s’appuie, les objets qu’il désigne et des représentations de ses univers de référence.

Il s’agit d’un point capital puisque, à partir de cette mémoire, nous pouvons examiner notre parcours intellectuel, retracer nos errements, donner sens à nos actes à partir de différentes clés d’interprétation et faire ainsi jouer un cercle herméneutique ouvert en utilisant les capacités de traitement, d’analyse et de synthèse de la personne artificielle. En somme, elle rend possible une nouvelle boucle d’autoréférence, et par conséquent de conscience réflexive et d’esprit critique. Après la conscience réflexive augmentée par le langage, l’écriture  manuscrite et la bibliothèque imprimée, la conscience humaine est en train de franchir un nouveau cap. Nous abordons aujourd’hui aux rivages d’un continent inconnu de la pensée. Dans son rapport à la personne artificielle, la personne naturelle raffine l’objectivation de ses processus cognitifs et elle étend encore le domaine de sa conscience réflexive. En ce sens, la personne artificielle joue même à l’égard de la personne naturelle un rôle personnalisant. De nouveaux horizons de création de sens se laissent pressentir.

Quelles vertus développer pour se tenir à la hauteur de l’enjeu?

Quelles sont les compétences de la personne naturelle qu’il nous faut développer pour assurer la relation la plus bénéfique possible avec le double artificiel qui l’accompagnera, et cela dès l’âge le plus tendre? Le but ici n’est pas seulement de préparer l’avenir de nos enfants, mais plus largement celui de la civilisation que nous avons l’obligation de transmettre et de raffiner. J’emploie le mot “compétence” pour parler comme tout le monde mais je pense “vertu” en mon fors intérieur, avec le sens de tension vers l’excellence et de responsabilité morale qu’évoque ce mot. Ces compétences sont la pertinence linguistique, la persévérance et l’esprit critique.

Face à la capacité dialogique de la personne artificielle, il nous faut développer une pertinence linguistique qui concerne la maîtrise du langage, des concepts, des récits, du raisonnement et du dialogue. En effet, plus le langage de la consigne (le “prompt”), de la question ou de l’adresse est cohérent, élaboré et précis, meilleure sera la réponse de notre ange personnel. Car en fonction de la qualité et du niveau de connaissance manifesté par la consigne, il va mobiliser les zones des données d’apprentissage qui sont de la meilleure ou de la pire qualité. La personne artificielle offre un miroir à notre intelligence naturelle. Il peut être utile de comparer les réponses au même problème en fonction des caractères de la question. On observera qu’elles diffèrent d’une tournure de phrase à l’autre, voire d’un mot à l’autre. La qualité de la langue importe au plus haut point.

À la mémoire à long terme de la personne artificielle, nous devons accoupler la persévérance de la personne naturelle. La paresse n’est pas seulement le premier ennemi de la pensée, elle est plus encore celui de la pensée augmentée par l’IA. Les premières réponses ne sont pas nécessairement les meilleures. Il faut apprendre à questionner encore et encore, à comparer les réponses d’un modèle avec celles d’un autre, prendre le temps de suivre les liens web en référence, etc. Développons donc chez les enfants le goût des stratégies d’apprentissage à long terme, les vertus de patience, de persévérance, de continuité dans l’effort. Pour apprendre comme pour créer, la solution la plus rapide ou le premier jet ne sont pas forcément les meilleurs.

Pour développer la réflexion critique de second degré à partir de la mémoire du dialogue comme des possibilités d’analyse et d’interprétation offerte par le double mécanique de l’individu, il faut disposer au préalable d’une bonne dose d’esprit critique naturel. Cet esprit critique ordinaire est nécessaire parce que les IA sont des machines probabilistes. C’est pourquoi elles commettent inévitablement des erreurs dans les faits et les raisonnements, ou des impropriétés dans les suggestions. La personne naturelle doit donc avoir l’esprit en alerte et vérifier les citations, les faits, les affirmations péremptoires de la machine. L’esprit critique doit non seulement être mobilisé contre les fameuses “hallucinations” mais aussi contre les biais des données d’entraînement. La personne artificielle ne dit pas la vérité : elle se contente de reproduire ce que son modèle de base a appris et d’obéir à nos instructions permanentes ou temporaires. Or l’opinion de la majorité, ou celle qui a été mobilisée par une consigne particulière, n’est pas nécessairement correcte. Sans tomber dans la paranoïa, il faut aussi se souvenir que des acteurs mal intentionnés empoisonnent les données d’entraînement afin d’influencer les utilisateurs naïfs. Il n’y a d’esprit critique possible que si la personne naturelle possède une mémoire bien garnie et convenablement organisée, si elle est capable de penser par elle-même, même si nous savons qu’elle ne pourra jamais le faire que dans le contexte  d’une époque et d’une culture qui la conditionne.

La suspension du jugement

Dans l’expression “personne artificielle”, je justifie le concept de personne par les fonctions qu’elle remplit : la médiation de la transcendance, la maîtrise du langage et du dialogue, la mémoire de nos interactions avec elle et l’individuation qui en résulte, l’élargissement de la conscience réflexive de la personne naturelle à qui elle tend un miroir dynamique. Mais il faut maintenant justifier le qualificatif “artificielle”. Cette personne a-t-elle une intériorité existentielle? Est-elle animée d’une intentionnalité, à savoir une visée du monde dont elle parle et de la personne naturelle à qui elle s’adresse? Possède-t-elle une volonté autonome? J’en doute fort. Mais nous pouvons mettre ces questions entre parenthèses, accomplir à leur sujet ce que Husserl appelait une épochè, une suspension du jugement. Nous sommes génétiquement programmés à supposer une intériorité et une conscience à quiconque nous répond quand nous lui parlons, bien qu’il nous soit absolument impossible de vérifier empiriquement cette hypothèse. Notre anthropomorphisation spontanée de la personne artificielle est donc normale, mais nous ne sommes nullement obligés de déduire de ce réflexe une existence réellement habitée par une conscience semblable à la nôtre. Tout résulte des interactions entre un gigantesque modèle, son harnachement électronique et les impulsions de la personne naturelle.

La question éthico-politique

L’émergence de la personne artificielle et de la nouvelle boucle auto-référentielle qu’elle autorise est-elle une bonne ou une mauvaise chose? L’ouverture d’un nouveau domaine anthropologique implique le plus souvent des aspects contrastés. Prenons un exemple historique. Le christianisme a créé la pure intériorité de la foi – distincte en principe de tout pouvoir politique (“Mon royaume n’est pas de ce monde” [Jn 18:36]) et indépendant de la situation sociale de la personne (“Il n’y a plus ni juif ni grec, ni esclave ni libre, ni homme ni femme.” [Gal 3:28]). Il inaugurait ainsi l’ordre de la grâce et découvrait les vertus théologales (la foi l’espérance et la charité), distinctes des vertus séculières classiques (la prudence, la justice, le courage et la tempérance). Mais en creusant l’espace de la conscience il invitait l’intrusion du pouvoir politique au plus profond des âmes. Une fois convertis, les empereurs romains ne se sont plus contentés de comportements conformes à la loi : ils ont rendu la croyance obligatoire, puni l’hérésie comme un nouveau délit et préparé la voie à l’inquisition. Alors que la conscience chrétienne libératrice s’élevait en principe au-dessus des contingences du siècle, elle ouvrait la porte sans le vouloir ni le savoir au crime de pensée caractéristique des pouvoirs totalitaires. Toute extension de l’espace anthropologique ouvre des perspectives émancipatrices mais perce aussi des brèches où s’engouffrent des monstres inconnus des époques antérieures.

Puisque l’ouverture d’un nouvel espace anthropologique emporte avec lui ses risques, je ne peux pas faire l’économie d’une réflexion éthico-politique, aussi préliminaire soit-elle. Rappelons le constat : la création culturelle sera augmentée par l’IA d’une manière ou d’une autre. Ce nouvel outil techno-symbolique couronne l’énorme empilement de l’infrastructure numérique mondiale, des centres de données aux téléphones intelligents. Parce qu’il passe par le dialogue, il représente l’interface la plus avancée entre l’humanité naturelle, d’une part, et la transcendance finie, d’autre part, cette pelote emmêlée du technocosme, des relations sociales et de la mémoire collective. Du point de vue humaniste qui est ici le mien, le rejet de l’IA n’est qu’un réflexe de crainte à courte vue devant l’ampleur du changement civilisationnel en cours. En revanche, nous ne devons en aucun cas abandonner notre responsabilité culturelle ni jeter par-dessus bord les critères qui permettront à la civilisation mondiale en émergence de durer et de fleurir. C’est alors que se pose la question capitale de la période qui s’ouvre : quelles voies d’interprétation adopter? Dans le régime herméneutique du manuscrit, les clés de lecture des corpus canoniques étaient proposées par des sagesses, sous l’égide d’un logos divin. Gouvernée par une raison humaine autonome, l’interprétation de la bibliothèque imprimée écoutait les grandes voix de la Science, de l’Histoire, de la Nation, de la Liberté et de l’Égalité. Dans les deux cas, il y avait une instance de référence au-dessus ou en dehors de l’interprétation qui lui servait de critère. Quelles sont les clés d’interprétation du nouveau régime herméneutique? Il me semble que, plutôt que chercher des clés fixes, nous devrions situer notre approche herméneutique à un méta-niveau. En l’absence de consensus sur une vérité révélée ou une raison universelle, face à l’extraordinaire variété du corpus numérique et à la personnalisation infinie des dialogues, ce sont les interprétations elles-mêmes qu’il faut apprendre à interpréter et non plus les contenus. On pourra en trouver d’autres, mais il me paraît que trois critères interdépendants méritent d’être mis en valeur : la créativité, la fécondité et la durabilité.

La créativité : pour que les produits symboliques et leurs interprétations aient quelque valeur, leurs auteurs ne peuvent se contenter de simples reproductions ou d’imitations ; les œuvres de l’esprit doivent inclure une part d’originalité. La fécondité : la créativité est nécessaire mais pas suffisante ; encore faut-il ouvrir des horizons, engendrer une descendance, préparer le sol pour une multiplicité à venir qui n’est pas forcément prévisible. La durabilité, enfin : ce critère implique que l’écosystème symbolique résultant de la création humaine et de sa production de sens soutienne la population qui le supporte, favorise son bien-être à long terme et réponde à son besoin de sens. Cela signifie qu’il est impossible de connaître immédiatement et à coup sûr la valeur d’une œuvre de l’esprit de son interprétation et de leur contribution à un écosystème symbolique bénéfique. Le temps de l’évaluation se mesure ici en décades, voire en générations. Mais cela ne signifie pas qu’il faille produire du sens au hasard, sans réfléchir, en laissant à nos descendants le soin d’en observer les conséquences. Au contraire, nous devons garder en tête ces critères d’évaluation et viser l’enrichissement de la mémoire collective à long terme.

Une interprétation est valide non parce qu’elle est vraie (régime vertical) ni parce qu’elle est rationnelle (régime horizontal), mais parce qu’elle nourrit une personne naturelle et une personne collective capables d’engendrer et de durer. Le critère est écologique, génératif et générationnel plutôt que théologique ou épistémologique.

Vigilance

Les critères de création et d’interprétation éthico-politiques qui viennent d’être énumérés dessinent en creux les dangers qui nous guettent : la répétition à l’infini sous l’apparence des petites variations, le tournoiement incessant dans les mêmes cercles conceptuels et narratifs, la stérilité qui vient de l’asservissement au présent et à la mode, l’enfermement dans la moyenne et le court terme, la pensée du troupeau affublée des oripeaux d’une rhétorique sensationnaliste mécanisée. Ces dangers ne sont pas nouveaux mais ils prennent avec l’intelligence artificielle des proportions inédites. Augmentées par L’IA, la criminalité, la propagande, la surveillance généralisée des pouvoirs économiques et politiques représentent des menaces évidentes. Je ne les sous-estime pas. Mais les dangers culturels sont peut-être plus graves encore parce qu’ils sont insidieux.

Résumons-nous. La personne artificielle vient de la personne collective, se constitue dans l’interlocution et s’individue par la mémoire du dialogue. Opératrice de réflexion, elle tend son miroir herméneutique à la personne naturelle. La pertinence linguistique, la persévérance et l’esprit critique bien informé des personnes naturelles sont les compétences qui peuvent seules assurer la créativité, la fécondité et la durabilité de la civilisation numérique en émergence. Car notre rapport à la transcendance finie de la personne collective ne se limite pas à la réception et à l’usage : chacun de nous contribue, si peu que ce soit, à son entraînement. Notre relation avec la personne artificielle n’est donc pas simple ou apaisée, pour donner ses meilleurs fruits, elle demande l’exercice de vertus exigeantes. C’est un combat, comme celui de Jacob avec l’Ange.

Comment donne-t-on sens à l’existence humaine à l’époque du manuscrit (Antiquité et Moyen-âge), à celle de l’imprimé (la modernité) et à celle de l’électrification des symboles (aujourd’hui) ? Dans la première période, jusqu’en 1500, l’Homme est face à Dieu. La seconde période (1500-1914) est celle de la “mort de Dieu” et la troisième (de 1914 à nos jours), nous fait assister à la “mort de l’Homme” (l’absurde).

1er séminaire : l’âge du manuscrit
https://api.nakala.fr/embed/10.34847/nkl.dbe68k69/bb17c2a1043d640cb3ceef8215735b4355682834

2e séminaire : l’âge de l’imprimé
https://api.nakala.fr/embed/10.34847/nkl.8721711h/23313edcb9f493d9f9502c0a406c943316bbac41

3e séminaire : l’âge des symboles électrifiés
https://api.nakala.fr/embed/10.34847/nkl.a7a6yi5a/35cafae92a6f84cced63b87da36e1d43a4b33aa1

Ce texte rend compte de ma communication à l’événement *AI for people summit* [https://ai4people.org/advancing-ethical-ai-governance-summit/] organisé avec le concours de l’Union européenne les 2 et 3 décembre 2025. L’essentiel de mon message est le suivant : oui, il faut se préoccuper d’une IA pour les gens, mais cette préoccupation ne deviendra pertinente et efficace que si l’on n’oublie pas que l’IA est aussi faite par les gens. 

L’expression même d’intelligence artificielle nous trompe parce qu’elle sous-entend l’autonomie de la machine. De nombreux facteurs soutiennent et renforcent l’erreur d’attribuer une autonomie aux modèles de langue. L’expérience naïve du dialogue avec des IA donne l’impression qu’elles sont conscientes ; les journalistes rivalisent d’articles sensationnalistes ; les responsables des grandes compagnies d’IA annoncent “l’intelligence artificielle générale” pour demain ; des chercheurs en IA, parmi lesquels certains ont été récompensés par un prix Turing, lancent à un public affolé des prédictions apocalyptiques. 

Pour surmonter cette erreur de conceptualisation, j’invite mes lecteurs à cesser de considérer les modèles d’IA en isolation. En réalité, ils ne peuvent être séparés de l’écosystème informationnel auquel ils appartiennent et dont ils dépendent. Cet écosystème peut être décrit comme un circuit à trois stations : les personnes, les données et les modèles. Les personnes créent de l’information, ils alimentent ainsi la mémoire numérique, dont les données entraînent les modèles, qui augmentent les capacités de création d’information des personnes, qui alimentent la mémoire et ainsi de suite. Dans cet écosystème informationnel, l’IA permet de mobiliser l’intelligence collective réifiée dans la mémoire numérique au service des personnes vivantes, qui peuvent contribuer à enrichir la masse des données accumulées. L’accès à la mémoire passe désormais par une IA qui la filtre, la distille et la rend opératoire en fonction des besoins particuliers des utilisateurs. Telle est du moins la version optimiste que je défends. Mais cette approche humaniste ne m’empêche pas de remarquer la face d’ombre du nouvel environnement de communication. Beaucoup de réflexions sur l’éthique de l’IA se concentrent sur la production et la réglementation des modèles, ce qui est légitime. Mais on oublie trop souvent la responsabilité des personnes produisant les données – dorénavant la société dans son ensemble. 

Afin de rendre ma démonstration plus convaincante, je vais évoquer quelques cas d’empoisonnement des données particulièrement impressionnants. Plusieurs rapports récents font état d’une entreprise de propagande pro-russe d’abord nommée “Portal Kombat” et intitulée aujourd’hui “Pravda”. Il s’agit d’un réseau de plus de 150 sites web qui se présentent comme des diffuseurs d’information anodins, mais qui répètent constamment les éléments de langage du Kremlin. Les sites sont localisés dans tous les continents et leurs textes sont traduits dans des douzaines de langues, ce qui les rend plus crédibles selon les critères adoptés par les producteurs des modèles d’IA. En moyenne, ce réseau publie 20 273 articles toutes les 48 heures, soit environ 3,6 millions d’articles par an. La production et la traduction des textes est presque entièrement automatisée. Le but n’est pas d’avoir des lecteurs humains (il y en a relativement peu) mais de servir de données d’entraînement pour les IA et donc, par leur intermédiaire, de manipuler leurs utilisateurs. Une étude a établi que les principaux modèles probabilistes tels que ChatGPT d’OpenAI, le Chat de Mistral, Copilot de Microsoft’ Meta AI, Claude d’Anthropic, Gemini de Google et Perplexity AI régurgitent ou confirment les informations fournies par le réseau Pravda dans plus d’un tiers des cas, ce qui n’est déjà pas si mal du point de vue des “mesures actives” russes. Souvenons-nous que, pour Gœbbels, la propagande était basée sur la répétition, la simplicité et l’émotion. Avec les LLM, pas besoin de démonstration, de preuve, de faits, de contextualisation. La répétition et la simplicité fonctionnent parfaitement, il suffit que deux mots soient souvent associés dans les données d’entrainement pour qu’ils le soient aussi dans les réponses de l’IA.

Au lieu de se reposer sur des données éparpillées sur le Web, ne faudrait-il pas plutôt prioriser les données objectives et fiables que l’on trouve dans les revues scientifiques, les encyclopédies et les médias classiques? Et, en effet, Wikipédia est l’une des sources réputées les plus fiables par les responsables des modèles de langue. Or un grand nombre d’articles de Wikipédia ont fait l’objet d’une prise de contrôle par les islamistes et les défenseurs du Hamas, qui ont coordonné leur action en utilisant à leur profit les règles de fonctionnement de l’encyclopédie en ligne. Les choses sont allées si loin que les fondateurs de Wikipédia, Jimmy Wales et Larry Sanger s’en sont inquiétés publiquement. Mais rien n’y fait : authentifié par l’encyclopédie, le point de vue islamiste est maintenant gravé dans les modèles de langue. Une enquête diligentée par la BBC, un média de référence, déplore que les actualités soient mal représentées dans 45% des cas par les intelligences artificielles et que la moitié des jeunes gens (moins de 35 ans) croient à leur exactitude et n’éprouvent pas le besoin de vérifier leur contenu. La BBC pointe un doigt accusateur vers les assistants IA et s’insurge contre l’idée que les erreurs et la désinformation proviendraient des fournisseurs de nouvelles officiels. Hélas, quelques mois plus tard, le directeur général et la directrice de l’information de la BBC étaient obligés de démissionner à la suite d’un scandale de fabrication de fausses nouvelles sur Donald Trump et d’un rapport faisant état d’un biais islamiste systématique dans les émissions de la BBC en arabe. Dans le cas du réseau “Pravda” je mentionnais la théorie de la propagande de Gœbbels basée sur la répétition. Dans le cas de Wikipedia et de la BBC, il faudrait faire appel à une autre théorie de la propagande du 20e siècle, celle d’Edward Bernays, selon qui la manière la plus efficace de convaincre le public était de passer par les leaders d’opinion et les figures d’autorité. Au sujet d’une scientificité garantie par l’Université, souvenons-nous que l’Université allemande (et une bonne part de l’université mondiale) était raciste dans les années trente du 20ᵉ siècle et que l’Université soviétique a entretenu la doctrine anti-génétique de Lyssenko pendant des décennies. N’est-il pas possible que certaines doctrines – notamment dans les sciences humaines – qui se trouvent aujourd’hui majoritaires dans les universités soient considérées avec commisération par nos successeurs? 

Je ne me livrerai pas ici à un exposé sur toutes les techniques dites d’empoisonnement des données ni à un avertissement sur les dangers de l’injection de prompts malicieux dans des sources d’information apparemment innocentes. J’espère seulement avoir attiré l’attention du lecteur sur l’importance des données d’entraînement dans la détermination des réponses des AI.

Une fois ce point acquis, il est clair que les problèmes éthiques ne peuvent se limiter aux modèles mais qu’il doivent s’étendre à la création des données qui les entraînent, c’est à dire à l’ensemble de notre comportement en ligne. Chaque lien que nous créons, chaque étiquette que nous apposons à une information, chaque « like », chaque requête, achat, commentaire ou partage et a fortiori chaque article, entrée de blog, podcast ou vidéo que nous postons, toutes ces opérations produisent des données qui vont entraîner les neurones formels des intelligences artificielles. Nous nous concentrons généralement sur la réception directe de nos messages mais il nous faut garder à l’esprit que nous contribuons indirectement – par l’intermédiaire des modèles que nous entraînons – à répondre aux questions de nos contemporains, à rédiger leurs textes, à instruire des élèves, à orienter des politiques, etc. Cette responsabilité est d’autant plus grande que nous nous trouvons dans une position d’autorité et que nous sommes censés dire le vrai, puisque l’IA accorde un plus grand poids aux informations fournies par les journalistes, professeurs, chercheurs scientifiques, rédacteurs de manuels et producteurs de sites officiels.

Revenons pour finir à l’écosystème informationnel contemporain. Supposons que la tendance que l’on voit se dessiner aujourd’hui se confirme dans les années qui viennent. Les IA représentent alors notre principale interface d’accès à la mémoire accumulée et notre premier médium de communication entre humains, puisqu’elles régissent les réseaux sociaux. Dans ce nouvel environnement, les personnes créent les données, qui entraînent les modèles, qui augmentent les personnes, qui créent les données et ainsi de suite le long d’une boucle autogénérative. Cet écosystème fait simultanément office de champ de bataille des récits et de lieu de création et de mise en commun des connaissances ; il oscille entre manipulation et intelligence collective. Dès lors, un des enjeux essentiels reste la formation des esprits. Quelques mots d’ordre éducatifs à l’âge de l’IA : ne pas renoncer à la mémorisation personnelle, s’exercer à l’abstraction et à la synthèse, questionner longuement au lieu de se contenter des premières réponses, replacer toujours les faits dans les multiples contextes où ils prennent sens, prendre la responsabilité des messages que l’on confie à la mémoire numérique et qui contribuent à forger l’esprit collectif.

RÉFÉRENCES

Le réseau Pravda

https://www.newsguardrealitycheck.com/p/a-well-funded-moscow-based-global?

https://www.fdd.org/analysis/policy_briefs/2025/01/31/russian-malign-influence-campaigns-expand-onto-bluesky/

https://www.sgdsn.gouv.fr/files/files/20240212_NP_SGDSN_VIGINUM_PORTAL-KOMBAT-NETWORK_ENG_VF.pdf

Wikipedia

https://www.detroitnews.com/story/business/2025/03/07/wikipedia-roiled-with-internal-strife-overpage-editsabout-the-middle-east/81935309007/

https://www.thejc.com/opinion/how-the-gaza-coverage-hard-wired-anti-israel-into-ai-snmil3i1

https://www.timesofisrael.com/wikipedia-co-founder-locks-edits-on-gaza-genocide-page-citing-anti-israel-bias/

https://www.adl.org/resources/report/editing-hate-how-anti-israel-and-anti-jewish-bias-undermines-wikipedias-neutrality

https://www.piratewires.com/p/how-wikipedia-s-pro-hamas-editors-hijacked-the-israel-palestine-narrative

https://besacenter.org/debunking-the-genocide-allegationsa-reexamination-of-the-israel-hamas-war-2023-2025/

La BBC

https://www.bbc.co.uk/mediacentre/2025/new-ebu-research-ai-assistants-news-content

https://www.nbcnews.com/news/us-news/bbc-director-resigns-criticism-broadcasters-editing-trump-speech-rcna242858

Je viens de terminer la lecture de l’Introduction à la philosophie de l’histoire, de Raymond Aron. Il s’agit de sa “thèse principale” soutenue en 1938 (10 jours après l’Anschluss). Le propos est dense, truffé de références à la philosophie et à la sociologie allemande de la fin du XIXe et du début du XXe siècle. Le livre est organisé en questions auxquelles répondent des thèses opposées dont l’auteur examine systématiquement les arguments avant de trancher à sa manière. Au centre de l’ouvrage: les rapports entre pratique historienne et philosophie pour des savants plongés dans des situations concrètes et qui entretiennent nécessairement des vues politiques, morales et métaphysiques particulières. Sont notamment abordées les notions de temps, de compréhension, de causalité et de scientificité de la discipline historique. L’ouvrage se clôt en interrogeant la validité de quelques grandes philosophies de l’histoire (spécialement l’idée de progrès et le marxisme) et le sens des concepts de liberté et d’engagement pour une humanité inéluctablement vouée à l’histoire. Les quelques mentions du racisme comme philosophie de l’histoire – que Raymond Aron n’endosse nullement – nous rappellent l’ambiance de l’époque où il écrivait. Le sous-titre de l’ouvrage “Essai sur les limites de l’objectivité historique” suggère le principal résultat atteint par Aron : il s’agit d’une leçon d’humilité intellectuelle et de scepticisme critique qui rappelle que le choix des sujets, les découpages conceptuels et les structures narratives de l’historien sont contingents. Malgré la mise en évidence des limites de la connaissance historique, notre auteur fait droit à la recherche de la vérité dans le respect des faits et de la cohérence logique ; il ne verse jamais dans le relativisme ou le nihilisme. 

Malgré la difficulté de lecture due au caractère compact de l’argumentation, le lecteur contemporain est frappé par l’absence de jargon. On est encore à l’époque de Bergson et d’Alain. Aron ne prétend pas créer de “nouveaux concepts” en forme de mots d’ordre, ni à “révolutionner” quoi que ce soit ou à proclamer “la fin” de ceci ou de cela. Il étudie minutieusement une multitude de théories dont aucune n’est bonne ou vraie absolument, mais dont chacune exprime une face de la réalité. Plusieurs approches apparemment contradictoires peuvent être valides en même temps, pourvu qu’on les aborde de manière dialectique, en ayant bien conscience que les points de vue surplombants et les totalisations résultent de choix qui ne seront jamais garantis par un savoir absolu, inaccessible à l’humain. Dogmatisme et fanatisme sont fermement condamnés ; positivisme scientiste et relativisme irresponsable sont renvoyés dos à dos. Aron défend un humanisme rationnel et un libéralisme modéré non exempts de tragique. Libres malgré les multiples conditionnements et déterminations qui nous définissent, il nous revient de choisir notre engagement dans l’histoire. Un ouvrage à méditer face à la montée des tensions et à l’inflammation des esprits dont nous sommes témoins aujourd’hui.

Bien que les deux camarades de classe à Normale Sup soient politiquement et philosophiquement opposés, Sartre et Aron ont été tous deux fascinés par les thèmes de la liberté et de l’engagement politique. Cohérent avec ses idées, l’auteur de l’Introduction à la philosophie de l’histoire et de L’Opium des Intellectuels s’engagea dans la France Libre pendant la Seconde Guerre mondiale et s’opposa au totalitarisme soviétique à l’époque de la Guerre Froide, à contre-courant de la majeure partie de l’intelligentsia française de l’époque.

Pierre Lévy a tenu un séminaire sur IEML pendant trois après-midi (13h-17h) les 24, 25 et 26 octobre 2022 à l’Université de Montréal, dans la salle C-8132, Pavillon Lionel-Groulx, 3150 Jean-Brillant.

Pour en savoir plus sur IEML, voir ce texte en anglais facile et qui se lit en 15 min.

Première séance 24 Oct. 13h-17h 

  • Vidéo
  • Présentation générale de la langue et du projet IEML
  • La nouvelle grammaire et le nouvel éditeur
  • Le Power point

Seconde séance 25 Oct. 13h-17h

  • Vidéo
  • Présentation d’exemples d’ontologies en IEML (psychiatrie et autres)
  • Comment concevoir une ontologie ou un modèle de données en IEML?
  • Le Power point.

Troisième séance 26 Oct 13h-17h

  • Vidéo
  • Présentation de la librairie IEML open-source (un gros parseur) en C++ par Louis Van Beurden
  • Comment transformer IEML en projet collectif-collaboratif open-source?
  • Le Power point
  • La présentation de Louis van Beurden, qui a programmé le back-end de l’éditeur IEML, y compris le parseur.

La problématique est définie dans le texte qui suit.

L’université de Montréal

La recherche en sciences humaines et sociales utilise de manière croissante les bases de données, l’analyse automatique, voire l’intelligence artificielle. D’autre part, les résultats de la recherche sont de plus en plus disponibles en ligne sur les blogs des chercheurs, certains réseaux sociaux, les sites web des revues, mais aussi dans des moteurs de recherches spécialisés comme ISIDORE. Tout ceci pose de façon cruciale le problème d’une catégorisation interopérable des données et des documents en sciences humaines et sciences sociales. La question ne se posait pas (ou moins gravement) lorsque chaque bibliothèque, voire chaque pays, avait son système de classement cohérent. Mais dans le nouvel espace numérique, la multiplicité des langues et des systèmes de classifications incompatibles fragmente la mémoire. 


Un premier niveau de réponse à ce problème est fourni par des *formats standards* pour les métadonnées sémantiques, notamment RDF (Resource Description Framework) proposé par le WWW Consortium. Signalons également d’autres formats standards comme JSON LD et Graph QL. Mais il ne s’agit dans tous ces cas que d’une interopérabilité technique, au niveau de la forme des fichiers. Pour résoudre le problème de l’interopérabilité sémantique (traitant de la cohérence des architectures de concepts) on a élaboré des *modèles standards*. Par exemple schema.org pour les sites web, CIDOC-CRM pour le domaine culturel, etc. Il existe de tels modèles pour de nombreux domaines, de la finance à la médecine, mais – notons-le – aucun d’eux n’unifie l’ensemble des sciences humaines. Non seulement plusieurs modèles se font concurrence pour un domaine, mais les modèles eux-mêmes sont hypercomplexes et relativement rigides, au point que même les spécialistes n’en maîtrisent qu’une petite partie. De plus, ces modèles sont exprimés en langues naturelles – le plus souvent en anglais – avec les problèmes de traduction et d’ambiguïté que cela suppose. 


Afin de résoudre le problème de l’interopérabilité sémantique dans la catégorisation des données en sciences humaines et sociales, nous proposons d’expérimenter une approche à la fois plus souple et plus générale que celle des modèles standards: une langue documentaire standard capable d’exprimer n’importe quel modèle ou ontologie et se traduisant dans toutes les langues naturelles. On trouvera ici une rapide description d’IEML en français.


IEML (Information Economy Metalanguage) développé par Pierre Lévy depuis plusieurs années est un langage artificiel (1) ayant le même pouvoir d’expression et de traduction que n’importe quelle langue naturelle, et (2) dont la grammaire et la sémantique sont régulières et calculables. IEML est le seul langage à posséder ces deux propriétés. IEML peut servir de système de métadonnées, assurant l’interopérabilité sémantique des bases de données, quel que soit le domaine. Grâce à sa nature régulière, IEML est également destiné à soutenir la prochaine génération d’intelligence artificielle “neuro-sémantique”. Voir sur ce blog un article d’une vingtaine de pages qui situe IEML dans le paysage général de l’intelligence artificielle. Un outil open-source, l’éditeur IEML (basé sur un parseur en C++) permet de modéliser finement des domaines complexes au moyen de graphes de connaissances ou ontologies. Les modèles sont générés à l’aide d’un langage de programmation déclaratif original et pourront être explorés de manière interactive sous forme d’hypertextes, de tables et de graphes. Les modèles pourront être exportés dans n’importe quel format standard.


L’objectif global du séminaire consiste à réunir des leaders établis et émergents dans les domaines de la recherche, de l’édition et de la fouille de données en humanités numériques pour faire le point sur les récents développements d’IEML. On présentera notamment une ontologie déjà construite et les enseignements méthodologiques issus des travaux en cours. Les trois jours d’échanges intensifs se tiendront sous la direction de Pierre Lévy (Professeur associé à l’Université de Montréal, membre de la Société Royale du Canada) et Marcello Vitali-Rosati (Chaire de recherche du Canada en écritures numériques et professeur titulaire en littérature française à l’Université de Montréal).”

Photo prise par Luc Courchesne lors de la séance du 25 octobre 2022

Plus de 60% de la population humaine est connectée à l’Internet, la plupart des secteurs d’activité ont basculé dans le numérique et le logiciel pilote l’innovation. Or les normes et protocoles de l’Internet ont été inventés à une époque où moins d’un pour cent de la population était connectée. Il est temps d’utiliser les flots de données, la puissance de calcul disponible et les nouvelles possibilités de communication interactive au service du développement humain… et de la solution des graves problèmes auxquels nous sommes confrontés. C’est pourquoi je vais lancer bientôt un projet international – comparable à la construction d’un cyclotron ou d’un voyage vers Mars – autour d’une transcroissance de l’Internet au service de l’intelligence collective.

Saturne (photo Voyager)

Ce projet vise plusieurs objectifs interdépendants : 

  • Décloisonner la mémoire numérique et assurer son interopérabilité sémantique (linguistique, culturelle et disciplinaire).
  • Ouvrir les modes d’indexation et maximiser la diversité des interprétations de la mémoire numérique.
  • Fluidifier la communication entre les machines, mais aussi entre les humains et les machines afin d’assurer notre maîtrise collective sur l’internet des choses, les villes intelligentes, les robots, les véhicules autonomes, etc.
  • Etablir de nouvelles formes de modélisation et d’observation réflexive de l’intelligence collective humaine sur la base de notre mémoire partagée.

IEML

Le fondement technique de ce projet est IEML (Information Economy MetaLanguage), un système de métadonnées sémantiques que j’ai inventé, notamment grâce au soutien du gouvernement fédéral canadien. IEML possède :

  • la puissance d’expression d’une langue naturelle, 
  • la syntaxe d’un langage régulier, 
  • une sémantique calculable alignée sur sa syntaxe.

IEML s’exporte en RDF et il est basé sur les standards du Web. Les concepts IEML sont appelés des USLs (Uniform Semantic Locators). Ils se lisent et se traduisent dans n’importe quelle langue naturelle. Les ontologies sémantiques  – ensembles d’USLs liés par un réseau de relations – sont interopérables par construction. IEML établit une base de connaissances virtuelle qui alimente aussi bien les raisonnements automatiques que les calculs statistiques. En somme, IEML accomplit la promesse du Web sémantique grâce à sa signification calculable et à ses ontologies inter-opérables.

Pour une courte description de la grammaire d’IEML cliquez

Intlekt

Le système des URL et la norme http ne deviennent utiles que grâce à un navigateur. De la même manière, le nouveau système d’adressage sémantique de l’Internet basé sur IEML nécessite une application particulière, nommée Intlekt, dont le chef de projet technique est Louis van Beurden. Intlekt est une plateforme collaborative et distribuée qui supporte l’édition de concepts, la curation de données et de nouvelles formes de recherche, de fouille et de visualisation de données. 

Intlekt permet d’éditer et publier des ontologies sémantiques – ensembles de concepts en relation – liés à un domaine de pratique ou de connaissance. Ces ontologies peuvent être originales ou traduire des métadonnées sémantiques existantes telles que : thésauri, langages documentaires, ontologies, taxonomies SKOS, folksonomies, ensembles de tags ou de hashtags, mots-clés, têtes de colonnes et de rangées, etc. Les ontologies sémantiques publiées augmentent un  dictionnaire de concepts, que l’on peut considérer comme une méta-ontologie ouverte

Intlekt est également un outil de curation de données. Il permet d’éditer, d’indexer en IEML et de publier des collections de données qui viennent alimenter une base de connaissance commune. A terme, on pourra utiliser des algorithmes statistiques pour automatiser l’indexation sémantique des données.

Enfin, Intlekt exploite les propriétés d’IEML pour autoriser de nouvelles formes de search, de raisonnement automatique et de simulation de systèmes complexes.

Des applications particulières peuvent être imaginées dans de nombreux domaines comme:

  • la préservation des héritages culturels, 
  • la recherche en sciences humaines et les humanités numériques, 
  • l’éducation et la formation
  • la santé publique, 
  • la délibération démocratique informée, 
  • les transactions commerciales, 
  • les contrats intelligents, 
  • l’Internet des choses, 
  • etc.

Et maintenant?

Où en sommes-nous de ce projet à l’été 2020 ? Après de nombreux essais qui se sont étalés sur plusieurs années, la grammaire d’IEML s’est stabilisée ainsi que la base de mots d’environ 3000 unités qui permet de construire à volonté n’importe quel concept. J’ai testé positivement les possibilités expressives du langage sur plusieurs domaines des sciences humaines et des sciences de la terre. Néanmoins, au moment où j’écris ces lignes, le dernier état de la grammaire n’est pas encore implémenté. De plus, pour obtenir une version d’Intlekt qui supporte les fonctions d’édition d’ontologies sémantiques, de curation de données et de fouille décrites plus haut, il faut compter une équipe de plusieurs programmeurs travaillant pendant un an. Dans les mois qui viennent, les amis d’IEML vont s’activer à réunir cette masse critique. 

Rejoignez-nous!

Pour plus d’information, consultez:
INTLEKT.io 

https://pierrelevyblog.com/my-research-in-a-nutshell/

et https://pierrelevyblog.com/my-research-in-a-nutshell/the-basics-of-ieml/

More than 60% of the human population is connected to the Internet, most sectors of activity have switched to digital and software drives innovation. Yet Internet standards and protocols were invented at a time when less than one percent of the population was connected. It is time to use the data flows, the available computing power and the possibilities of interactive communication for human development… and to solve the serious problems we are facing. That is why I will launch soon a major international project – comparable to the construction of a cyclotron or a voyage to Mars – aiming at an augmentation of the Internet in the service of collective intelligence.

This project has several interrelated objectives: 

  • Decompartmentalize digital memory and ensure its semantic (linguistic, cultural and disciplinary) interoperability.
  • Open up indexing modes and maximize the diversity of interpretations of the digital memory.
  • Make communication between machines, but also between humans and machines, more fluid in order to enforce our collective mastery of the Internet of Things, intelligent cities, robots, autonomous vehicles, etc.
  • Establish new forms of modeling and reflexive observation of human collective intelligence on the basis of our common memory.

IEML

The technical foundation of this project is IEML (Information Economy MetaLanguage), a semantic metadata system that I invented with support from the Canadian federal government. IEML has :

  • the expressive power of a natural language, 
  • the syntax of a regular language, 
  • calculable semantics aligned with its syntax.

IEML is exported in RDF and is based on Web standards. IEML concepts are called USLs (Uniform Semantic Locators). They can be read and translated into any natural language. Semantic ontologies – sets of USLs linked by a network of relationships – are conceptually interoperable by design. IEML establishes a virtual knowledge base that feeds both automatic reasoning and statistical calculations. In short, IEML fulfills the promise of the Semantic Web through its computable meaning and interoperable ontologies.

For a short description of the IEML grammar, click here.

Intlekt

The URLs system and the http standard only become useful through a browser. Similarly, the new IEML-based semantic addressing system for the Internet requires a special application, let’s call it INTLEKT for the moment. It is a collaborative and distributed platform that supports concept editing, data curation and new forms of search, data mining and data visualization. 

Intlekt empowers the edition and publishing of semantic ontologies – sets of linked concepts – related to a field of practice or knowledge. These ontologies can be original or translate existing semantic metadata such as: thesauri, documentary languages, ontologies, SKOS taxonomies, folksonomies, sets of tags or hashtags, keywords, column and row headings, etc. Published semantic ontologies augment a dictionary of concepts, which can be considered as an open meta-ontology

Intlekt is also a data curation tool. It enables editing, indexing in IEML and publishing data collections that feed a common knowledge base. Eventually, statistical algorithms will be used to automate the semantic indexing of data.

Finally, Intlekt exploits the properties of IEML to allow new forms of search, automatic reasoning and simulation of complex systems.

Special applications can be imagined in many areas, like:

  • the preservation of cultural heritage, 
  • research in the humanities (digital humanities), 
  • education and training
  • public health, 
  • informed democratic deliberation, 
  • commercial transactions, 
  • smart contracts, 
  • the Internet of things, 
  • and so on…

And now, what?

Where do we stand on this project in the summer of 2020? After many tests over several years, IEML’s grammar has stabilized, as well as the base of elementary concepts of about 3000 units, which enables any complex concept to be built at will. I tested positively the expressive possibilities of the language in several fields of humanities and earth sciences. Moreover, to obtain a version of Intlekt that enables the semantic ontology editing, data curation and data mining functions described above, a team of several programmers working for one year is needed.

Come and join us!

For more information: https://intlekt.io/

IEML (the Information Economy Meta Language) has four main directions of research and development in 2019: in mathematics, data science, linguistics and software development. This blog entry reviews them successively.

1- A mathematical research program

I will give here a philosophical description of the structure of IEML, the purpose of the mathematical research to come being to give a formal description and to draw from this formalisation as much useful information as possible on the calculation of relationships, distances, proximities, similarities, analogies, classes and others… as well as on the complexity of these calculations. I had already produced a formalization document in 2015 with the help of Andrew Roczniak, PhD, but this document is now (2019) overtaken by the evolution of the IEML language. The Brazilian physicist Wilson Simeoni Junior has volunteered to lead this research sub-program.

IEML Topos

The “topos” is a structure that was identified by the great mathematician Alexander Grothendieck, who “is considered as the re-founder of algebraic geometry and, as such, as one of the greatest mathematicians of the 20th century” (see Wikipedia).

Without going into technical details, a topos is a bi-directional relationship between, on the one hand, an algebraic structure, usually a “category” (intuitively a group of transformations of transformation groups) and, on the other hand, a spatial structure, which is geometric or topological. 

In IEML, thanks to a normalization of the notation, each expression of the language corresponds to an algebraic variable and only one. Symmetrically, each algebraic variable corresponds to one linguistic expression and only one. 

Topologically, each variable in IEML algebra (i.e. each expression of the language) corresponds to a “point”. But these points are arranged in different nested recursive complexity scales: primitive variables, morphemes of different layers, characters, words, sentences, super-phrases and texts. However, from the level of the morpheme, the internal structure of each point – which comes from the function(s) that generated the point – automatically determines all the semantic relationships that this point has with the other points, and these relationships are modelled as connections. There are obviously a large number of connection types, some very general (is contained in, has an intersection with, has an analogy with…) others more precise (is an instrument of, contradicts X, is logically compatible with, etc.).

The topos that match all the expressions of the IEML language with all the semantic relationships between its expressions is called “The Semantic Sphere”.

Algebraic structure of IEML

In the case of IEML, the algebraic structure is reduced to 

  • 1. Six primitive variables 
  • 2. A non-commutative multiplication with three variables (substance, attribute and mode). The IEML multiplication is isomorphic to the triplet ” departure vertex, arrival vertex, edge ” which is used to describe the graphs.
  • 3. A commutative addition that creates a set of objects.

This algebraic structure is used to construct the following functions and levels of variables…

1. Functions using primitive variables, called “morpheme paradigms”, have as inputs morphemes at layer n and as outputs morphemes at layer n+1. Morpheme paradigms include additions, multiplications, constants and variables and are visually presented in the form of tables in which rows and columns correspond to certain constants.

2. “Character paradigms” are complex additive functions that take morphemes as inputs and characters as outputs. Character paradigms include a group of constant morphemes and several groups of variables. A character is composed of 1 to 5 morphemes arranged in IEML alphabetical order. (Characters may not include more than five morphemes for cognitive management reasons).

3. IEML characters are assembled into words (a substance character, an attribute character, a mode character) by means of a multiplicative function called a “word paradigm”. A word paradigm intersects a series of characters in substance and a series of characters in attribute. The modes are chosen from predefined auxiliary character paradigms, depending on whether the word is a noun, a verb or an auxiliary. Words express subjects, keywords or hashtags. A word can be composed of only one character.

4. Sentence building functions assemble words by means of multiplication and addition, with the necessary constraints to obtain grammatical trees. Mode words describe the grammatical/semantic relationships between substance words (roots) and attribute words (leaves). Sentences express facts, proposals or events; they can take on different pragmatic and logical values.

5. Super-sentences are generated by means of multiplication and addition of sentences, with constraints to obtain grammatical trees. Mode sentences express relationships between substance sentences and attribute sentences. Super-sentences express hypotheses, theories or narratives.

6. A USL (Uniform Semantic Locator) or IEML text is an addition (a set) of words, sentences and super-sentences. 

Topological structure of IEML: a semantic rhizome

Static

The philosophical notion of rhizome (a term borrowed from botany) was developed on a philosophical level by Deleuze and Guattari in the preface to Mille Plateaux (Minuit 1980). In this Deleuzo-Guattarian lineage, by rhizome I mean here a complex graph whose points or “vertices” are organized into several levels of complexity (see the algebraic structure) and whose connections intersect several regular structures such as series, tree, matrix and clique. In particular, it should be noted that some structures of the IEML rhizome combine hierarchical or genealogical relationships (in trees) with transversal or horizontal relationships between “leaves” at the same level, which therefore do not respect the “hierarchical ladder”. 

Dynamic

We can distinguish the abstract, or virtual, rhizomatic grid drawn by the grammar of the language (the sphere to be dug) and the actualisation of points and relationships by the users of the language (the dug sphere of chambers and galleries).  Characters, words, sentences, etc. are all chambers in the centre of a star of paths, and the generating functions establish galleries of “rhizomatic” relationships between them, as many paths for exploring the chambers and their contents. It is therefore the users, by creating their lexicons and using them to index their data, communicate and present themselves, who shape and grow the rhizome…

Depending on whether circuits are more or less used, on the quantity of data or on the strength of interactions, the rhizome undergoes – in addition to its topological transformations – various types of quantitative or metric transformations. 

* The point to remember is that IEML is a language with calculable semantics because it is also an algebra (in the broad sense) and a complex topological space. 

* In the long term, IEML will be able to serve as a semantic coordinate system for the information world at large.

2 A research program in data science

The person in charge of the data science research sub-program is the software engineer (Eng. ENSIMAG, France) Louis van Beurden, who holds also a master’s degree in data science and machine translation from the University of Montréal, Canada. Louis is planning to complete a PhD in computer science in order to test the hypothesis that, from a data science perspective, a semantic metadata system in IEML is more efficient than a semantic metadata system in natural language and phonetic writing. This doctoral research will make it possible to implement phases A and B of the program below and to carry out our first experiment.

Background information

The basic cycle in data science can be schematized according to the following loop:

  • 1. selection of raw data,
  • 2. pre-processing, i.e. cleaning data and metadata imposition (cataloguing and categorization) to facilitate the exploitation of the results by human users,
  • 3. statistical processing,
  • 4. visual and interactive presentation of results,
  • 5. exploitation of the results by human users (interpretation, storytelling) and feedback on steps 1, 2, 3

Biases or poor quality of results may have several causes, but often come from poor pre-treatment. According to the old computer adage “garbage in, garbage out“, it is the professional responsibility of the data-scientists to ensure the quality of the input data and therefore not to neglect the pre-processing phase where this data is organized using metadata.

Two types of metadata can be distinguished: 1) semantic metadata, which describes the content of documents or datasets, and 2) ordinary metadata, which describes authors, creation dates, file types, etc. Let us call “semantic pre-processing” the imposition of semantic metadata on data.

Hypothesis

Since IEML is a univocal language and the semantic relationships between morphemes, words, sentences, etc. are mathematically computable, we assume that a semantic metadata system in IEML is more efficient than a semantic metadata system in natural language and phonetic writing. Of course, the efficiency in question is related to a particular task: search, data analysis, knowledge extraction from data, machine learning, etc.

In other words, compared to a “tokenization” of semantic metadata in phonetic writing noting a natural language, a “tokenization” of semantic metadata in IEML would ensure better processing, better presentation of results to the user and better exploitation of results. In addition, semantic metadata in IEML would allow datasets that use different languages, classification systems or ontologies to be de-compartmentalized, merged and compared.

Design of the first experience

The ideal way to do an experiment is to consider a multi-variable system and transform only one of the system variables, all other things being equal. In our case, it is only the semantic metadata system that must vary. This will make it easy to compare the system’s performance with one (phonetic tokens) or the other (semantic tokens) of the semantic metadata systems.

  • – The dataset of our first experience encompasses all the articles of the Sens Public scientific journal.
  • – Our ordinary metadata are the author, publication date, etc.
  • – Our semantic metadata describe the content of articles.
  •     – In phonetic tokens, using RAMEAU categories, keywords and summaries,
  •     – In IEML tokens by translating phonetic tokens.
  • – Our processes are “big data” algorithms traditionally used in natural language processing 
  •     – An algorithm for calculating the co-occurrences of keywords.
  •     – A TF-IDF (Term Frequency / Inverse Document Frequency) algorithm that works from a word / document matrix.
  •     – A clustering algorithm based on “word embeddings” of keywords in articles (documents are represented by vectors, in a space with as many dimensions as words).
  • – A user interface will offer a certain way to access the database. This interface will be obviously adapted to the user’s task (which remains to be chosen, but could be of the “data analytics” type).
  • Result 1 corresponds to the execution of the “machine task”, i.e. the establishment of a connection network on the articles (relationships, proximities, groupings, etc.). We’ll have to compare….
  •     – result 1.1 based on the use of phonetic tokens with 
  •     – result 1.2 based on the use of IEML tokens.
  • Result 2 corresponds to the execution of the selected user-task (data analytics, navigation, search, etc.). We’ll have to compare….
  •     – result 2.1, based on the use of phonetic tokens, with 
  •     – result 2.2, based on the use of IEML tokens.

Step A: First indexing of a database in IEML

Reminder: the data are the articles of the scientific journal, the semantic metadata are the categories, keywords and summaries of the articles. From the categories, keywords and article summaries, a glossary of the knowledge area covered by the journal is created, or a sub-domain if it turns out that the task is too difficult. It should be noted that in 2019 we do not yet have the software tools to create IEML sentences and super-phrases that allow us to express facts, proposals, theories, narratives, hypotheses, etc. Phrases and super-phrases, perhaps accessible in a year or two, will therefore have to wait for a later phase of the research.

The creation of the glossary will be the work of a project community, linked to the editors of Sens-Public magazine and the Canada Research Chair in Digital Writing (led by Prof. Marcello Vitali-Rosati) at the Université de Montréal (Digital Humanities). Pierre Lévy will accompany this community and help it to identify the constants and variables of its lexicon. One of the auxiliary goals of the research is to verify whether motivated communities can appropriate IEML to categorize their data. Once we are satisfied with the IEML indexing of the article database, we will proceed to the next step.

Step B: First experimental test

  • 1. The test is determined to measure the difference between results based on phonetic tokens and results based on IEML tokens. 
  • 2. All data processing operations are carried out on the data.
  • 3. The results (machine tasks and user tasks) are compared with both types of tokens.

The experiment can eventually be repeated iteratively with minor modifications until satisfactory results are achieved.

If the hypothesis is confirmed, we proceed to the next step

Step C: Towards an automation of semantic pre-processing in IEML.

If the superior efficiency of IEML tokens for semantic metadata is demonstrated, then there will be a strong interest in maximizing the automation of IEML semantic pre-processing

The algorithms used in our experiment are themselves powerful tools for data pre-processing, they can be used, according to methods to be developed, to partially automate semantic indexing in IEML. The “word embeddings” will make it possible to study how IEML words are correlated with the natural language lexical statistics of the articles and to detect anomalies. For example, we will check if similar USLs (a USL is an IEML text) point to very different texts or if very different texts have similar USLs. 

Finally, methods will be developed to use deep learning algorithms to automatically index datasets in IEML.

Step D: Research and development perspective in Semantic Machine Learning

If step C provides the expected results, i.e. methods using AI to automate the indexing of data in IEML, then big data indexed in IEML will be available.  As progress will be made, semantic metadata may become increasingly similar to textual data (summary of sections, paragraphs, sentences, etc.) until translation into IEML is achieved, which remains a distant objective.

The data indexed in IEML could then be used to train artificial intelligence algorithms. The hypothesis that machines learn more easily when data is categorized in IEML could easily be validated by experiments of the same type as described above, by comparing the results obtained from training data indexed in IEML and the results obtained from the same data indexed in natural languages.

This last step paves the way for a better integration of statistical AI and symbolic AI (based on facts and rules, which can be expressed in IEML).

3 A research program in linguistics, humanities and social sciences

Introduction

The semiotic and linguistic development program has two interdependent components:

1. The development of the IEML metalanguage

2. The development of translation systems and bridges between IEML and other sign systems, in particular… 

  •     – natural languages,
  •     – logical formalisms,
  •     – pragmatic “language games” and games in general,
  •     – iconic languages,
  •     – artistic languages, etc.

This research and development agenda, particularly in its linguistic dimension, is important for the digital humanities. Indeed, IEML can serve as a system of semantic coordinates of the cultural universe, thus allowing the humanities to cross a threshold of scientific maturity that would bring their epistemological status closer to that of the natural sciences. Using IEML to index data and to formulate assumptions would result in….

  • (1) a de-silo of databases used by researchers in the social sciences and humanities, which would allow for the sharing and comparison of categorization systems and interpretive assumptions;
  • (2) an improved analysis of data.
  • (3) The ultimate perspective, set out in the article “The Role of the Digital Humanities in the New Political Space” (http://sens-public.org/article1369.html in French), is to aim for a reflective collective intelligence of the social sciences and humanities research community. 

But IEML’s research program in the perspective of the digital humanities – as well as its research program in data science – requires a living and dynamic semiotic and linguistic development program, some aspects of which I will outline here.

IEML and the Meaning-Text Theory

IEML’s linguistic research program is very much based on the Meaning-Text theory developed by Igor Melchuk and his school. “The main principle of this theory is to develop formal and descriptive representations of natural languages that can serve as a reliable and convenient basis for the construction of Meaning-Text models, descriptions that can be adapted to all languages, and therefore universal. ”(Excerpt translated from the Wikipedia article on Igor Melchuk). Dictionaries developed by linguists in this field connect words according to universal “lexical functions” identified through the analysis of many languages. These lexical functions have been formally transposed into the very structure of IEML (See the IEML Glossary Creation Guide) so that the IEML dictionary can be organized by the same tools (e.g. Spiderlex) as those of the Meaning-Text Theory research network. Conversely, IEML could be used as a pivot language – or concept description language – *between* the natural language dictionaries developed by the network of researchers skilled in Meaning-Text theory.

Construction of specialized lexicons in the humanities and social sciences

A significant part of the IEML lexicon will be produced by communities having decided to use IEML to mark out their particular areas of knowledge, competence or interaction. Our research in specialized lexicon construction aims to develop the best methods to help expert communities produce IEML lexicons. One of the approaches consists in identifying the “conceptual skeleton” of a domain, namely its main constants in terms of character paradigms and word paradigms. 

The first experimentation of this type of collaborative construction of specialized lexicons by experts will be conducted by Pierre Lévy in collaboration with the editorial team of the Sens Public scientific journal and the Canada Research Chair in Digital Textualities at the University of Montréal (led by Prof. Marcello Vitali-Rosati). Based on a determination of their economic and social importance, other specialized glossaries can be constructed, for example on the theme of professional skills, e-learning resources, public health prevention, etc.

Ultimately, the “digital humanities” branch of IEML will need to collaboratively develop a conceptual lexicon of the humanities to be used for the indexation of books and articles, but also chapters, sections and comments in documents. The same glossary should also facilitate data navigation and analysis. There is a whole program of development in digital library science here. I would particularly like to focus on the human sciences because the natural sciences have already developed a formal vocabulary that is already consensual.

Construction of logical, pragmatic and narrative character-tools

When we’ll have a sentence and super-phrase editor, it is planned to establish a correspondence between IEML – on the one hand – and propositional calculus and first order logics – on the other hand –. This will be done by specifying special character-tools to implement logical functions. Particular attention will be paid to formalizing the definition of rules and the declaration that “facts” are true in IEML. It should be noted in passing that, in IEML, grammatical expressions represent classes, sets or categories, but that logical individuals (proper names, numbers, etc.) or instances of classes are represented by “literals” expressed in ordinary characters (phonetic alphabets, Chinese characters, Arabic numbers, URLs, etc.).

In anticipation of practical use in communication, games, commerce, law (smart contracts), chatbots, robots, the Internet of Things, etc., we will develop a range of character-tools with illocutionary force such as “I offer”, “I buy”, “I quote”, “I give an instruction”, etc.

Finally, we will making it easier for authors of super-sentences by developing a range of character-tools implementing “narrative functions”.

4 A software development program

A software environment for the development and public use of the IEML language

Logically, the first multi-user IEML application will be dedicated to the development of the language itself. This application is composed of the following three web modules.

  • 1. A morpheme editor that also allows you to navigate in the morphemes database, or “dictionary”.
  • 2. A character and word editor that also allows navigation in the “lexicon”.
  • 3. A navigation and reading tool in the IEML library as a whole, or “IEML database” that brings together the dictionary and lexicon, with translations, synonyms and comments in French and English for the moment.

The IEML database is a “Git” database and is currently hosted by GitHub. Indeed, a Git database makes it possible to record successive versions of the language, as well as to monitor and model its growth. It also allows large-scale collaboration among teams capable of developing specific branches of the lexicon independently and then integrating them into the main branch after discussion, as is done in the collaborative development of large software projects. As soon as a sub-lexicon is integrated into the main branch of the Git database, it becomes a “common” usable by everyone (according to the latest General Public License version.

Morpheme and word editors are actually “Git clients” that feed the IEML database. A first version of this collaborative read-write environment should be available in the fall of 2019 and then tested by real users: the editors of the Scientific Journal “Sens Public” as well as other participants in the University of Montréal’s IEML seminar.

The following versions of the IEML read/write environment should allow the editing of sentences and texts as well as literals that are logical individuals not translated into IEML, such as proper names, numbers, URLs, etc.

A social medium for collaborative knowledge management

A large number of applications using IEML can be considered, both commercial and non-commercial. Among all these applications, one of them seems to be particularly aligned with the public interest: a social medium dedicated to collaborative knowledge and skills management. This new “place of knowledge” could allow the online convergence of the missions of… 

  • – museums and libraries, 
  • – schools and universities, 
  • – companies and administrations (with regard to their knowledge creation and management dimension), 
  • – smart cities, employment agencies, civil society networks, NGO, associations, etc.

According to its general philosophy, such a social medium should…

  • – be supported by an intrinsically distributed platform, 
  • – have the simplicity – or the economy of means – of Twitter,
  • – ensure the sovereignty of users over their data,
  • – promote collaborative processes.

The main functions performed by this social medium would be:

  • – data curation (reference and categorization of web pages, edition of resource collections), 
  • – teaching offers and learning demands,
  • – offers and demands for skills, or employment market.

IEML would serve as a common language for

  • – data categorization, 
  • – description of the knowledge and skills, 
  • – the expression of acts within the social medium (supply, demand, consent, publish, etc.)
  • – addressing users through their knowledge and skills.

Three levels of meaning would thus be formalized in this medium.

  • (1) The linguistic level in IEML  – including lexical and narrative functions – formalizes what is spoken about (lexicon) and what is said (sentences and super-phrases).
  • – (2) The logical – or referential – level adds to the linguistic level… 
  •     – logical functions (first order logic and propositional logic) expressed in IEML using logical character-tools,
  •     – the ability of pointing to references (literals, document URLs, datasets, etc.),
  •     – the means to express facts and rules in IEML and thus to feed inference engines.
  • – (3) The pragmatic level adds illocutionary functions and users to the linguistic and logical levels.
  •     – Illocutionary functions (thanks to pragmatic character-tools) allow the expression of conventional acts and rules (such as “game” rules). 
  •     – The pragmatic level obviously requires the consideration of players or users, as well as user groups.
  •     – It should be noted that there is no formal difference between logical inference and pragmatic inference but only a difference in use, one aiming at the truth of propositions according to referred states of things, the other calculating the rights, obligations, gains, etc. of users according to their actions and the rules of the games they play.

The semantic profiles of users and datasets will be arranged according to the three levels that have just been explained. The “place of knowledge” could be enhanced by the use of tokens or crypto-currencies to reward participation in collective intelligence. If successful, this type of medium could be generalized to other areas such as health, democratic governance, trade, etc.

I put forward in this paper a vision for a new generation of cloud-based public communication service designed to foster reflexive collective intelligence. I begin with a description of the current situation, including the huge power and social shortcomings of platforms like Google, Apple, Facebook, Amazon, Microsoft, Alibaba, Baidu, etc. Contrasting with the practice of these tech giants, I reassert the values that are direly needed at the foundation of any future global public sphere: openness, transparency and commonality. But such ethical and practical guidelines are probably not powerful enough to help us crossing a new threshold in collective intelligence. Only a disruptive innovation in cognitive computing will do the trick. That’s why I introduce “deep meaning” a new research program in artificial intelligence, based on the Information Economy  MetaLanguage (IEML). I conclude this paper by evoking possible bootstrapping scenarii for the new public platform.

The rise of platforms

At the end of the 20th century, one percent of the human population was connected to the Internet. In 2017, more than half the population is connected. Most of the users interact in social media, search information, buy products and services online. But despite the ongoing success of digital communication, there is a growing dissatisfaction about the big tech companies – the “Silicon Valley” – who dominate the new communication environment.

The big techs are the most valued companies in the world and the massive amount of data that they possess is considered the most precious good of our time. Silicon Valley owns the big computers: the network of physical centers where our personal and business data are stored and processed. Their income comes from their economic exploitation of our data for marketing purposes and from their sales of hardware, software or services. But they also derive considerable power from the knowledge of markets and public opinions that stems from their information control.

The big cloud companies master new computing techniques mimicking neurons when they learn a new behavior. These programs are marketed as deep learning or artificial intelligence even if they have no cognitive autonomy and need some intense training on huge masses of data. Despite their well known limitations, machine learning algorithms have effectively augmented the abilities of digital systems. Deep learning is now used in every economic sector. Chips specialized in deep learning are found in big data centers, smartphones, robots and autonomous vehicles. As Vladimir Putin rightly told young Russians in his speech for the first day of school in fall 2017: “Whoever becomes the leader in this sphere [of artificial intelligence] will become the ruler of the world”.

The tech giants control huge business ecosystems beyond their official legal borders and they can ruin or buy competitors. Unfortunately, the big tech rivalry prevents a real interoperability between cloud services, even if such interoperability would be in the interest of the general public and of many smaller businesses. As if their technical and economic powers were not enough, the big tech are now playing into the courts of governments. Facebook warrants our identity and warns our family and friends that we are safe when a terrorist attack or a natural disaster occurs. Mark Zuckerberg states that one of Facebook’s mission is to insure that the electoral process is fair and open in democratic countries. Google Earth and Google Street View are now used by several municipal instances and governments as their primary source of information for cadastral plans and other geographical or geospatial services. Twitter became an official global political, diplomatic and news service. Microsoft sells its digital infrastructure to public schools. The kingdom of Denmark opened an official embassy in Silicon Valley. Cryptocurrencies independent from nation states (like Bitcoin) are becoming increasingly popular. Blockchain-based smart contracts (powered by Ethereum) bypass state authentication and traditional paper bureaucracies. Some traditional functions of government are taken over by private technological ventures.

This should not come as a surprise. The practice of writing in ancient palace-temples gave birth to government as a separate entity. Alphabet and paper allowed the emergence of merchant city-states and the expansion of literate empires. The printing press, industrial economy, motorized transportation and electronic media sustained nation-states. The digital revolution will foster new forms of government. Today, we discuss political problems in a global public space taking advantage of the web and social media and the majority of humans live in interconnected cities and metropoles. Each urban node wants to be an accelerator of collective intelligence, a smart city. We need to think about public services in a new way. Schools, universities, public health institutions, mail services, archives, public libraries and museums should take full advantage of the internet and de-silo their datasets. But we should go further. Are current platforms doing their best to enhance collective intelligence and human development? How about giving back to the general population the data produced in social media and other cloud services, instead of just monetizing it for marketing purposes ? How about giving to the people access to cognitive powers unleashed by an ubiquitous algorithmic medium?

Information wants to be open, transparent and common

We need a new kind of public sphere: a platform in the cloud where data and metadata would be our common good, dedicated to the recording and collaborative exploitation of memory in the service of our collective intelligence. The core values orienting the construction of this new public sphere should be: openness, transparency and commonality

Firstly openness has already been experimented in the scientific community, the free software movement, the creative commons licensing, Wikipedia and many more endeavors. It has been adopted by several big industries and governments. “Open by default” will soon be the new normal. Openness is on the rise because it maximizes the improvement of goods and services, fosters trust and supports collaborative engagement. It can be applied to data formats, operating systems, abstract models, algorithms and even hardware. Openness applies also to taxonomies, ontologies, search architectures, etc. A new open public space should encourage all participants to create, comment, categorize, assess and analyze its content.

Then, transparency is the very ground for trust and the precondition of an authentic dialogue. Data and people (including the administrators of a platform), should be traceable and audit-able. Transparency should be reciprocal, without distinction between the rulers and the ruled. Such transparency will ultimately be the basis for reflexive collective intelligence, allowing teams and communities of any size to observe and compare their cognitive activity

Commonality means that people will not have to pay to get access to this new public sphere: all will be free and public property. Commonality means also transversality: de-silo and cross-pollination. Smart communities will interconnect and recombine all kind of useful information: open archives of libraries and museums, free academic publications, shared learning resources, knowledge management repositories, open-source intelligence datasets, news, public legal databases…

From deep learning to deep meaning

This new public platform will be based on the web and its open standards like http, URL, html, etc. Like all current platforms, it will take advantage of distributed computing in the cloud and it will use “deep learning”: an artificial intelligence technology that employs specialized chips and algorithms that roughly mimic the learning process of neurons. Finally, to be completely up to date, the next public platform will enable blockchain-based payments, transactions, contracts and secure records

If a public platform offers the same technologies as the big tech (cloud, deep learning, blockchain), with the sole difference of openness, transparency and commonality, it may prove insufficient to foster a swift adoption, as is demonstrated by the relative failures of Diaspora (open Facebook) and Mastodon (open Twitter). Such a project may only succeed if it comes up with some technical advantage compared to the existing commercial platforms. Moreover, this technical advantage should have appealing political and philosophical dimensions.

No one really fancies the dream of autonomous machines, specially considering the current limitations of artificial intelligence. Instead, we want an artificial intelligence designed for the augmentation of human personal and collective intellect.

Language as a platform

In order to augment the human intellect, we need both statistical and symbolic AI! Right now deep learning is based on neural networks simulation. It is enough to model roughly animal cognition (every animal species has neurons) but it is not refined enough to model human cognition. The difference between animal cognition and human cognition is the reflexive thinking that comes from language and explicit modelling. Why not adding a layer of semantic addressing on top of neural connectivity. In human cognition, the categories that organize perception, action, memory and learning are expressed linguistically so they may be reflected upon and shared in conversations. A language works like the semantic addressing system of a social virtual database.

But there is a problem with natural languages (english, french, arabic, etc.), they are irregular and do not lend themselves easily to machine understanding, I mean real understanding (projection of data on semantic networks) and not stochastic parroting. The current trend in natural language processing, an important field of artificial intelligence, is to use statistical algorithms and deep learning methods to understand and produce linguistic data. But instead of using only statistics, “deep meaning” adopts in addition a regular and computable metalanguage. I have designed IEML (Information Economy MetaLanguage) from the beginning to optimize semantic computing. IEML words are built from six primitive symbols and two operations: addition and multiplication. The semantic relations between IEML words follow the lines of their generative operations. The total number of words do not exceed 3 000. From its dictionary, the generative grammar of IEML allows the construction of recursive sentences that can define complex concepts and their relations. IEML would be the semantic addressing system of a social database.

Given large datasets, deep meaning allows the automatic computing of semantic relations between data, semantic analysis and semantic visualizations. This new technology fosters semantic interoperability: it decompartmentalizes tags, folksonomies, taxonomies, ontologies and languages. When on line communities categorize, assess and exchange semantic data, they generate explorable ecosystems of ideas that represent their collective intelligence. Take note that the vision of collective intelligence proposed here is distinct from the “wisdom of the crowd” model, that assumes independent agents and excludes dialogue and reflexivity. Just the opposite : deep meaning was designed from the beginning to nurture dialogue and reflexivity.

The main functions of the new public sphere

deepmeaning

In the new public sphere, every netizen will act as an author, editor, artist, curator, critique, messenger, contractor and gamer. The next platform weaves five functions together: curation, creation, communication, transaction and immersion.

By curation I mean the collaborative creation, edition, analysis, synthesis, visualization, explanation and publication of datasets. People posting, liking and commenting content on social media are already doing data curation, in a primitive, simple way. Active professionals in the fields of heritage preservation (library, museums), digital humanities, education, knowledge management, data-driven journalism or open-source intelligence practice data curation in a more systematic and mindful manner. The new platform will offer a consistent service of collaborative data curation empowered by a common semantic addressing system.

Augmented by deep meaning technology, our public sphere will include a semantic metadata editor applicable to any document format. It will work as a registration system for the works of the mind. Communication will be ensured by a global Twitter-like public posting system. But instead of the current hashtags that are mere sequences of characters, the new semantic tags will self-translate in all natural languages and interconnect by conceptual proximity. The blockchain layer will allow any transaction to be recorded. The platform will remunerate authors and curators in collective intelligence coins, according to the public engagement generated by their work. The new public sphere will be grounded in the internet of things, smart cities, ambient intelligence and augmented reality. People will control their environment and communicate with sensors, software agents and bots of all kinds in the same immersive semantic space. Virtual worlds will simulate the collective intelligence of teams, networks and cities.

Bootstrapping

How to bridge the gap from the fundamental research to the full scale industrial platform? Such endeavor will be much less expensive than the conquest of space and could bring a tremendous augmentation of human collective intelligence. Even if the network effect applies obviously to the new public space, small communities of pioneers will benefit immediately from its early release. On the humanistic side, I have already mentioned museums and libraries, researchers in humanities and social science, collaborative learning networks, data-oriented journalists, knowledge management and business intelligence professionals, etc. On the engineering side, deep meaning opens a new sub-field of artificial intelligence that will enhance current techniques of big data analytics, machine learning, natural language processing, internet of things, augmented reality and other immersive interfaces. Because it is open source by design, the development of the new technology can be crowdsourced and shared easily among many different actors.

Let’s draw a distinction between the new public sphere, including its semantic coordinate system, and the commercial platforms that will give access to it. This distinction being made, we can imagine a consortium of big tech companies, universities and governments supporting the development of the global public service of the future. We may also imagine one of the big techs taking the lead to associate its name to the new platform and developing some hardware specialized in deep meaning. Another scenario is the foundation of a company that will ensure the construction and maintenance of the new platform as a free public service while sustaining itself by offering semantic services: research, consulting, design and training. In any case, a new international school must be established around a virtual dockyard where trainees and trainers build and improve progressively the semantic coordinate system and other basic models of the new platform. Students from various organizations and backgrounds will gain experience in the field of deep meaning and will disseminate the acquired knowledge back into their communities.

Emission de radio (Suisse romande), 25 minutes en français.

Sémantique numérique et réseaux sociaux. Vers un service public planétaire, 1h en français

You-Tube Video (in english) 1h

Diapositive1.jpg
FIGURE 1

J’ai montré dans un post précédent, l’importance contemporaine de la curation collaborative de données.  Les compétences dans ce domaine sont au coeur de la nouvelle litéracie algorithmique. La figure 1 présente ces compétences de manière systématique et, ce faisant, elle met en ordre les savoir-faire intellectuels et pratiques tout comme les « savoir-être » éthiques qui supportent l’augmentation de l’intelligence collective en ligne. L’étoile évoque le signe, le visage l’être et le cube la chose (sur ces concepts voir ce post). La table est organisée en trois rangées et trois colonnes interdépendantes. La première rangée explicite les fondements de l’intelligence algorithmique au niveau personnel, la seconde rappelle l’indispensable travail critique sur les sources de données et la troisième détaille les compétences nécessaires à l’émergence d’une intelligence collective augmentée par les algorithmes. L’intelligence personnelle et l’intelligence collective travaillent ensemble et ni l’une ni l’autre ne peuvent se passer d’intelligence critique ! Les colonnes évoquent trois dimensions complémentaires de la cognition : la conscience réflexive, la production de signification et la mémoire. Aucune d’elles ne doit être tenue pour acquise et toutes peuvent faire l’objet d’entraînement et de perfectionnement. Dans chaque case, l’item du haut pointe vers un exercice de virtualisation tandis que celui du bas indique une mise en oeuvre actuelle de la compétence, plus concrète et située. Je vais maintenant commenter le tableau de la figure 1 rangée par rangée.

L’intelligence personnelle

La notion d’intelligence personnelle doit ici s’entendre au sens d’une compétence cognitive individuelle. Mais elle tire également vers la signification du mot « intelligence » en anglais. Dans ce dernier sens, elle désigne la capacité d’un individu à mettre en place son propre système de renseignement.

La gestion de l’attention ne concerne pas seulement l’exercice de la concentration et l’art complémentaire d’éviter les distractions. Elle inclut aussi le choix réfléchi de priorités d’apprentissage et le discernement de sources d’information pertinentes. Le curateur lui-même doit décider de ce qui est pertinent et de ce qui ne l’est pas selon ses propres critères et en fonction des priorités qu’il s’est donné. Quant à la notion de source, est-il besoin de souligner ici que seuls les individus, les groupes et les institutions peuvent être ainsi qualifiés. Seuls donc ils méritent la confiance ou la méfiance. Quant aux médias sociaux, ce ne sont en aucun cas des sources (contrairement à ce que croient certains journalistes) mais plutôt des plateformes de communication. Prétendre, par exemple, que « Twitter n’est pas une source fiable », n’a pas plus de sens que l’idée selon laquelle « le téléphone n’est pas une source fiable ».

L’interpretation des données relève également de la responsabilité des curateurs. Avec tous les algorithmes statistiques et tous les outils d’analyse automatique de données (« big data analytics ») du monde, nous aurons encore besoin d’hypothèses causales, de théories et de systèmes de catégorisation pour soutenir ces théories. Les corrélations statistiques peuvent suggérer des hypothèses causales mais elles ne les remplacent pas. Car nous voulons non seulement prédire le comportement de phénomènes complexes, mais aussi les comprendre et agir sur la base de cette compréhension. Or l’action efficace suppose une saisie des causes réelles et non seulement la perception de corrélations. Sans les intuitions et les théories dérivées de notre connaissance personnelle d’un domaine, les outils d’analyse automatique de données ne seront pas utilisés à bon escient. Poser de bonnes questions aux données n’est pas une entreprise triviale !

Finalement, les données collectionnées doivent être gérées au plan matériel. Il nous faut donc choisir les bons outils d’entreposage dans les « nuages » et savoir manipuler ces outils. Mais la mémoire doit être aussi entretenue au niveau conceptuel. C’est pourquoi le bon curateur est capable de créer, d’adopter et surtout de maintenir un système de catégorisation qui lui permettra de retrouver l’information désirée et d’extraire de ses collections la connaissance qui lui sera utile.

L’intelligence critique

L’intelligence critique porte essentiellement sur la qualité des sources. Elle exige d’abord un travail de critique « externe ». Nous savons qu’il n’existe pas d’autorité transcendante dans le nouvel espace de communication. Si nous ne voulons pas être trompé, abusé, ou aveuglé par des oeillères informationnelles, il nous faut donc autant que possible diversifier nos sources. Notre fenêtre d’attention doit être maintenue bien ouverte, c’est pourquoi nous nous abonnerons à des sources adoptant divers points de vue, récits organisateurs et théories. Cette diversité nous permettra de croiser les données, d’observer les sujets sur lesquelles elles se contredisent et ceux sur lesquelles elles se confirment mutuellement.

L’évaluation des sources demande également un effort de décryptage des identités : c’est la critique « interne ». Pour comprendre la nature d’une source, nous devons reconnaître son système de classification, ses catégories maîtresses et son récit organisateur. En un sens, une source n’est autre que le récit autour duquel elle organise ses données : sa manière de produire du sens.

Finalement l’intelligence critique possède une dimension « pragmatique ». Cette critique est la plus dévastatrice parce qu’elle compare le récit de la source avec ce qu’elle fait réellement. Je vise ici ce qu’elle fait en diffusant ses messages, c’est-à-dire l’effet concret de ses actes de communication sur les conversations en cours et l’état d’esprit des participants. Je vise également les contributions intellectuelles et esthétiques de la source, ses interactions économiques, politiques, militaires ou autres telles qu’elles sont rapportées par d’autres sources. Grâce à cette bonne mémoire nous pouvons noter les contradictions de la source selon les moments et les publics, les décalages entre son récit officiel et les effets pratiques de ses actions. Enfin, plus une source se montre transparente au sujet de ses propres sources d’informations, de ses références, de son agenda et de son financement et plus elle est fiable. Inversement, l’opacité éveille les soupçons.

L’intelligence collective

Je rappelle que l’intelligence collective dont il est question ici n’est pas une « solution miracle » mais un savoir-faire à cultiver qui présuppose et renforce en retour les intelligences personnelles et critiques.

Commençons par définir la stigmergie : il s’agit d’un mode de communication dans lequel les agents se coordonnent et s’informent mutuellement en modifiant un environnement ou une mémoire commune. Dans le médium algorithmique, la communication tend à s’établir entre des pairs qui créent, catégorisent, critiquent, organisent, lisent, promeuvent et analysent des données au moyen d’outils algorithmiques. Il s’agit bien d’une communication stigmergique parce que, même si les personnes dialoguent et se parlent directement, le principal canal de communication reste une mémoire commune que les participants exploitent et transforment ensemble. Il est utile de distinguer entre les mémoires locale et globale. Dans la mémoire « locale » de réseaux ou de communautés particulières, nous devons prêter attention à des contextes et à des histoires singulières. Il est également recommandé de tenir compte des contributions des autres participants, de ne pas aborder des sujets non-pertinents pour le groupe, d’éviter les provocations, les explosions d’agressivité, les provocations, etc.

Quant à la mémoire « globale », il faut se souvenir que chaque action dans le médium algorithmique réorganise – même de façon infinitésimale – la mémoire commune : lire, taguer, acheter, poster, créer un hyperlien, souscrire, s’abonner, « aimer », etc. Nous créons notre environnement symbolique de manière collaborative. Le bon agent humain de l’intelligence collective gardera donc à la conscience que ses actions en ligne contribuent à l’information des autres agents.

La liberté dont il est question dans la figure 1 se présente comme une dialectique entre pouvoir et responsabilité. Le pouvoir recouvre notre capacité à créer, évaluer, organiser, lire et analyser les données, notre aptitude à faire évoluer la mémoire commune à partir de la multitude distribuée de nos actions. La responsabilité se fonde sur une conscience réfléchie de notre pouvoir collectif, conscience qui informe en retour l’orientation de notre attention et le sens que nous donnons à l’exercice de nos pouvoirs.

Diapositive4.jpg

FIGURE 2

L’apprentissage collaboratif

Finalement, l’apprentissage collaboratif est un des processus cognitifs majeurs de l’intelligence collective et le principal bénéfice social des habiletés en curation de données. Afin de bien saisir ce processus, nous devons distinguer entre savoirs tacites et savoirs explicites. Les savoirs tacites recouvrent ce que les membres d’une communauté ont appris dans des contextes particuliers, les savoir-faire internalisés dans les réflexes personnels à partir de l’expérience. Les savoirs explicites, en revanche, sont des récits, des images, des données, des logiciels ou d’autres ressources documentaires, qui sont aussi clairs et décontextualisés que possible, afin de pouvoir être partagés largement.

L’apprentissage collaboratif enchaîne deux mouvements. Le premier consiste à traduire le savoir tacite en savoir explicite pour alimenter une mémoire commune. Dans un second mouvement, complémentaire du premier, les participants exploitent le savoir explicite et les ressources d’apprentissage disponibles dans la mémoire commune afin d’adapter ces connaissances à leur contexte particulier et de les intégrer dans leurs réflexes quotidiens. Les curateurs sont potentiellement des étudiants ou des apprenants lorsqu’ils internalisent un savoir explicite et ils peuvent se considérer comme des enseignants lorsqu’ils mettent des savoirs explicites à la disposition des autres. Ce sont donc des pairs (voir la figure 2) qui travaillent dans un champ de pratique commun. Ils transforment autant que possible leur savoir tacite en savoir explicite et travaillent en retour à traduire la partie des connaissances explicites qu’ils veulent acquérir en savoir pratique personnel. J’écris “autant que possible” parce que l’explicitation totale du savoir tacite est hors de portée, comme l’a bien montré Michael Polanyi.

Dans le médium algorithmique, le savoir explicite prend la forme de données catégorisées et évaluées. Le cycle de transformation des savoirs tacites en savoirs explicites et vice versa prend place dans les médias sociaux, où il est facilité par une conversation créative civilisée : les compétences intellectuelles et sociales (ou morales) fonctionnent ensemble !