Archives for posts with tag: linguistics
L’Ecole d’Athènes par Raphael

Un langage scientifique

IEML est un acronyme pour Information Economy MetaLanguage ou, en français : le métalangage de l’économie de l’information. IEML est le fruit de trente ans de recherche fondamentale sous la direction de Pierre Lévy dont quatorze ans ont été financés par le gouvernement fédéral canadien dans le cadre de la Chaire de Recherche du Canada en Intelligence Collective à l’Université d’Ottawa (2002-2016). IEML est en 2020 le seul langage qui possède les trois propriétés suivantes :

  • il a la puissance d’expression d’une langue naturelle ;
  • il possède la syntaxe d’un langage régulier ;
  • sa sémantique est univoque et calculable, parce qu’elle est alignée sur sa syntaxe.

En d’autres termes, c’est un « système symbolique bien formé », qui comporte une bijection entre un ensemble de relations entre signifiés (une langue) et un ensemble de relations entre signifiants (une algèbre) et qui peut être manipulé par un ensemble d’opérations symétriques et automatisables.

Sur la base de ces propriétés, on peut utiliser IEML comme un système de codage des concepts qui résoud de manière originale le problème de l’interopérabilité sémantique, pose les bases d’une nouvelle génération d’intelligence artificielle et autorise une réflexivité de l’intelligence collective. IEML respecte les standards du Web et s’exporte en RDF. Les expressions IEML sont appelées des USLs (Uniform Semantic Locators). Elles se lisent et se traduisent dans n’importe quelle langue naturelle. Les ontologies sémantiques – ensembles d’expressions IEML liés par un réseau de relations – sont interopérables par construction. IEML fournit le système de coordonnées d’une base de connaissances commune qui alimente aussi bien les raisonnements automatiques que les calculs statistiques. En somme, IEML accomplit la promesse du Web sémantique grâce à sa signification calculable et à ses ontologies inter-opérables. La grammaire d’IEML se décompose en trois couches : les éléments, les mots, les phrases et les textes. On trouvera des exemples d’éléments et de mots à l’adresse https://dev.intlekt.io/.

Les éléments

Les éléments sont les briques de base, ou concepts élémentaires, à partir desquelles toutes les expressions du langage sont composées. Un dictionnaire d’environ 5000 éléments traduits en langues naturelles est donné avec le langage et partagé entre tous ses utilisateurs. L’inter-opérabilité sémantique vient du fait que tout le monde partage le même ensemble d’éléments dont les sens sont fixés. Le dictionnaire est organisé en tables et sous-tables se rapportant à un même thème et les éléments se définissent réciproquement grâce à un réseau de relations sémantiques explicites. IEML autorise la conception d’une variété illimitée de concepts à partir d’un nombre limité d’éléments.

Exemple d’une table d’éléments

L’utilisateur n’a pas à se soucier des règles à partir desquelles les éléments sont construits. Sachons toutefois qu’ils sont engendrés de manière régulière à partir de six symboles primitifs qui forment la couche 0 du langage et que, l’opération générative étant récursive, les éléments s’étagent sur six couches au-dessus de la couche zéro.

Les mots  

A partir du dictionnaire des éléments et des règles de grammaire, les utilisateurs peuvent librement modéliser un domaine de connaissance ou de pratique en IEML. Ces modèles peuvent être originaux ou traduire des métadonnées sémantiques existantes. 

L’unité de base des phrases est le mot. Un mot est un couple composé de deux petits ensembles d’éléments : le radical et la flexion. Le choix des éléments de radical est libre mais les éléments de flexion sont sélectionnés dans une liste fermée de tables d’éléments correspondant à des adverbes, prépositions, postpositions, articles, conjugaisons, déclinaisons, modes, etc. (voir les « morphèmes auxiliaires » dans https://dev.intlekt.io/)

Chaque mot correspond à un concept distinct qui pourra se traduire, selon les indications de son auteur et son rôle grammatical, comme un verbe (encourager), un nom (courage), un adjectif (courageux) ou un adverbe (courageusement). 

Les phrases

Les mots se distribuent sur un arbre syntagmatique composé d’une racine (verbale ou nominale) et de huit feuilles correspondant aux rôles de la grammaire classique : sujet, objet, complément de temps, de lieu, etc.

Les neuf rôles grammaticaux

Les neuf rôles grammaticaux

  • La racine de la phrase peut être un process (un verbe), une substance, une essence, l’affirmation d’une existence… 
  • L’initiateur est le sujet d’un process. Il répond à la question « qui? ». Il peut aussi définir les conditions initiales, le premier moteur, la cause première du concept évoqué par la phrase.
  • L’interactant correspond à l’objet de la grammaire classique. Il répond à la question « quoi? ». Il joue aussi le rôle de médium dans la relation entre l’initiateur et le destinataire. 
  • Le destinataire est le bénéficiaire (ou la victime) d’un process. Il répond aux questions « pour qui, à qui, envers qui? » 
  • Le temps répond à la question « quand? ». Il indique le moment dans le passé, le présent, ou le futur et donne des repères quant à l’antériorité, la postériorité, la durée, la date, la fréquence. 
  • Le lieu répond à la question « où? ». Il indique la localisation, la distribution dans l’espace, l’allure du mouvements, les trajets, les chemins, les relations et métaphores spatiales. 
  • L’intention répond à la question de la finalité, du but, de la motivation : « pour quoi? » « A quelle fin? » Il concerne l’orientation mentale, la direction de l’action, le contexte pragmatique, l’émotion ou le sentiment.
  • La manière répond aux questions « comment? » et « combien? ». Elle situe la phrase sur une gamme de qualités ou sur une échelle de valeurs. Elle spécifie les quantités, gradients, mesures et tailles. Elle indique aussi les propriétés, les genres et les styles.
  • La causalité répond à la question « pourquoi? ». Elle précise les déterminations logiques, matérielles et formelles. Elle décrit les causes qui n’ont pas été spécifiées par l’initiateur, l’interactant ou le destinataire : médias, instruments, effets, conséquences. Elle décrit également les unités de mesure et les méthodes. Elle peut également spécifier les règles, lois, raisons, points de vue, conditions et contrats.

Par exemple : Robert (initiateur) offre (racine-process) un cadeau (interactant) à Marie (destinataire) aujourd’hui (temps) dans le jardin (lieu), pour lui faire plaisir (intention), en souriant (manière), pour son anniversaire (causalité).

Les jonctions 

IEML autorise la jonction de plusieurs mots dans le même rôle syntagmatique. Il peut s’agir d’une connexion logique (et, ou inclusif ou bien exclusif), d’une comparaison (même que, différent de), d’un rangement (plus grand que, plus petit que…), d’une antinomie (mais, malgré…), etc.

Les couches de complexité 

Les rôles grammaticaux d’une phrase complexe

Un mot qui joue l’un des huit rôles de feuille dans la couche de complexité 1 peut jouer le rôle de racine secondaire dans la couche de complexité 2, et ainsi de suite récursivement jusqu’à la couche 4.

Les littéraux

IEML stricto sensu ne permet d’exprimer que des catégories ou des concepts généraux. Il est néanmoins possible d’insérer dans une phrase des nombres, des unités de mesure, des dates, des positions géographiques, des noms propres et autres à condition de les catégoriser en IEML. Par exemple t.u.-t.u.-‘ [23] signifie « nombre : 23 ». Les noms d’individus, les nombres, etc. sont appelés littéraux en IEML.

Les textes 

Les relations 

Une relation sémantique est une phrase d’un format spécial qui sert à lier un noeud de départ (élément, mot, phrase) à un noeud d’arrivée. IEML inclut un langage de requête permettant de programmer facilement des relations sémantiques sur un ensemble de noeuds. 

Par construction, une relation sémantique explicite les quatre points qui suivent.

  1. La fonction qui relie le noeud de départ et le noeud d’arrivée.
  2. La forme mathématique de la relation : relation d’équivalence, relation d’ordre, relation symétrique intransitive ou relation asymétrique intransitive.
  3. Le genre de contexte ou de règle sociale qui valide la relation : syntaxique, légal, ludique, scientifique, pédagogique, etc.
  4. Le contenu de la relation : logique, taxinomique, méréologique (rapport tout-partie), temporelle, spatiale, quantitative, causale ou autre. La relation peut également concerner l’ordre de lecture des phrases ou l’anaphore.

Le réseau (hyper) textuel 

Un texte IEML est un réseau de relations sémantiques. Ce réseau peut décrire des successions linéaires, des arbres, des matrices, des cliques, des cycles et des sous-réseaux complexes de tous types.

Un texte IEML peut être considéré comme une théorie, une ontologie ou un récit censé rendre compte de l’ensemble de données qu’il sert à indexer.

Nous pouvons définir un USL comme un ensemble ordonné (normalisé) de triplets de la forme : (un noeud de départ, un noeud d’arrivée, un noeud de relation). Un tel ensemble de triplets décrit un réseau sémantique ou texte IEML. 

On notera les cas particuliers suivants :

  • Le réseau, ou texte, peut ne contenir qu’une seul phrase.
  • La phrase peut ne contenir qu’une racine à l’exclusion des autres rôles grammaticaux.
  • La racine peut ne contenir qu’un mot (pas de jonction).
  • Le mot peut ne contenir qu’un seul élément.

*******

En somme, IEML est une langue à la sémantique calculable qui peut être considérée de trois points de vue complémentaires : linguistique, mathématique et informatique. Sur le plan linguistique, il s’agit d’une langue philologique, c’est-à-dire qu’elle peut traduire n’importe quelle langue naturelle. Sur le plan mathématique, c’est un topos, c’est à dire une structure algébrique (une catégorie) en rapport d’isomorphisme avec un espace topologique (un réseau de relations sémantiques). Enfin, sur le plan informatique, elle fonctionne comme le système d’indexation d’une base de données virtuelle et comme un langage de programmation de réseaux sémantiques.

Ramon Lull

Le Livre Blanc d’IEML, le métalangage de l’économie de l’information. 2019.
RESUMÉ. IEML est une langue à la sémantique calculable inventée par Pierre Lévy. Le “Livre blanc” (version Beta et non finie) explique les grands principes, la grammaire et les premières applications d’IEML. (une centaine de pages)

Etre et Mémoire dans la revue Sens Public 2019
RÉSUMÉ Le premier enjeu de cet article est de replacer l’objet des sciences humaines (la culture et la signification symbolique) dans la continuité des objets des sciences de la nature. Je fais l’hypothèse que le sens n’apparaît pas brusquement avec l’humanité mais que différentes couches de codage et de mémoire (quantique, atomique, génétique, nerveuse et symbolique) s’empilent et se complexifient progressivement, la strate symbolique n’étant que la dernière en date des « machines d’écriture ». Le second enjeu du texte est de définir la spécificité et l’unité de la couche symbolique, et donc le champ des sciences humaines. Par opposition à une certaine tradition logocentrique, je montre que le symbolisme – s’il comprend évidemment le langage – englobe aussi des sémiotiques (comme la cuisine ou la musique) où la coupure signifiant/signifié n’est pas aussi pertinente que pour les langues. Le troisième enjeu de cet essai est de montrer que les formes culturelles et les puissances interprétatives de l’humanité évoluent avec ses machines d’écriture. L’émergence du numérique, en particulier, laisse entrevoir un raffinement des sciences humaines allant jusqu’au calcul de la complexité sémantique. Cet essai de redéfinition des sciences humaines dans la continuité des sciences de la nature suppose une ontologie – ou une méta-ontologie, selon l’expression de Marcello Vitali-Rosati – pour qui les notions d’écriture et de mémoire sont centrales et qui, en rupture avec la critique kantienne, accepte la pleine réalité de la spatialité et de la temporalité naturelle.

Le rôle des humanités numériques dans le nouvel espace politique dans la revue Sens Public, 2019
RESUMÉ. Alors que plus de 50% de la population mondiale est connectée à l’Internet, les grandes plateformes, et particulièrement Facebook, ont acquis un énorme pouvoir politique. Cette nouvelle situation nous oblige a repenser le projet d’émancipation des lumières. Je propose dans cet article que les chercheurs en sciences humaines et sociales relèvent ce défi en adoptant et en diffusant de nouvelles normes d’intelligence collective réflexive. Les communs de la connaissance, la science ouverte et la souveraineté des individus sur les données qu’ils produisent font l’unanimité. Mais ces principes incontournables sont encore insuffisants. La puissance de calcul et de communication disponible, combinée à l’utilisation d’IEML (une langue à la sémantique calculable), nous permettent d’envisager une mise en transparence des opérations de création de connaissance, de sens et d’autorité. Je présente ici les grandes orientations stratégiques permettant d’atteindre ces objectifs. Une révolution épistémologique des sciences humaines est à portée de main, et avec elle une nouvelle étape dans l’évolution de la pensée critique. (une cinquantaine de pages)

La Pyramide algorithmique dans la revue Sens Public 2017
RESUMÉ. Le medium algorithmique est une infrastructure de communication qui augmente les pouvoirs des médias antérieurs en y ajoutant la mécanisation des opérations symboliques. Son émergence au milieu du vingtième siècle résulte d’une longue histoire scientifique et technique que je résume au début de l’article. Je rappelle ensuite les grandes étapes de son développement (ordinateurs centraux, internet et PC, Web social, Cloud augmenté par l’intelligence artificielle et la chaîne de blocs) ainsi que leurs conséquences sociocognitives. J’évoque pour finir les développements futurs de ce médium dans la perspective d’une intelligence collective réflexive basée sur une nouvelle forme de calcul sémantique.

Les opérateurs élémentaires de la réflexionCahiers Sens public, 2018/1 (n° 21-22), p. 75-102. La philosophie qui a inspiré les “primitives” d’IEML.
RÉSUMÉ. Cet article tente de réduire au minimum les concepts fondamentaux nécessaires à la réflexion sur le sens. Deux concepts complémentaires, la virtualité et l’actualité, rendent compte des dualités de l’action et de la grande opposition métaphysique entre transcendance et immanence. L’actuel possède une adresse spatio-temporelle, il est situé dans le temps séquentiel et dans l’espace physique tridimensionnel tandis qu’on ne peut assigner d’adresse spatio-temporelle précise à l’abstraction du virtuel. Le triangle sémiotique rend compte des triades de la représentation. Le signe (1) indique (2) une chose, un objet ou un référent quelconque auprès (3) d’un être ou interprétant. Il n’y a de signe que « de » quelque chose et « pour » quelqu’un. Enfin, il faut pouvoir considérer explicitement une absence, y compris un vide de connaissance, pour poser des questions et réfléchir. Les six opérateurs élémentaires de la réflexion (virtuel, actuel, signe, être, chose et vide) fonctionnent de manière interdépendante et traversent tous les champs des sciences humaines et sociale : on étudie particulièrement dans cet article leur pertinence en sémiotique, épistémologie, cosmologie, religion, politique et économie.

Pas une pipe

This blog post offers a simple guide to the landscape of signification in language. We’ll begin by distinguishing the numerous elements that construct meaning. We’ll start by having a look at signs, and how they are everywhere in communication between living beings and how a sign is different from a symbol for instance. A symbol is a special kind of sign unique to humans, that folds into a signifier (a sound, an image, etc.) and a signified (a category or a concept). We’ll learn that the relationship between a signifier and a signified is conventional. A bit further, I’ll explain the workings of language, our most powerful symbolic system. I will review successively what grammar is: the recursive construction of sense units; semantics: the relations between these units; and pragmatics: the relations between speech, reference and social context. I’ll end this chapter by recalling some of the problems in fields of natural language processing (NLP).

Sign, symbol, language

Sign

Meaning involves at least three actors playing distinct roles. A sign (1) is a clue, a trace, an image, a message or a symbol (2) that means something (3) for someone.

A sign may be an entity or an event. What makes it a sign is not its intrinsic properties but the role it plays in meaning. For example, an individual can be the subject (thing) of a conversation, the interpreter of a conversation (being) or he can be a clue in an investigation (sign).

A thing, designated by a sign, is often called the object or referent, and – again –what makes it a referent is not its intrinsic properties but the role it plays in the triadic relation.

A being is often called the subject or the interpreter. It may be a human being, a group, an animal, a machine or whatever entity or process endowed with self-reference (by distinguishing self from the environment) and interpretation. The interpreter always takes the context into account when it interprets a sign. For example, a puppy (being) understands that a bite (sign) from its playful sibling is part of a game (thing) and may not be a real threat in the context.

Generally speaking, communication and signs exist for any living organisms. Cells can recognize concentrations of poison or food from afar, plants use their flowers to trick insects and birds into their reproductive processes. Animals – organisms with brains or nervous systems – practice complex semiotic games that include camouflage, dance and mimicries. They acknowledge, interpret and emit signs constantly. Their cognition is complex: the sensorimotor cycle involves categorization, feeling, and environmental mapping. They learn from experience, solve problems, communicate and social species manifest collective intelligence. All these cognitive properties imply the emission and interpretation of signs. When a wolf growls, no need to add a long discourse, a clear message is sent to its adversary.

Symbol

A symbol is a sign divided into two parts: the signifier and the signified. The signified (virtual) is a general category, or an abstract class, and the signifier (actual) is a tangible phenomenon that represents the signified. A signifier may be a sound, a black mark on white paper, a trace or a gesture. For example, let’s take the word “tree” as a symbol. It is made of: 1) a signifier sound voicing the word “tree”, and 2) a signified concept that means it is part of the family of perennial plants with roots, trunk, branches, and leaves. The relationship between the signifier and the signified is conventional and depends on which symbolic system the symbol belongs to (in this case, the English language). What we mean by conventional is that in most cases, there is no analogy or causal connection between the sound and the concept: for example, between the sound “crocodile” and the actual crocodile species. We use different signifiers to indicate the same signified in different languages. Furthermore, the concepts symbolized by languages depend on the environment and culture of their speakers.

The signified of the sound “tree” is ruled by the English language and not left to the choice of the interpreter. However, it is in the context of a speech act that the interlocutor understands the referent of the word: is it a syntactic tree, a palm tree, a Christmas tree…? Let’s remember this important distinction: the signified is determined by the language but the referent depends on the context.

Language

A language is a general symbolic system that allows humans to think reflexively, ask questions, tell stories, dialogue and engage in complex social interactions. English, French, Spanish, Arabic, Russian, or Mandarin are all natural languages. Each one of us is biologically equipped to speak and recognize languages. Our linguistic ability is natural, genetic, universal and embedded in our brain. By contrast, any language (like English, French, etc.) is based on a social, conventional and cultural environment; it is multiple, evolving and hybridizing. Languages mix and change according to the transformations of demographic, technological, economic, social and political contexts.

Our natural linguistic abilities multiply our cognitive faculties. They empower us with reflexive thinking, making it easy for us to learn and remember, to plan in the long-term and to coordinate large-scale endeavors. Language is also the basis for knowledge transmission between generations. Animals can’t understand, grasp or use linguistic symbols to their full extent, only humans can. Even the best-trained animals can’t evaluate if a story is false or exaggerated. Koko the famous gorilla will never ask you for an appointment for the first Tuesday of next month, nor will it communicate to you where its grandfather was born. In animal cognition, the categories that organize perception and action are enacted by neural networks. In human cognition, these categories may become explicit once symbolized and move to the forefront of our awareness. Ideas become objects of reflection. With human language comes arithmetic, art, religion, politics, economy, and technology. Compared to other social animal species, human collective intelligence is most powerful and creative when it is supported and augmented by its linguistic abilities. Therefore, when working in artificial intelligence or cognitive computing, it would be paramount to understand and model the functioning of neurons and neurotransmitters common to all animals, as well as the structure and organization of language, unique to our species.

I will now describe briefly how we shape meaning through language. Firstly, we will review what the grammatical units are (words, sentences, etc.). Secondly, we will explore the semantic networks between these units, and thirdly, what are the pragmatic interactions between language and extralinguistic realities.

Grammatical units

A natural language is made of recursively nested units: a phoneme which is an elementary sound, a word, a chain of phonemes, a syntagm, a chain of words and a text, a chain of syntagms. A language has a finite dictionary of words and syntactic rules for the construction of texts. With its dictionary and set of syntactic rules, a language offers its users the possibility to generate – and understand – an infinity of texts.

Phonemes

Humans beings can’t pronounce or recognize several phonemes simultaneously. They can only pronounce one sound at a time. So languages have to obey the constraint of sequentiality. A speech is a chain of phonemes with an acoustic punctuation reflecting its grammatical organization.

Phonemes are meaningless sounds without signification1 and generally divided into consonants and vowels. Some languages also have “click” sounding consonants (in Eastern and Southern Africa) and others (in Chinese Mandarin) use different tones on their vowels. Despite the great diversity of sounds used to pronounce human languages, the number of conventional sounds in a language is limited: the order of magnitude is between thirty and one hundred.

Words

The first symbolic grammatical unit is the word, a signifier with a signified. By word, I mean an atomic unit of meaning. For example, “small” contains one unit of meaning. But “smallest” contains two: “small” (meaning tiny) and “est” (a superlative suffix used at the end of a word indicating the most).

Languages contain nouns depicting structures or entities, and verbs describing actions, events, and processes. Depending on the language, there are other types of words like adjectives, adverbs, prepositions or sense units that orient grammatical functions, such as gender, number, grammatical person, tense and cases.

Now let’s see how many words does a language hold? It depends. The largest English dictionary counts 200,000 words, Latin has 50,000 words, Chinese 30,000 characters and biblical Hebrew amounts to 6,000 words. The French classical author Jean Racine was able to evoke the whole range of human passions and emotions by using only 3,700 words in 13 plays. Most linguists think that whatever the language is, an educated, refined speaker masters about 10,000 words in his or her lifetime.

Sentences

Note that a word alone cannot be true or false. Its signifier points to its signified (an abstract category) and not to a state of things. It is only when a sentence is spoken in a context describing a reality – a sentence with a referent – that it can be true or false.

A syntagm (a topic, sentence, and super-sentence) is a sequence of words organized by grammatical relationships. When we utter a syntagm, we leave behind the abstract dictionary of a language to enter the concrete world of speech acts in contexts. We can distinguish three sub-levels of complexity in a syntagm: the topic, the sentence, and the super-sentence. Firstly, a topic is a super-word that designates a subject, a matter, an object or a process that cannot be described by just a single word, i.e., “history of linguistics”, “smartphone” or “tourism in Canada”. Different languages have diverse rules for building topics like joining the root of a word with a grammatical case (in Latin), or agglutination of words (in German or Turkish). By relating several topics together a sentence brings to mind an event, an action or a fact, i.e., “I bought her a smartphone for her twentieth birthday”. A sentence can be verbal like in the previous example, or nominal like “the leather seat of my father’s car”. Finally, a super-sentence evokes a network of relations between facts or events, like in a theory or a narrative. The relationships between sentences can be temporal (after), spatial (behind), causal (because), logical (therefore) or underline contrasts (but, despite…), and so on.

Texts

The highest grammatical unit is a text: a punctuated sequence of syntagms. The signification of a text comes from the application of grammatical rules by combining its signifieds. The text also has a referent inferred from its temporal, spatial and social context.

In order to construct a mental model of a referent, a reader can’t help but imagine a general intention of meaning behind a text, even when it is produced by a computer program, for instance.

Semantic relationships

When we hear a speech, we are actually transforming a chain of sounds into a semantic network, and from this network, we infer a new mental model of a situation. Conversely, we are able to transform a mental model into the corresponding semantic network and then from this network, back into a sequence of phonemes. Semantics is the back and forth translation between chains of phonemes and semantic networks. Semantic networks themselves are multi-layered and can be broken down into three levels: paradigmatic, syntagmatic and textual.

hierarchy-units-any-language

Figure: Hierarchy of grammatical units and semantic relations

Paradigmatic relationships

In linguistics, a paradigm is a set of semantic relations between words of the same language. They may be etymological, taxonomical relations, oppositions or differences. These relations may be the inflectional forms of a word, like “one apple” and “two apples”. Languages may comprise paradigms to indicate verb tenses (past, present, future) or mode (active, passive). For example, the paradigm for “go” is “go, went, gone”. The notion of paradigm also indicates a set of words which cover a particular functional or thematic area. For instance, most languages include paradigms for economic actions (buy, sell, lend, repay…), or colors (red, blue, yellow…). A speaker may transform a sentence by replacing one word from a paradigm by another from the same paradigm and get a sentence that still makes sense. In the sentence “I bought a car”, you could easily replace “bought” by “sold” because “buy” and “sell” are part of the same paradigm: they have some meaning in common. But in that sentence, you can’t replace “bought” by “yellow” for instance. Two words from the same paradigm may be opposites (if you are buying, you are not selling) but still related (buying and selling can be interchangeable).

Words can also be related when they are in taxonomic relation, like “horse” and “animal”. The English dictionary describes a horse as a particular case of animal. Some words come from ancient words (etymology) or are composed of several words: for example, the word metalanguage is built from “meta” (beyond, in ancient Greek) and “language”.

In general, the conceptual relationships between words from a dictionary may be qualified as paradigmatic.

Syntagmatic relationships

By contrast, syntagmatic relations describe the grammatical connections between words in the same sentence. In the two following sentences: “The gazelle smells the presence of the lion” and “The lion smells the presence of the gazelle”, the set of words are identical but the words “gazelle” and “lion” do not share the same grammatical role. Since those words are inversed in the syntagmatic structure, the sentences have distinct meanings.

Textual relationships

At the text level, which includes several syntagms, we find semantic relations like anaphoras and isotopies. Let’s consider the super-sentence: “If a man has talent and can’t use it, he’s failed.” (Thomas Wolfe). In this quotation “it” is an anaphora for “talent” and “he”, an anaphora for “a man”. When reading a pronoun (it, he), we resolve the anaphora when we know which noun – mentioned in a previous or following sentence – it is referring to. On the other hand, isotopies are recurrences of themes that weave the unity of a text: the identity of heroes (characters), genres (love stories or historical novels), settings, etc. The notion of isotopy also encompasses repetitions that help the listener understand a text.

Pragmatic interactions

Pragmatics weave the triadic relation between signs (symbols, speeches or texts), beings (interpreters, people or interlocutors) and things (referents, objects, reality, extra-textual context). On the pragmatic level of communication, speeches point to – and act upon – a social context. A speech act functions as a move in a game played by its speaker. So, distinct from semantic meaning, that we have analyzed in a previous section, pragmatic meaning would address questions like: what kind of act (an advice, a promise, a blame, a condemnation, etc.) is carried by a speech? Is a speech spoken in a play on a stage or in a real tribunal? The pragmatic meaning of a speech also relates to the actual effects of its utterance, effects that are not always known at the moment of the enunciation. For example: “Did I convince you? Have you kept your word?”. The sense of a speech can only be understood after its utterance and future events can always modify it.

A speech act is highly dependent on cultural conventions, on the identity of speakers and attendees, time and place, etc. By proclaiming: “The session is open”, I am not just announcing that an official meeting is about to start, I am actually opening the session. But I have to be someone relevant or important like the president of that assembly to do so. If I am a janitor and I say: “The session is open”, the act is not performed because I don’t have any legitimacy to open the session.

If an utterance is descriptive, it’s either true or false. In other cases, if an utterance does something instead of describing a state of things, it has a pragmatic force instead of a truth value.

Resolving ambiguities

We have just reviewed the different layers of grammatical, semantic and pragmatic complexity to better understand the meaning of a text. Now, we are going to examine the ambiguities that may arise during the reading or listening of a text in a natural language.

Semantic ambiguities

How do we go from to the sound of a chain of phonemes to the understanding of a text? From a sequence of sounds, we build a multi-layered (paradigmatic, syntagmatic and textual) semantic network. When weaving the paradigmatic layer, we answer questions like: “What is this word? To what paradigm does it belong? Which one of its meanings should I consider?”. Then, we connect words together by answering: “What are the syntagmatic relations between the words in that sentence?”. Finally, we comprehend the text by recognizing the anaphoras and isotopies that connect its sentences. Our understanding of a text is based on this three-layered network of sense units.

Furthermore, ambiguities or uncertainties of meaning in languages can happen on all three levels and can multiply their effects. In the case of homophony, the same sound can point to different words like in “ate” and “eight”. And sometimes, the same word may convey several distinct meanings like in “mole”: (1) a shortsighted mouse-like animal digging underground galleries, (2) an undercover spy, or (3) a pigmented spot or mark on the skin. In the case of synonymy, the same meaning can apply to distinct words like “tiny” and “small”. Amphibologies refer to syntagmatic ambiguities as in: “Mary saw a woman on the mountain with a telescope.” Who is on the mountain? Moreover, who has the telescope? Mary or the woman? On a higher level of complexity, textual relations can be even more ambiguous than paradigmatic and syntagmatic ones because rules for anaphoras and isotopies are loosely defined.

Resolving semantic ambiguities in pragmatic contexts

Human beings don’t always correctly resolve all the semantic ambiguities of a speech, but when they do, it is often because they take into account the pragmatic (or extra-textual) context that is generally implicit. It’s in a context, that deictic symbols like: here, you, me, that one over there, or next Tuesday, take their full meaning. Let’s add that, comparing a text in hand with the author’s corpus, genre, historical period, helps to better discern the meaning of a text. But some pragmatic aspects of a text may remain unknown. Ambiguities can stem from many causes: the precise referents of a speech, the uncertainty of the speaker’s social interactions, the ambivalence or concealment of the speaker’s intentions, and of course not knowing in advance the effects of an utterance.

Problems in natural language processing

Computer programs can’t understand or translate texts with dictionaries and grammars alone. They can’t engage in the pragmatic context of speeches like human beings do to disambiguate texts unless this context is made explicit. Understanding a text implies building and comparing complex and dynamic mental models of text and context.

On the other hand, natural language processing (a sub-discipline of artificial intelligence) compensates for the irregularity of natural languages by using a lot of statistical calculations and deep learning algorithms that have been trained on huge corpora. Depending on its training set, an algorithm can interpret a text by choosing the most probable semantic network amongst those compatible within a chain of phonemes. Imperatively, the results have to be validated and improved by human reviewers.