data-science-education-at-monash-monash-university

L’accès du grand public à la puissance de diffusion du Web ainsi que les flots de données numériques qui coulent désormais de toutes les activités humaines nous confrontent au problème suivant : comment transformer les torrents de données en fleuves de connaissances ? Certains observateurs enthousiastes du traitement statistique des « big data », comme Chris Anderson, (l’ancien rédacteur en chef de Wired), se sont empressés de déclarer que les théories scientifiques – en général! – étaient désormais obsolètes [Voir : de Chris Anderson « The End of Theory: The Data Deluge Makes the Scientific Method Obsolete », Wired, 23 juin 2008.] Nous n’aurions plus besoin que de mégadonnées et d’algorithmes statistiques opérant dans les centres de calcul : les théories – et donc les hypothèses qu’elles proposent et la réflexion dont elles sont issues – appartiendraient à une étape révolue de la méthode scientifique. Il paraît que les nombres parlent d’eux-mêmes. Mais c’est évidemment oublier qu’il faut, préalablement à tout calcul, déterminer les données pertinentes, savoir exactement ce que l’on compte, et nommer – c’est-à-dire catégoriser – les patterns émergents. De plus, aucune corrélation statistique ne livre directement des relations causales. Celles-ci relèvent nécessairement d’hypothèses qui expliquent les corrélations mises en évidence par les calculs statistiques. Sous couvert de pensée révolutionnaire, Chris Anderson et ses émules ressuscitent la vieille épistémologie positiviste et empiriste en vogue au XIXe siècle selon laquelle seuls les raisonnements inductifs (c’est-à-dire uniquement basés sur les données) sont scientifiques. Cette position revient à refouler ou à passer sous silence les théories – et donc les hypothèses risquées fondées sur une pensée personnelle – qui sont nécessairement à l’oeuvre dans n’importe quel processus d’analyse de données et qui se manifestent par des décisions de sélection, d’identification et de catégorisation. On ne peut initier un traitement statistique et interpréter ses résultats sans aucune théorie. Le seul choix que nous ayons est de laisser les théories à l’état tacite ou de les expliciter. Expliciter une théorie permet de la relativiser, de la comparer avec d’autres théories, de la partager, de la généraliser, de la critiquer et de l’améliorer [Parmi la très abondante littérature sur le sujet, voir notamment les ouvrages de deux grands épistémologues du XXe siècle, Karl Popper et Michael Polanyi]. Cela constitue même une des principales composantes de ce qu’il est convenu d’appeler « la pensée critique », que l’éducation secondaire et universitaire est censée développer chez les étudiants.

Outre l’observation empirique, la connaissance scientifique a toujours eu à voir avec le souci de la catégorisation et de la description correcte des données phénoménales, description qui obéit nécessairement à des théories plus ou moins formalisées. En décrivant des relations fonctionnelles entre des variables, la théorie offre une prise conceptuelle sur le monde phénoménal qui permet (au moins partiellement) de le prévoir et de le maîtriser. Les données d’aujourd’hui correspondent à ce que l’épistémologie des siècles passés appelait les phénomènes. Pour continuer de filer cette métaphore, les algorithmes d’analyse de flots de données correspondent aux instruments d’observation de la science classique. Ces algorithmes nous montrent des patterns, c’est-à-dire en fin de compte des images. Mais ce n’est pas parce que nous sommes capables d’exploiter la puissance du médium algorithmique pour « observer » les données qu’il faut s’arrêter en si bon chemin. Nous devons maintenant nous appuyer sur la puissance de calcul de l’Internet pour « théoriser » (catégoriser, modéliser, expliquer, partager, discuter) nos observations, sans oublier de remettre cette théorisation entre les mains d’une intelligence collective foisonnante.

Tout en soulignant la distinction entre corrélation et causalité dans leur livre de 2013 sur les big data, Viktor Mayer-Schonberger  et Kenneth Cukier annoncent que nous nous intéresserons de plus en plus aux corrélations et de moins en moins à la causalité, ce qui les range dans le camp des empiristes. Leur livre fournit néanmoins un excellent argument contre le positivisme statistique. Ils racontent dans leur ouvrage la très belle histoire de Matthew Maury, un officier de marine américain qui, vers le milieu du XIXe siècle, agrégea les données des livres de navigation figurant dans les archives officielles pour établir des cartes fiables des vents et des courants [In Big Data: A Revolution… (déjà cité) p. 73-77]. Certes, ces cartes ont été construites à partir d’une accumulation de données empiriques. Mais je fais respectueusement remarquer à Cukier et Mayer-Schonberger qu’une telle accumulation n’aurait jamais pu être utile, ou même simplement faisable, sans le système de coordonnées géographique des méridiens et des parallèles… qui est tout sauf empirique et basé sur des données. De la même manière, ce n’est qu’en adoptant un système de coordonnées sémantique que nous pourrons organiser et partager les flots de données de manière utile.

Aujourd’hui, la plupart des algorithmes qui gèrent l’acheminement des recommandations et la fouille des données sont opaques, puisqu’ils sont protégés par le secret commercial des grandes compagnies du Web. Quant aux algorithmes d’analyse ils sont, pour la plupart, non seulement opaques mais aussi hors d’atteinte de la majorité des internautes pour des raisons à la fois techniques et économiques. Or il est impossible de produire de la connaissance fiable au moyen de méthodes secrètes. Bien plus, si l’on veut résoudre le problème de l’extraction d’information utile à partir du flot diluvien des big data, on ne pourra pas éternellement se limiter à des algorithmes statistiques travaillant sur le type d’organisation de la mémoire numérique dont nous disposons en 2017. Il faudra tôt ou tard, et le plus tôt sera le mieux, implémenter une organisation de la mémoire conçue dès l’origine pour les traitements sémantiques. On ne pourra apprivoiser culturellement la croissance exponentielle des données – et donc transformer ces données en connaissance réfléchie – que par une mutation qualitative du calcul.

Retenons que la « science des données » (data science en anglais) devient une composante essentielle de la compréhension des phénomènes économiques et sociaux. Plus aucune organisation ne peut s’en passer. Au risque de marcher à l’aveugle, les stratégies économiques, politiques et sociales doivent s’appuyer sur l’art d’analyser les mégadonnées. Mais cet art ne comprend pas seulement les statistiques et la programmation. Il inclut aussi ce que les américains appellent la « connaissance du domaine » et qui n’est autre qu’une modélisation ou une théorie causale de la réalité analysée, théorie forcément d’origine humaine, enracinée dans une expérience pratique et orientée par des fins. Ce sont toujours les humains et leurs récits producteurs de sens qui mobilisent les algorithmes.

Références documentaires

Voir ma collection d’articles sur les “Big Data” dans Scoop.it Les tags peuvent être utilisés pour naviguer dans la collection.

datacentrique.jpgAutour de la Terre, les satellites artificiels transmettent nos communications et transportent une foule d’instruments d’observation et de capteurs : renseignement militaire, documentation du climat, monitoring des écosystèmes, surveillance des récoltes… Plus proche de la surface voici la zone des satellites de basse altitude qui connectent nos téléphones intelligents. Un peu plus bas, les avions sur pilote automatique communiquent avec les stations radar, les bases au sol, tandis que leurs événements internes s’enregistrent dans des boîtes noires. Passée la barrière des nuages se découvrent les réseaux lumineux des métropoles intelligentes. Les cargos, les navettes, les métros, les trains rapides, les flottes de véhicules autonomes se transmettent des signaux, restent en contact avec les satellites et les balises routières, s’échangent leurs passagers et leurs marchandises dûment identifiés. Surveillant le moindre coin de rue, truffant le sous-sol, flottant au milieu des océans, guettant sur les côtes et les sommets, embarqués sur les drones aériens ou sous-marins, les antennes, les capteurs, les caméras inondent de données les centres de calcul. Écouteurs, gants et chaussures sont connectés. Nous voici pourvus de bracelets qui enregistrent notre pouls, la composition chimique de notre sang et de notre peau, envoient les données pour analyse dans les nuages, reçoivent les notifications et conseils de santé en temps réel… Grâce aux identités infalsifiables de l’informatique portable nous passons partout sans fouille ni mot de passe. Les lunettes branchées prennent photos et vidéos, surimposent des couches virtuelles à la vision optique ordinaire et projettent sur demande des cartographies de données. Nos jeux de domination s’alignent sur les capacité d’exploitation de la mémoire et les vitesses d’analyse. Les nouveaux partis politiques rassemblent leurs membres autour de thèses épistémologiques. Entremêlés dans l’économie mondiale et le nouvel espace public transnational, nos essaims d’intelligence collective collaborent et se combattent sur les territoires hyper-connectés des grandes métropoles. Réfléchissant la pensée humaine sur le miroir sémantique du cloud, l’évolution des écosystèmes d’idées déploie son inépuisable spectacle immersif et multi-joueur. La prospérité, la sécurité, l’influence, tout se ramène à une forme ou une autre d’optimisation cognitive… sauf peut-être dans les zones analogiques reculées, presque désertes, qui s’étendent loin des grands centres.

Communication does not entail the use of words as reflected by a majority of the people, but a method employed by the sender to convey a particular message to the audience. Irrespective of the meth…

Source : What I have learnt from the course ” Advanced Theories of Communication”

 

On trouvera maintenant le contenu de mon post expliquant comment jutilise les médias sociaux dans mes cours à l’université à cette adresse  (ISSN 2386-8562)
Ce travail est la pré-impression d’un article dans le numéro 58 de RED. Il sera publié en tant que contribution d’invité, de type «histoire personnelle dans le domaine de la recherche éducative» (Personal History as Educational Research).

Same paper in Spanish

DONNÉES

Je me tiens à la disposition de toute équipe de recherche en sciences de l’éducation ou pédagogie pour aider à analyser les données produites par mes deux cours #UOAC (en anglais) et #UOIM (en français). Ces données consistent en Tweets, Moments et Blogposts. Tous les moments et Blogposts ont été publiés sur Twitter avec les hashtags correspondants.

Un article dans Quartier Libre (Journal des étudiants de l’Université de Montréal):

Moments (choix personnel de tweets) issus de mes cours de l’automne 2016

Mon cours de cent étudiants de deuxième année à l’hiver 2017: #uotm17

Choix de Storifys ou Moments de mes étudiants de 2016 (travail en cours, plus à venir):

A unique experience

How free are we?” C’est beau comme un poème soufi !

Choix de blogposts de mes étudiants témoignant de l’efficacité de la méthode “Twitter en Classe” (travail en cours, plus à venir)

Le meilleur cours de toute ma vie

prendre des notes en Tweetant“!

Voyage au monde des médias

Le système est simple, mais efficace.

Twitter et la mémoire collective

Les tweets nous permettaient de nous remémorer les sujets discutés en classe presque dans leur intégralité.

Un cours qui a changé ma perception de l’apprentissage

Innover pour enseigner

“Le cours de CMN 1560 a été un de mes cours préférés lors du trimestre d’automne 2016. Mon professeur M. Pierre Lévy a véritablement changé la façon d’apprendre la matière du cours. La grande majorité des étudiants ont bien apprécié le cours. Vers la fin du trimestre, j’ai vu beaucoup de tweets exprimant comment agréables que les étudiants ont trouvés le cours. Nous utilisons les médias sociaux, spécifiquement Twitter pour faire une prise de notes collectives. Effectivement, je pourrais toujours, comme n’importe qui, accéder à la matière qui m’a été enseignée durant mon cours grâce au #uoim sur Twitter. Ici je peux retrouver tout les notes, les questions, et les remarques ou commentaires que les étudiants ont tweetés en relation avec le contenu du cours. Cet élément interactif du cours a intéressé plusieurs étudiants et rendait la matière plus fascinante. Personnellement, j’ai bien aimé assister aux séances en classe, je ne les trouvais pas du tout ennuyantes 

This course, Advanced theories of communication, was like none other that I had ever taken.

The potential of Twitter for education

Collective intelligence in the classroom

I have learned to use the media that are at my fingertips

Communication happened

Becoming an autonomous thinker

what more professors should do nowadays to make their courses more interactive and stimulating

6 Things I Learned From Pierre Levy

“When we started the class and the professor told us to only take notes via twitter, I was very skeptical. I did not want to have an open mind towards his new method of teaching despite the fact that I am considered to be part of the millennials generation and you know we are known for our excessive use of technology”

From the blogpost of Cindi Cai ” Moreover, this advanced theory of communication not only taught me how to be a good speaker, but also in the class, I learnt how to be a good listener. For example, in the class, the professor encouraged students to participate in the class Q&A section by twittering through the internet, which allows every single student to have a chance to ask questions, and at the same time also encourage students to listen to other students’ ideas toward the subject. We, as students in the class just need to focus on the speech that the professor have given to the students, and catch the content in which we have questions, doubts, and raise our questions by twittering in order to get answers from the professor, while the professor also need to listen to students opinion by checking out the course tag.  For doing so, students have equal chances to listen and get their answers from the professor, and also students get an opportunity to listen to or inspired from other students’ learning stories( storify, blog post ).This teaching method is very interesting to me, because as a university student, what I want from the university is not just a piece of degree certificate, but also an opportunity to develop the ability to think extensively, solve problems, and challenge myself. To be honest, before I took this class, I was so tired of university, because I found that every single class I took at the University of Ottawa was really boring, and most students included me was more like machine, though we kept going to every class, and studied hard, we just wanted a better grade, and after exams or assignments, we just simply forgot what we have learnt in the class. This situation made me feel nervous and I started to doubt my university life and wonder if university could really help me in my future development?

Luckily, the CMN 3109 class strongly changed my mind toward university, because in the class, under the unique teaching method of the professor, I realized that if I just focus on grades, there’s a strong possibility that I won’t be as prepared for the world outside of university. But if I focus on learning as much as I can, and engage with all the opportunities presented by the class, I will be in a much better position to thrive after I graduate. It is just like how those communication techniques inspired me to how to be a better yoga instructor, this course has truly encouraged me to build my knowledge of the whole communication process, and rebuild my confidence to prepare for my future yoga teacher career positively….”

Pierre Lévy est l’inventeur, il y a 20 ans, du concept “d’intelligence collective”. Concept qui a aujourd’hui beaucoup de succès dans la Silicon Valley. Actuellement, il est Professeur à l’Université d’Ottawa. Blockchain est le sujet de notre entretien. Sa vision reste très avancée sur son temps. Pour lui: tous les intermédiaires ont du souci à se faire: Notaires, Avocats, Banquiers, Commerçants, etc. vont à l’avenir plus ou moins disparaître car la question de leur contribution dans la chaîne de la valeur va être remise en question par les blockchains.

Voici en résumé le développement de son point de vue.

Comme tout le monde le sait maintenant, les blockchains sont des technologies informatiques destinées à suivre des contrats sécurisés, transparents et décentralisés et pas seulement ceux liés aux bitcoins.

Par extension, les blockchains constituent des bases de données qui contiennent l’historique de tous les échanges effectués entre ses utilisateurs depuis leur création. Ces bases de données sont sécurisées et distribuées : elles sont partagées par ses différents utilisateurs, sans intermédiaire, ce qui permet à chacun de vérifier la validité des données.

Ce qu’il faut surtout retenir, c’est l’absence d’intermédiaire. Imaginez-vous une société sans intermédiaire … purement directe à l’instar de Luther et Calvin qui ont appelé les fidèles à s’adresser directement à Dieu en se passant des curés et du latin, ce qui a abouti à la création de la Réforme. Eh bien, c’est exactement ce qui se passe, affirme Pierre Lévy. On peut l’appeler de diverses façons: révolution numérique, révolution 4.0, etc. mais cela va bien au-delà, c’est la fin programmée ou codifiée des intermédiaires.

Personne ne semble prendre la mesure d’une telle Réforme. Et pourtant dans cette conception économique, le client parlera directement avec l’usine, il traitera immédiatement avec les fabricants et de même l’usine via l’Internet des Objets et les contrats de type blockchain n’auront plus besoin d’ “inter-médiation”.

Cela est vrai pour la finance, le commerce, l’industrie… mais aussi pour les médias, l’enseignement ou encore et surtout les États. En comprenant bien que l’une des fonctions importantes des États, ce sont les enregistrements de toute sorte notamment des contrats comme les mariages, les naissances, les propriétés privées, etc. vous vous imaginez bien à quel point les blockchains vont révolutionner les Etats et sa bureaucratie en général. Plus besoin de notaires, ni de registres foncier avec les blockchains. Cela devient tout simplement très concret et va entraîner une réduction massive des fonctionnaires.

Pierre Lévy pense aussi que le domaine de la Santé va évoluer vers des pratiques digitales nouvelles et moins coûteuses. Ici il s’appuie sur l’idée que des actes médicaux de toute sorte vont être chaînés dans les blockchains. D’une part, cela permettra une meilleure prise en compte des actes médicaux par l’ensemble des parties prenantes de la chaîne de la santé afin d’en diminuer les erreurs, les doublons, etc. tout en améliorant la qualité des soins pour un moindre coût et d’autre part, permettrait une plus grande transparence des interventions. Le dossier médical serait alors une collection de plusieurs blockchains toutes liées à des maladies ou des interventions chirurgicales précises. Les “blockchains-santés” seraient notre historique médical sécurisé et accessible à tous les parties prenantes en temps réel et aussi connectées avec des capteurs incorporés (pacemakers) ou non (montre connectées).

Les “blockchains-santés” du futur, ce sont donc à la fois des actes médicaux, des données actives provenant des capteurs, et des appréciations patients (self quantified) le tout dans un grand registre historique entièrement informatisé, transparent, sécurisé et distribué.

En tous les cas, demain, la donnée-patient sera au cœur du processus santé.

(Article rédigé par Xavier Comtesse et paru le Mercredi 19 octobre dans le Journal économique AGEFI en Suisse)

What is IEML?

  • IEML (Information Economy MetaLanguage) is an open (GPL3) and free artificial metalanguage that is simultaneously a programming language, a pivot between natural languages and a semantic coordinate system. When data are categorized in IEML, the metalanguage compute their semantic relationships and distances.
  • From a “social” point of view, on line communities categorizing data in IEML generate explorable ecosystems of ideas that represent their collective intelligence.
  • Github.

What problems does IEML solve?

  • Decompartmentalization of tags, folksonomies, taxonomies, ontologies and languages (french and english for now).
  • Semantic search, automatic computing and visualization of semantic relations and distances between data.
  • Giving back to the users the information that they produce, enabling reflexive collective intelligence.

Who is IEML for?

Content curators

  • knowledge management
  • marketing
  • curation of open data from museums and libraries, crowdsourced curation
  • education, collaborative learning, connectionists MOOCs
  • watch, intelligence

Self-organizing on line communities

  • smart cities
  • collaborative teams
  • communities of practice…

Researchers

  • artificial intelligence
  • data analytics
  • humanities and social sciences, digital humanities

What motivates people to adopt IEML?

  • IEML users participate in the leading edge of digital innovation, big data analytics and collective intelligence.
  • IEML can enhance other AI techniques like machine learning, deep learning, natural language processing and rule-based inference.

IEML tools

IEML v.0

IEML v.0 includes…

  • A dictionary of  concepts whose edition is restricted to specialists but navigation and use is open to all.
  • A library of tags – called USLs (Uniform Semantic Locators) – whose edition, navigation and use is open to all.
  • An API allowing access to the dictionary, the library and their functionalities (semantic computing).

Intlekt v.0

Intlekt v.0 is a collaborative data curation tool that allows
– the categorization of data in IEML,
– the semantic visualization of collections of data categorized in IEML
– the publication of these collections

The prototype (to be issued in May 2018) will be mono-user but the full blown app will be social.

Who made it?

The IEML project is designed and led by Pierre Lévy.

It has been financed by the Canada Research Chair in Collective Intelligence at the University of Ottawa (2002-2016).

At an early stage (2004-2011) Steve Newcomb and Michel Biezunski have contributed to the design and implementation (parser, dictionary). Christian Desjardins implemented a second version of the dictionary. Andrew Roczniak helped for the first mathematical formalization, implemented a second version of the parser and a third version of the dictionary (2004-2016).

The 2016 version has been implemented by Louis van Beurden, Hadrien Titeux (chief engineers), Candide Kemmler (project management, interface), Zakaria Soliman and Alice Ribaucourt.

The 2017 version (1.0) has been implemented by Louis van Beurden (chief engineer), Eric Waldman (IEML edition interface, visualization), Sylvain Aube (Drupal), Ludovic Carré and Vincent Lefoulon (collections and tags management).

dice-1-600x903

Dice sculpture by Tony Cragg

ON A TROUVÉ des programmeurs pour produire une démo de la sphère sémantique IEML durant l’été-automne 2016! Ce n’est plus la peine de contacter Pierre Lévy (en tous cas, plus pour ça).

IEML

IEML est une langue artificielle dont les expressions calculent automatiquement leurs relations sémantiques. C’est à la fois une langue et un langage de programmation. Si l’on se sert d’IEML pour catégoriser des données, on obtient une mémoire “auto-analytique” où les données calculent et visualisent leurs relations et distances sémantiques. Le but à long terme est d’offrir des outils de connaissance de soi à une intelligence collective réflexive. IEML se traduit évidemment en langues naturelles (pour le moment: français et anglais) et peut servir de langage pivot entre les langues.

L’application web à programmer – un outil de curation de données – vise à offrir une démonstration logicielle de la recherche sur IEML menée par le prof. Pierre Lévy à la CRC en intelligence collective de l’Université d’Ottawa de 2002 à 2016.

Une application ouverte, gratuite, au bénéfice du bien commun

– Les modules logiciels seront publiés sur Github sous la license GPL version 3 (et suivantes)
– Une API donnera accès au noyau de la sphère sémantique: dictionnaire, bibliothèque d’expressions et moteur de calcul sémantique
– L’application sera disponible à l’adresse ieml.org

Détail de l’application en quatre couches

1) L’éditeur de dictionnaire  – parseur, calcul des tables paradigmatiques, calcul des relations entre termes – a été programmé par Andrew Roczniak.
2) L’éditeur de la bibliothèque d’expressions IEML – parseur, visualisation et édition du contenu de la bibliothèque – a été programmée par Louis van Beurden et Hadrien Titeux, avec l’aide de Florent Thomas-Morel.
3) Le moteur sémantique – calcul des relations entre expressions, des distances, search, ranking sémantique, visualisation d’une expression dans un ensemble, visualisation d’un ensemble d’expressions – sera programmé par Louis van Beurden, Hadrien Titeux et Alice Ribaucourt.
4) L’application démo mono-utilisateur pour la curation de données : fonctions de catégorisation de données et de navigation dans la mémoire, y compris la bibliothèque et le dictionnaire, moyennant les outils du moteur sémantique. On a trouvé des programmeurs pour cette quatrième couche: Candide Kemmler et Zack Soliman

Travail attendu du(de la) programmeur(programmeuse) web recherché(e)

1- Collaboration étroite avec l’équipe : Louis van Beurden, Hadrien Titeux, Alice Ribeaucourt
2- Conception, en collaboration avec Pierre Lévy, de l’application-démo “curation de données”, intégration du dictionnaire, bibliothèque et moteur sémantique dans la couche application-démo sous une interface et une expérience utilisateur uniforme.
3- Programmation (Javascript, Angular 2, HTML) de la couche “démo-curation de données”

Types de personnes visés par la démo

– chercheurs en intelligence artificielle / traitement automatique des langues naturelles
– chercheurs en sciences humaines et sociales (digital humanities)
– curateurs des données publiques des musées et bibliothèques (curation crowdsourcée)
– éducateurs, environnements d’apprentissage collaboratifs / connexionnistes (MOOCs, etc.)

Quand et où

Quatre mois à temps plein du 1er juin au 30 septembre. Possibilités d’extension.

Université d’Ottawa, région Montréal et/ou Ottawa

Contact
@plevy

Quelques documents pertinents

Les fondements philosophiques et scientifiques ont été présentés dans
La Sphère sémantique, 1

Le “devis technique” fondamental est contenu dans
La Sphère sémantique, 2

Les implications culturelles et sociales sont décrits dans
L’intelligence algorithmique (à paraître)

Voir aussi: The Basics of IEML