Avec ou sans bruits parasites

Articles étiquettés ‘Digital literacy’

L’âge du péta-octet…

7 octobre 2008 · Laisser un commentaire

Mon fils de bientôt cinq ans, qui, comme beaucoup de ses semblables, n’est pas chiche d’hyperboles, m’a demandé pendant l’été ce qu’il y a après “méga” (parce que mieux que superbien, c’est mégabien), puis ce qu’il y a après “giga”… Lorsque, quelques jours plus tard, il m’a demandé ce qu’il y a après “téra”, je dois avouer que j’ai séché et ce n’est qu’après une recherche sur le web que j’ai pu lui répondre “péta” (mais en tant que parent responsable, j’ai néanmoins pris la peine de lui expliquer que le terme “pétabien” risquait de ne pas être intelligible pour tous).

Aussi ai-je particulièrement prêté l’oreille (devrais-je dire l’oeil ?) quand j’ai découvert, par l’intermédiaire d’Olivier Ertzscheid, l’article de Chris Anderson traitant de l’impact de l’Age du Pétaoctet sur la méthode scientifique. Depuis, Hubert Guillaud a écrit un article de synthèse très intéressant sur la fin de la science, dans lequel il évoque cet article : Est-ce que le déluge de données va rendre la méthode scientifique obsolète ?. Mais ce n’est pas de cet impact sur la science que je veux parler ici ; cet article m’a inspiré quelques réflexions, qui rencontrent des préoccupations que j’ai depuis longtemps.

D’abord cette idée d’un déluge de données dans lequel des logiciels pourraient trouver un sens automatiquement (l’exemple le plus saisissant est celui de la traduction : “à corpus de données égal, Google peut traduire du klingon en persan aussi facilement qu’il peut traduire du français en allemand”, dit Anderson) me semble mettre en évidence une tendance importante et durable de l’internet actuel : la domination d’un système fonctionnant avec des données peu structurées, au détriment d’un système plus rigoureux et plus structuré. En somme, il s’agit d’une victoire du web 2.0 (ou 3.0, je ne compte plus) sur le web sémantique. C’est ce principe qui s’applique pour le moteur de recherche de Google ou les sites de signets collaboratifs comme del.icio.us : on ne demande pas au fournisseur de contenu (pages web ou liens dans ces exemples) de faire une description exhaustive de son contenu ; à la rigueur, on lui demande quelques mots clés (tags), mais cela ne va guère au-delà. Il me semble que cette tendance se confirme d’une façon très nette et que la mise en place d’un formalisme imposant de taxinomies et d’ontologies qu’on nous promet parfois n’aura pas lieu, en tout cas pas dans les dix ans qui viennent. A la place, le web continuera à être une sorte de vrac dans lequel les ordinateurs devront se débrouiller pour trouver un sens (quel qu’il soit), et non un objet bien propre spécialement fabriqué pour qu’ils le comprennent.

A cet égard, le billet de Jean Véronis sur la nouvelle fonctionnalité de Google de détection de pièce jointes oubliées, dans lequel il explique la méthode qu’il utiliserait pour implémenter cette fonction est un témoignage éloquent. Cette méthode donne véritablement le vertige : il s’agit d’”extraire à l’aide d’outils statistiques les n-grammes qui apparaissent fréquemment dans les mails avec attachement et pas dans les mails sans attachement”, puis “pour chaque nouveau mail, regarder si un de ces n-grammes magiques est présent dans le texte, et si oui déclencher une alerte”.

D’ailleurs, je crois que l’époque est au refus d’un formalisme excessif. Le succès d’une méthode comme GTD n’est sans doute pas étranger à ce refus : un projet, tel que le décrit David Allen, n’est pas un ensemble complexe de systèmes et de sous-systèmes, qui peut être représenté de diverses façons (diagramme de Gantt, de PERT…) ; c’est plutôt un ensemble d’actions qui peut être consigné sur le dos d’une enveloppe et dont la représentation essentielle est la Next action, c’est-à-dire “Et maintenant qu’est-ce qu’on fait ?”

En somme, le principe directeur, connu depuis toujours, est que “le Mieux est l’ennemi du Bien” et plutôt que d’avoir un modèle qui prévoit tout, il vaut mieux avoir un modèle facile à adapter quand on aura besoin de lui faire faire quelque chose d’imprévu… Les méthodes de programmation dites “agiles” ne reposent pas sur autre chose.

Mais aussi cette situation a une impact sur l’informatique en général : d’abord parce qu’elle peut contribuer à populariser l’idée qu’un ordinateur doit travailler à la place d’un humain et non lui donner du travail… Truisme… mais qui ne paraît pas si évident pour tous nos semblables : l’ami qui m’a dit il y a quelques années “Pourquoi as-tu 2 (ou 3 ou 6…) ordinateurs, tu ne peux pas être assis devant tous en même temps ?”, sans savoir qu’un bon ordinateur est précisément celui que j’utilise sans être assis devant lui, ou bien ceux qui ne veulent pas utiliser l’informatique parce qu’ils n’ont pas le temps…

Je crois que cette tendance a aussi un impact sur le métier d’informaticien. En effet, de nos jours, il est possible de programmer facilement, sans avoir de compétences théoriques importantes. C’est un raisonnement que je me fais depuis longtemps à mon propre sujet : je passe une partie importante de mon temps de travail à écrire du code et pourtant, je n’ai jamais étudié l’informatique et je n’ai pas de connaissances approfondies en algorithmique. Un exemple parmi beaucoup d’autres : tout ce que j’ai pu apprendre sur les algorithmes de tri (que je n’ai appris que par curiosité et jamais par besoin) ne m’a jamais été directement utile, parce que toutes les fois où j’ai eu à trier des données, il était plus simple et plus efficace d’utiliser une fonction native ou fournie par une bibliothèque du langage que j’utilisais (le plus souvent python).

J’ai longtemps pensé que cette approche était caractéristique d’un autodidacte de la programmation, professeur de lettres de formation, mais j’ai constaté au contact de ‘vrais’ informaticiens, ou de stagiaires qui finissaient des études (de type BTS ou DUT) en programmation que beaucoup n’ont pas de notions théoriques plus approfondies et que ces connaissances ne sont guère utiles dans la pratique quotidienne de beaucoup de programmeurs.

Or l’âge du péta-octet exige une vraie réflexion sur les algorithmes : le volume gigantesque de données nécessite des traitements optimisés pour être réalisables dans des conditions acceptables, les opérations à mettre en oeuvre impliquent des notions sur les statistiques que tous ne possèdent pas. La conséquence de cela va être l’élargissement du fossé entre l’élite des programmeurs, très compétents, détenteurs de connaissances très pointues dans des disciplines scientifiques, et la piétaille des scripteurs, qui sera de moins en moins distincte des power users, de plus en plus nombreuse. Bien sûr, cette facture existe déjà, mais il y a fort à parier qu’elle va aller en s’accentuant.

Catégories : Général
Tagué : , , , ,

Le catalogue de ma bibliothèque…

3 août 2007 · Laisser un commentaire

J’adore les livres, les vrais livres, ceux en papier. J’ai envie d’en lire, j’ai envie d’en posséder, j’ai envie d’en toucher et j’ai envie de passer du temps dans ma bibliothèque, en particulier en ce moment.

Cela m’amène à fréquenter beaucoup le site d’Amazon, à lire des dizaines de blogs qui parlent de livres, de bibliophilie ou de lecture, mais aussi à vouloir faire un catalogue de mes livres. J’avais, naguère, évoqué sur ce blog le site LibraryThing pour cela, sans suffisamment prêter attention au fait que le compte gratuit ne permet pas d’insérer plus de 200 livres, autant dire rien…

[Entre le moment où ce billet a été écrit sur mon moleskine et le moment où il est dactylographié (n’est-ce pas un mot exquis ?), il s’est écoulé plusieurs semaines le contenu de ce billet a changé. Dans sa première version, il continuait ainsi : “et pour le dire comme je le pense, je ne suis pas disposé, au moins pour le moment, à payer ce service (je ne conteste pas qu’il soit légitime pour le créateur de ce site d’être rémunéré, je dis simplement que s’il n’est pas possible de profiter gratuitement d’un tel service, je préfère m’en passer, dans l’état actuel des choses”.

La nouvelle version est la suivante :]

J’expliquais dans ce billet pourquoi je n’étais pas disposé à payer pour ce service et comment j’en étais venu à tester d’autres services, dont la plupart ne m’avaient pas satisfait, et à choisir d’utiliser Listal. Je détaillais ensuite la procédure que j’envisageais d’adopter pour cataloguer mes livres avec Listal, que je peux résumer ainsi :

- Lecture des codes barres des livres ;

- Recherche du livre dans la base d’Amazon ;

- Importation des informations concernant le livre dans Listal.

Le code barre des livres (pour ceux qui en ont un) correspond à leur ISBN et permet donc de les identifier de façon assez précise.

J’ai fait quelques tests avec une petite application en Flash qui permet de lire des codes barres avec une webcam, avec l’API d’Amazon (ces derniers tests m’ont permis de comprendre pourquoi Listal ne recherche des livres que sur amazon.com et amazon.co.uk : la recherche par ISBN n’est pas possible, dans la version actuelle de l’API, sur les autres sites d’Amazon et notamment sur amazon.fr, même si cette possibilité existe avec des versions plus anciennes), avec les fonctionnalités d’importation de Listal…

Au final, ces tests ont révélé que cette solution serait trop compliquée : la lecture des codes barres, outre quelques petits bugs qui se sont révélés, est difficile et longue. L’utilisation de l’API d’Amazon ne permet pas de rechercher les ISBN sur le site français et l’importation dans Listal est malaisée (il n’est possible d’importer que des fichiers XML produits par l’application Mac de gestion de bibliothèque personnelle Delicious library, format qui n’est documenté nulle part).

Je suis donc retourné voir LibraryThing (d’ailleurs en partie pour préciser le nombre maximal de livres qu’on peut ajouter avec le compte gratuit) et, sur un coup de tête, j’ai pris un abonnement payant pour ce service (25 $ pour un abonnement à vie et, je l’ignorais, 25 $ représentent beaucoup moins que 25 € par les temps qui courent). Ici, l’importation est beaucoup plus simple : je peux téléverser un fichier texte contenant des ISBN, qui sont ajoutés automatiquement à ma bibliothèque (en utilisant amazon.fr qui reste une base à peu près inépuisable pour les livres en français).

J’avais aussi envisagé d’écrire quelques lignes de PHP pour saisir rapidement les ISBN et les inscrire dans un fichier texte, mais j’ai soudain songé que l’application qui permet de saisir un ISBN, puis de presser la touche “Entrée” avant d’en saisir un autre et finalement d’enregistrer tout cela dans un fichier texte, cette application, dis-je, existe déjà et elle s’appelle un éditeur de textes…

Je vais donc occuper une partie de mes congés (qui commencent demain soir) à saisir les livres de ma bibliothèque dans Notepad++ avant de les embougler dans LibraryThing… ce qui est assez différent du scénario initial. Je ne donne pas, pour le moment, l’adresse de ma bibliothèque sur LT, j’attends qu’elle soit plus à jour, mais les petits malins réussiront bien à la trouver.

En outre, je viens de découvrir chez Virginie Clayssen un autre service du même genre qui s’appelle Babelio et qui est nativement francophone, semble-t-il (LT est traduit en français, entre autres langues). Cependant, comme ce service repose sur le même business model que LT, je n’ai pas l’intention de reprendre un autre abonnement à vie (surtout que sur Babelio, il est à 30 €, soit presque le double de ce qu’il est sur LT). Cependant, je le testerai et, toujours fidèle à ma mission d’information de mes lecteurs, je vous dirai ce que j’en pense. ;-)

tags technorati: , , , ,

Catégories : Non classé
Tagué : , , , ,

Et si le problème, c’était Word ?

19 octobre 2006 · Laisser un commentaire

Dans le cadre de diverses activités, telles que la formation d’enseignants, l’assistance aux utilisateurs, mais aussi dans le cadre de ma vie quotidienne de professionnel de l’informatique à qui tous les amis demandent de l’aide ou des conseils (vous savez : “Quoi ? tu es informaticien et tu ne connais pas par coeur tous les détails de fonctionnement de tous les scanners / tous les appareils photo numériques / toutes les cartes sons etc. !” ou bien ces questions énigmatiques que vous ne commencez à comprendre que quand vous avez saisi qu’elles portent sur l’utilisation de MS Word, parce que, pour votre interlocuteur, l’informatique, c’est Word. Tu sais de quoi je parle, hypocrite lecteur, mon semblable, mon frère), j’ai souvent été confronté à la question de ce qui est un frein à l’acquisition de techniques informatiques par des débutants, à celle de la bonne méthode pour apprendre de nouveaux savoir-faire à des utilisateurs néophytes.

Je me suis ainsi rendu compte qu’il existe une sorte de socle de connaissances, de repère universel qui est le traitement de texte. Tout le monde a, peu ou prou, utilisé un traitement de texte ; comme je l’ai dit plus haut, certains considèrent que l’informatique, c’est Word et beaucoup estiment que la maîtrise ou non d’un traitement de texte est un bon étalon de la compétence en informatique : “j’arrive à me débrouiller avec Word, mais c’est tout”, “je passe beaucoup de temps pour écrire un texte”, “tel ou tel logiciel est plus facile / plus difficile à utiliser qu’un traitement de texte”…

Je crois que l’ensemble de ce raisonnement est faux. Tout simplement parce que les traitements de texte, quels qu’ils soient, ne sont pas des logiciels de débutants :

  • D’abord, ne serait-ce que dans leur interface : ils proposent en général une multitude d’options et de fonctionnalités, beaucoup plus que la moyenne des applications, une sorte de surabondance baroque qui convainc l’utilisateur néophyte que les outils informatiques sont complexes. D’ailleurs, il est évident qu’apprendre à utiliser un traitement de texte, c’est en réalité apprendre à ignorer la plupart de ses options.
  • Ensuite, les traitements de texte essaient presque toujours de tout faire : être à la fois un éditeur de texte, une application de PAO, un outil de traitement d’images, voire un navigateur web dans une certaine mesure… Cela a pour effet de varier terriblement les termes utilisés, en empruntant à droite et à gauche dans les différents domaines concernés, d’où un vocabulaire hétérogène, abscons et simplement incompréhensible.
  • Une autre complexité vient de tous les gadgets que les éditeurs de traitements de texte ajoutent libéralement à leurs produits pour aider les utilisateurs. Toutes ces petites choses qui modifient les marges de votre document si vous commencez un paragraphe par un tiret, qui vous imposent une numérotation dont vous n’avez que faire si vous avez le malheur de le commencer par un chiffre… Cette autre fonctionnalité qui vous apprend qu’il est inapproprié d’écrire un mot qui commence par deux majuscules, ou ces autres si pratiques qui font que créer un tableau ou insérer une image peut devenir un véritable cauchemar si vous ne voulez pas procéder exactement comme le Logiciel l’a décidé ! Ne souriez pas ainsi, ce sont ces petites choses que vous avez appris à combattre quotidiennement. En somme, pour éviter aux utilisateurs d’avoir à apprendre le logiciel, on les oblige à apprendre à s’en protéger…
  • Une dernière (?) tribulation du traitement de texte vient du fait que, le plus souvent, il sert à imprimer. Ce petit point de contact avec la réalité, s’il est souvent ce qui amène le débutant à utiliser un traitement de texte, est aussi la source de nombreux soucis : bourrages de l’imprimante, impressions incohérentes, difficultés pour définir la zone à imprimer, l’orientation des feuilles etc.

Il me semble donc qu’il faudrait rétablir la vérité : le traitement de texte est un logiciel complexe dont la maîtrise n’est jamais un prérequis et qu’il est bon de ne pas utiliser. La plupart des autres outils informatiques dont on peut avoir besoin sont infiniment plus simples à maîtriser.

Tags: , , ,

Catégories : Non classé
Tagué : ,