BlogBackLink

Un hypermédia collaboratif pour la recherche des conversations filées de blogs

Mars 2007, par Camille Paloque-Berges

(version miroir + corrigée de la version publiée sur Cerise.Hymedia)

Introduction : partage et créativité de l’hypertexte

Tracer son chemin sur les voies d’Internet, que ce soit en termes de navigation subjective ou par le biais d’un moteur de recherche, ne peut se faire sans une certaine conscience de ce qu’est et ce que peut faire un hypertexte, et en particulier, de son élément structurel clef : le lien. Les études en hypertextualité insistent beaucoup sur la dimension projective du lien (il emmène quelque part), mais pas assez sur sa dimension référentielle (il pointe vers quelque chose). De plus, le lien n’est pas univoque : il peut être sortant (“outlink”) et entrant (“inlink” ou “backlink”) ; il peut être relayé (redirection) ; il peut envoyer un signal à un serveur quand il est cliqué (rétrolien) ; il peut afficher sur une page un objet herbergé sur autre serveur (“hotlink”) ; etc. Un problème se pose dans la liaison hypertextuelle des documents du Web : le référé n’est pas toujours conscient du référent, i.e. une page n’a pas forcément les moyens de connaître toutes les autres pages qui lient à elle. Theodor Nelson, inventeur du réseau hypertextuel Xanadu, précurseur du World Wide Web, proposait un système de liaison hypertextuelle qui intégrait automatiquement "inlinks" et "outlinks" au code du document. Il entendait par là rendre transparents les modes de citations et faire du code un mode performatif de loi sur la propriété intellectuelle. Le WWW n’ayant pas adopté cette technologie du traçage automatique du lien entrant, il a fallu légiférer, comme le rappelle Sandy Baldwin (2007). En 2000, les Etats-Unis assignaient au lien un double statut : un élément de discours (protégé par le Premier Amendement de la Constitution américaine sur la liberté d’expression) et un élément fonctionnel, une “extension prosthétique du code informatique sous-jaçent”. Baldwin ajoute : “Le statut légal d’un lien n’est pas l’expression d’un auteur mais la fonction de la médialité d’une écriture dont le substrat est technologique”(1) ; et, plus loin, qu’il existe une “double dimension du code entre expression et action”(2). L’hypertexte est ainsi un enjeu de connaissance fondamental sur Internet, régulant les modalités de la circulation textuelle du savoir dans un ensemble dynamique et relationnel. Le Critical Art Ensemble (CAE: 1998) suggère que l’hypertextualité réalise l’utopie du plagiat, dans le sens où l’information "est plus utile quand elle interagit avec d’autres informations que lorsqu’elle est déifiée et présentée dans le vide"(3). Apparemment opposé à la régulation de la propriété intellectuelle par le code proposée par Ted Nelson, le collectif se place en fait dans la filiation de l’entreprise de Xanadu dans le sens où l’ordinateur (et particulièrement l’ordinateur en réseau) est "un lieu idéal d’interconnexion des données accessibles à l’homme" (Nelson, cité par CAE). Le lien est une citation augmentée, une "seconde main"(4) prosthétique. Pourtant, ce que le CAE omet de prendre en compte dans son utopie du plagiat, c’est la nature proprement référentielle du lien hypertextuel. En effet, le lien ne plagie jamais : il renvoie formellement (par le code) à une source. Le problème qui va se poser est au-delà de la question provocatrice de l’appropriation par plagiat : ne faire que renvoyer à la source, sans que la source sache qu’elle est référée ne fait pas que poser des problèmes de propriété intellectuelle, c’est aussi rendre problématique la possibilité d’un dialogue entre les auteurs des discours référents et référés. Ce que se joue dans l’activité du lien, c’est plus que la circulation de la connaissance, c’est sa constitution même dans le discours partagé. Imad Saleh (1997) rappelle le principe créatif au coeur même de l’interactivité hypermédia : “Selon Berners-Lee, la définition de l’interactivité sur le Web ne comprend pas seulement : l’habilité de choisir mais aussi l’habilité de créer. Nous devons être capables au même temps de trouver n’importe quel type de document sur le Web et d’en créer facilement d’autres. Nous devons être capables de suivre des liens et de les créer parmi tous les types de médias. Nous devons être capables d’interagir avec d’autres utilisateurs, mais aussi de créer avec les autres. L’interactivité est le processus de créer ou de résoudre des problèmes ensemble”(5).

Je voudrais ainsi proposer un outil de recherche hypertextuelle centré autour du lien entrant (à partir de maintenant appelé “backlink”). Le backlink est un node textuel comme un autre, sauf qu’il est peu pris en compte dans la navigation quotidienne. La technologie visant à mettre à jour les backlinks existe déjà sous différentes formes (“link : URL” chez Google, “link count” de Technorati, les “trackbacks” de blog, etc.), mais toujours associés à une boîte à outil de type Web 2.0 très fournie et parfois un peu confuse. Il reste à offrir aux usagers et aux personnes intéressées par la lecture de blog un système d’hypermédia qui serve à la recherche des backlinks entre messages de blogs, pour suivre des conversations qui sont souvent filées sans que les initiateurs des conversations ne le sachent. Les backlinks permettent d’observer des modes conversationnels inattendus et paradoxaux, par la reprise des contenus, mais sans l’obligation du dialogue. La mise en commun des discours sur le Web doit prendre en compte les chemins invisibles de l’hypertexte. L’hypermédia que je proposerai est collaboratif dans le sens où il peut utiliser des API déjà existantes (recherche Technorati, visualisation Hypergraph). Mais il est aussi participatif : sur le modèle de del.icio.us, il engage les chercheurs à enregistrer leur recherche et à l’associer à des mot-clefs pour visualisation future et pour mise en commun de plusieurs fils de conversation sous les mêmes termes.

La sociabilité et la mise en commun du discours sur le Web 2.0 : pour une métatechnologie critique

Mon projet consiste à se focaliser sur cet outil unique de la recherche backlink perçu comme chaînon manquant dans une cartographie critique des relations sociales sur le Web. Il dessert également l’idéal d’une navigation orientée-contenu, un web pré-sémantique permettant de recréer et de visualiser des fils de discussion entre usagers de communauté restreinte (qui se constitue dans la connaissance/l’enregistrement de ses membres à l’intérieur d’un espace social et/ou technologique limité) et usagers de communauté élargie (qui ne connaît pas ses limites). Il se développe en trois temps : la mise en place d’une application dont l’unique fonction sera de mettre à jour les backlinks - et plus particulièrement ceux qui lient des entrées de blogs et relaient un sujet de discussion) ; la visualisation de ces fils de discussion selon une carte graphique nodale ; enfin, la possibilité d’enregistrer l’histoire de sa recherche, de la stocker dans une base de données et de pouvoir la récupérer par mots-clef. Ici j’essaierai d’expliquer pourquoi ces trois fonctionnalités peuvent constituer une métatechnologie critique intéressante dans l’environnement actuel du Web social.

Ma démarche prend en compte les médias sociaux d’Internet, dont l’usage s’est radicalisé et massifié avec le Web 2.0. La sociabilité de réseau n’est pas par nature différente des phénomènes de sociabilité en milieu "réel". Par contre, elle est "augmentée" par l’usage de moyens technologiques qui ne sont pas seulement des outils, mais aussi des médiums dont la forme possède autant d’importance que le contenu(6). L’augmentation permise par les technologies du Web 2.0 ne se réduit pas seulement à un fonctionnalité de publication rapide et simple des opinions : elle concerne l’organisation de jeux sociaux discursifs s’auto-régulant dans la sphère du commun, une "publicisation" des discours plus qu’une simple publication(7). La mise en commun de l’information se fait sous le signe de l’utilité publique (ou "bien commun"), comme le souligne Howard Rheingold dans Smart Mobs (2002): “Un des aspects les plus séduisants du cyberespace est la manière dont les communautés virtuelles partagent une information utile”(8). L’utilité, ici, possède moins un sens utilitariste que le sens pratique et relatif d’usage : écrire sur le Web ouvre à la possibilité qu’il soit fait usage du texte publié – c’est même ce que les gens recherchent (par le biais des injonctions à laisser des commentaires, à relayer l’information, etc.). Rheingold dégage une des propriétés fondamentale la régulation sociale sur le Web : la réputation. Phénomène social auto-régulateur déjà observé par les anthropologues en milieu “réel”, la réputation est augmentée de moyens prosthétiques sur le Web et distribuée sur un “Web de confiance” (“Web of trust”) : outils d’évaluation (Ebay, Amazon, Youtube, Epinion, Digg It) qui sont aussi des moyens de punition (“flagger” les vidéos indécentes sur YouTube, le “karma system” de Slashdot, le “bozofilter” de The Well, le “killfile” de Usenet) ainsi que des structures de hiérarchisation de micro-société virtuelles (devenir “admin” sur les forums, être un blog populaire et plébiscité, obtenir le plus de visionnages sur Flickr ou YouTube), etc. Dans un blog, la réputation est une composante essentielle de la sociabilité conversationnelle. L’auteur inscrit son blog dans une blogosphère qui dresse un “blogroll” (série de liens amis ou recommandés dans la barre de côté). Il augmente son blog par le biais de fonctionnalités additionnelles, avec des widgets qui permettent aux lecteurs de réinscrire le post dans une chaîne de référents informationnels plus large, par marque-page (del.icio.us, furl.net, spurl.net), évaluation (Digg It), etc. Il l’ouvre ou non à la discussion en autorisant les commentaires (selon différents degrés : à tout le monde, aux utilisateurs de la même plateforme blog, aux membres du blog, à personne). Ainsi l’écriture du blog est prosthétique au sens où, au-delà de l’écriture du post, elle fait appel à des modifications et ajouts de lignes de code (HTML, css, java, etc.) et à l’utilisation d’applications externes (template, widget). La lecture va subir les conséquences de cette augmentation du blog et, parce qu’elle active toutes ces fonctionnalités proposées à la lecture, elle est immédiatement sociale et publique (publiciste ?).

Le blogging met en place, à sa façon, une cartographie du web, une exploration alternative aux moteurs de recherche et navigateurs les plus connus. Rudolf Frieling (2004), dans son étude des formes de cartographie artistique du Web, dégage plusieurs stratégies dont une en particulier nous concerne : “cartographier les données dans l’espace des données : comme dans la cartographie des espaces réels, le concept de “cartographie” s’applique aussi à la distribution des données dans un système précis de coordonnées qui n’ont pas forcément besoin d’une contrepartie dans l’espace physique”(9). Frieling décrit alors des projets artistiques qui mettent en place des méthodes de cartographies collectives à partir de systèmes conversationnels. Il est possible que la présentation graphique (ou visualisation) des données soit une bonne façon de faire émerger des différences de points de vue et d’implication dans le milieu conversationnel électronique, et ainsi nourrir des analyses socio-linguistiques. Nous ajoutons qu’il ne s’agit pas seulement de visualisation de données, mais aussi de visualisation des structures de code comme les liens HTML (qui nous intéressent ici). Les blogs Visual Complexity et Information Aesthetics (10) proposent nombre de ces expérimentations visuelles, mais on retrouve aussi ces techniques dans le web social de masse et les “folksonomy” - comme les tag clouds de Flickr ou de del.icio.us par exemple. Frieling insiste sur le fait que “l’usager peut avoir une influence en créant à la fois du contenu et des formes de présentation”(11), et que la cartographie du web social n’est pas seulement programmée, elle est rétro-programmable (les données et les actions de l’usager peuvent modifier ses formes et ses contenus). Ainsi, il existe des “outils qui non seulement représentent des relations dynamiques, mais aussi renforcent des liens dans la communauté. La question qui émerge concerne la capacité du design graphique et d’interface à ouvrir de nouveaux horizons sémantique, ou son maintien dans l’utilitarisme logiciel”(12).

Le blog, dans ce contexte, apparaît comme le nouveau médium du partage des discours sur le Web. Le projet de traçage des fils de backlinks comme cartographie sémantique du Web émerge après avoir pris connaissance d’un certain nombre de débats sur l’importance des blogs dans le milieu artistique. A la fin 2004, un panel de critiques et artistes se réunit au New Museum of Contemporary Art de New York pour discuter du statut problématique de l’écriture des blogs(13). On se demande alors si les blogs changent la nature du discours dans le champ de l’art, à côté des publications canoniques de la critique d’art (Art Press en particulier), qu’elle soit en format papier ou électronique. Corrélativement, on se demande s’il est possible d’intégrer cette nouvelle forme de communication dans les travaux des artistes eux-mêmes. Du blogging sur l’art, on passerait au “blogging comme art”. Je me demande à partir de là comment l’écriture du blog peut devenir un nouvel outil de critique, non seulement en esthétique, mais dans d’autres champs de l’information (les débats actuels sur les blogs politiques forcent cette interrogation). Faire de la “cherche” (search) Internet(14) une recherche critique (research) passe par la conscience qu’il existe des communautés de discours, mais qu’elles sont aussi permises par des “métatechnologies” à “algorithmes sociaux”(15). Le blog est assimilable à une métatechnologie : en permettant de nouvelles modalités d’échange des contenus, il change aussi les formes de cet échange, et permet l’émergence de discours ritualisés, validés et légitimés par la communauté sans être forcément reconnus par les institutions. Mais celles-ci (et particulièrement l’université) doivent se montrer curieuses de tels phénomènes, pas seulement en tant qu’objets d’études, mais aussi comme nouvelles métholodogies d’acquisition de connaissance et de critique. Le milieu des nouvelles technologies est témoin d’une tendance de plus en plus marquée : une jeune génération d’artistes ou de critiques-chercheurs indépendants, ayant développé leur cadre théorique et artistique en dehors et/ou contre l’académie, est de plus en plus intégré à l’institution (Ecoles, Instituts d’arts, Université). Mais plutôt que d’observer une récupération de leurs pratiques “dans les règles”, on voit que ces personnalités changent de l’intérieur les méthodes de recherche, en superposant leur art de faire aux pratiques institutionnelles. On voit de plus en plus d’enseignants-artistes qui se tournent vers les blogs pour documenter leur recherche et leurs élèves, en plus de leur public (Cory Arcangel(16), Marisa Olson(17), deux bloggeurs artistes et enseignants choisis parmi tant d’autre parce qu’exemplaires d’un art du blog). Mais aussi pour provoquer le débat et la discussion dans la communauté académique (Trebor Scholz, par le biais de l'Institute for Distributed Creativity (IDC) met en place un large dispositif d’expérimentation sur la recherche et le débat universitaire dont le blog n’est qu’une branche, à côté des listes de diffusion, discussion en ligne à modérateur invité, etc.(18)). Ces nouveaux cercles de sociabilité de la jeune intelligentsia sont aussi bien assimilables à du Folk Art qu’à une Folk theory, expression qui semble oxymorique, mais qui pourrait être rendue pertinente par l’émergence des métatechnologies. Tom Moody, un “artiste qui écrit”, au coeur de la création électronique et du discours en réseau, précise qu’”une fois le médium d’échange informationel transformé (en URLs, etc.), alors la métacritique liée ou cousue dans ces ressources semblera plus naturelle”(19).

Mon projet relève de cette métacritique, mais s’il prend pour objet les métatechnologies que sont les blogs, il ne se situe pas à un niveau "méta" supérieur. Au contraire, il vient s’ajouter aux outils de navigation déjà en place dans la blogosphère et dans la cartographie de réseau de visualisation dans une logique d’emboîtement avec les objets et techniques existants. Il vise à devenir un outil destiné à la recherche académique comme à la “cherche” de divertissement, et voudrait que la frontière entre les deux devienne plus poreuse. Mon hypothèse est que, en terme de cartographie des réseaux sociaux, si l’on veut appréhender les dynamiques de discours et de création à l’oeuvre aujourd’hui entre intellectuels, artistes, critiques et chercheurs, il faudrait peut-être se tourner vers les blogs et leurs relations dynamiques plutôt que de chercher à dresser des états de la recherche aussi confus qu’inutiles(20).

Etat de l’art des technologies utilisant la fonctionnalité "backlink"

Le backlink, dans ce contexte, est un outil de sociabilité quasi invisible, mais très actif. A part quelques fonctionnalités peu ou mal utilisées par les bloggers (“Link Count” de Technorati, “Trackbacks”, sur lesquels je reviendrai), la connaissance de l’existence de backlinks est de l’ordre du privé : seuls les administrateurs d’un blog, s’ils ont à disposition un logiciel d’analyse du trafic de leur site, peuvent retracer la route des liens entrants. La traçabilité du backlink se résume principalement à un outil entre les mains seules de l’administrateur qui peut s’en servir comme outil de contrôle (Comment est utilisée la référence citée ? Y a-t-il utilisation illégale d’une image ? etc.), ou de sociabilité (aller remercier par un commentaire sur le blog référent l’auteur du backlink, ajouter des précisions, faire une rencontre si le référent et le référé ne se connaissent pas, etc.). Hors des blogs, le backlink a évidemment une importance capitale, mais peu exploitée. Les moteurs de recherche savent retrouver les liens entrants à partir d’une URL, mais cette fonctionnalité est peu mise en avant dans leur page de présentation, leur tutoriaux et autres FAQs. Je ferai ici une petite histoire non chronologique de la technologie backlink. 

Une des plus grandes “killer apps” des années 2000 est le moteur de recherche Google. La raison de ce succès tient à deux grandes innovations qui sont des concepts aussi bien informationnels que technologiques. La première est l’implémentation efficace des idées développées autour de ce que Peter Morville (2005) appelle l’ “ambient findability”(21): une redéfinition de l’ontologie de l’environnement numérique en réseau, fait d’objets numériques dont le but est d’être trouvés. La deuxième, qui détermine en grande partie l’efficace évoquée ci-dessus (le reste relevant de considérations autour du “business model” de Google qui ne rentrent pas directement dans notre propos), et qui nous intéresse particulièrement, tient aux méthodes mises en place par Google pour la recherche : l’algorithme du "Page Rank". Cet algorithme a émergé à partir des recherches de Larry Page sur les backlinks dans le cadre de son projet initial de PHD, le "BackRub". "BackRub" était le prototype du moteur de recherche Google : si on y entrait une URL, une liste de backlinks vers cette URL, classés par importance, était publiée. Le "BackRub" se révèle plus efficace que les moteurs de recherche de l’époque, car il prend en compte le signal qui existe entre les URLs, et non pas seulement les données textuelles. Si le Web se fonde, comme le pense Larry Page, sur un système de citation (le lien) et d’annotation (le texte), il faut trouver la méthode pour compter et qualifier chaque backlink afin que le “Web devienne un espace de valeur”(22). Cette méthode repose sur l’inversion du trajet hypertextuel habituel et l’analyse statistique des liens trouvés sur ce trajet. La méthode est toujours présente sur Google, sous la forme de la syntaxe link : [insérer URL]. Mais on a constaté en 2005 que cette fonction n’obtenait pas de résultats exhaustifs, Google ne publiant qu’un "échantillon" de backlinks dont on ne connaît pas bien les critères de sélection(23). D’autres moteurs de recherche ont la même fonctionnalité, selon une syntaxe similaire (MSN, Exalead, Gigablast) ou un peu différente (link :domain [insérer URL] chez Yahoo). Dans les années 1990, AltaVista et Open Text Index avaient déjà cette fonctionnalité (avec une simple recherche de l’URL dans le moteur). Aujourd’hui, les moteurs de recherche orientés "inlinks" considérés comme les plus performants sont ceux du site IWebTool, le “Backling Checker” et le “Link Popularity” (qui donne le PageRank et le nombre de backlinks que recensent les autres moteurs de recherche)(24).

"PRWeaver" est un logiciel à télécharger(25) qui s’appuie sur la technologie Google (Google API, clé API et Google Toolbar). Le logiciel affiche les 100 premiers backlinks d’un site donné accompagnés de leur PageRank. Il propose aussi des outils avancés de recherche comme le filtrage des liens internes (à un même domaine) et l’indexation des textes associés aux liens (pour les images par exemple), et détecte les utilisations frauduleuses de backlinks (comme les opérations de Google Bombing). Cette applicaton est d’abord destinée à l’analyse de solutions marketing, sa vocation étant d’aider au meilleur référencement d’un site (par exemple, en mettant en valeur les pages à haut PageRank où la présence d’un backlink vers son site serait le bienvenu).

Dans les années 1990, de nombreuses expérimentations avec des CGI eurent lieu pour faire de la recherche de backlinks une fonctionnalité intégrée de l’écriture et de la publication hypertextuelle (le prototype "HackLinks" de John Walker proposé en 1995(26)). Dans la lignée de l’environnement imaginé par Ted Nelson avec Xanadu (projet sur lequel John Walker a travaillé), un groupe d’informaticiens cherchent à augmenter la navigation par des systèmes d’automatisation de mise à jour de backlinks, avec des “boutons” de recherche backlink communiquant avec Yahoo, Altavista ou Open Index, ou des fenêtres multiples (le projet de Ted Kaehler, un système écrit en java fonctionnant sur Netscape 2.0(27)). Pour prendre connaissance de ces projets, la plupart périmés, on peut se reporter à “The Backlinks Page”(28), ou encore la sélection faite par Robin Hanson(29). Ces expérimentations ont été marquées par la vision de l’hypertexte Internet comme un document distribué, selon la conception de Ted Nelson(30), où toute référence de lien est un commentaire, une véritable citation critique, comme l’explique Robin Hanson dans son exposé des différents projets d’intégration de la recherche de backlinks : CritLink est une application qui résulte de ces prototypes, un "outil pour observer et générer des annotations [...] qui augmente l’expérience de la navigation en faisant la médiation entre toutes les transactions entre le navigateur et le serveur”(31). L’augmentation se fait par une barre des tâches ajoutée au navigateur (un ancêtre du plug-in) et une base de donnée externe au navigateur permet de conserver les annotations faites sur les documents. L’outil, cependant, s’adresse d’abord à un public d’informaticiens (ne serait-ce que par l’installation du “plug-in” qui requiert d’avoir Perl 5.0 sur sa machine, par exemple).

Dans un article intitulé "Surfing the Web Backwards” présenté à la huitième édition de la “International World Wide Web Conference” en 1999(32), Soumen Chakrabarti, David A. Gibson, et Kevin S. McCurley font la synthèse de toutes ces idées et proposent un nouveau prototype de navigation par liens entrants. Ils rappellent que la particularité des backlinks est qu’ils relèvent d’un processus autorial, répondant par avance ainsi à la loi de 2000 qui dénie ce processus (tel que rappelé par Sandy Baldwin plus haut) : “créer des liens demande un certain degré d’effort et de jugement, beaucoup plus que n’importe quel système automatisé ne pourrait le faire dans un futur proche. La raison pour créer un lien varie du commentaire à la compilation, ou encore à la critique, mais si l’auteur a certaines exigences de qualité, la raison est toujours pertinente”(33). Les communautés de chercheurs se fondent sur des principes de partage de l’information, de commentaire et de critique ouverts, mais il faut aussi mettre en place des systèmes de coopération au niveau des serveurs. Le backlink, précisent les auteurs de l’article “Surfing the Web Backwards”, est une métadata dynamique attachée à une ressource, mais la gestion de cette métadata peut elle-même se faire à partir d’une multiplicité de sources : à la main, par des robots crawlers, ou encore par compilation automatique. Le projet des auteurs est de permettre à l’usager de prendre conscience du contexte des liens hypertextes entrants et sortants par des moyens de visualisation en arbre dans une fenêtre du navigateur (chaque backlink étant représenté par le titre de la page où il est inséré). Ce projet est le premier à parler explicitement de “plug-in”, et donc de fonctionner sur de multiples navigateurs. Le système implique une relation réciproque entre serveur et client (ils doivent s’informer mutuellement de la recherche et de la location des backlinks), assistés par un proxy (qui agrège les informations depuis des sources différentes), et au moyen d’un protocole simple qui accueille l’appareillage dans son architecture (ils utilisent des extensions HTML).

Enfin, une nouvelle génération de traçeur de backlinks apparaît avec les technologies du Web 2.0, par le biais de communication peer-to-peer sous protocole HTTP (méthode "post"). Les informations sont échangées de serveur à serveur sur la base de requêtes, et non pas de serveur à client. Les données échangées sont des paramètres par l’intermédiaire des requêtes (dont les URLs). Cela nous intéresse particulièrement puisque ce sont des techniques visant à relier des sites du Web social, en particulier les blogs. Les Trackbacks (rétroliens), tout d’abord, implémentés dès 2002 sur la plateforme blog MovableType, puis sur celle de DotClear, permettent de dresser des listes de liens entrants référant à un message de blog, par un système automatique à référent permanent. Un blog muni du système Trackback détecte automatiquement les liens pointant vers lui ; chaque usager qui fait un lien vers ce blog augmenté envoie un signal (un ping) qui permet sa détection et son référencement par le premier blog. Le lien entrant est reporté dans les commentaires du message de blog référé. Le Trackback, à côté du Refback (lien qui réfère) et du Pingback (information sur l’adresse IP ou le serveur, comme pour le Trackback), est une des trois méthodes de la technique de LinkBack. Le logiciel "Trackbackr" permet d’implémenter cette technologie sur n’importe quel blog à l’aide d’un morceau de code java à insérer dans le code de la page. Le logiciel parent "BackLinkr" propose le même service, mais pour les liens entrants sur n’importe quel site, pas seulement par le biais de commentaires de blogs(34). Le "LinkCount" de Technorati opère de la même façon en incorporant un script en bas de chaque entrée blog sous la forme d’un widget qui comptabilise en temps réel le nombre de réactions d’autres bloggers par le biais de rétroliens. Ces services sont incorporés à la masse des outils gratuits et modifiables (sous formes d’API ou de widgets) générés par l’enthousiasme autour du Web 2.0. Les outils sont distribués aux usagers du Web sous la forme de code à insérer à des endroits bien précis, sans qu’il y ait besoin de connaissances en programmation, mais aussi destinés, sous la forme d’open source dans les packs API, à des usagers développeurs. Il est donc possible d’avoir une vue realtivement globale des relations sociales de la blogosphère par suivi de backlinks. Mais là encore, il faut que l’usager d’un blog donné ait ajouté ces fonctionnalités à son blog pour que les résulats soient accessibles à tous. Un nombre limité de bloggueurs utilisent ces widgets. Par exemple, dans le cas des artistes du Web (que j'évoquais plus haut), munis d’une culture informatique très élaborée, mais faisant également état d’une critique envers la course à l’innovation et les gadgets de design, ces fonctionnalités sont quasi totalement absentes. Enfin, des moteurs de recherche spécialisés blogs, comme Technorati et BlogLines, intègrent la fonctionnalité de recherche de backlinks. Il y a donc un appareil qui rend possible la recherche publique de liens entrants entre des messages de blog. Mais cette fonctionnalité tend à être perdue au milieu d’un ensemble foisonnant de services Web 2.0. Il faudrait, pour qu’une recherche plus exhaustive ait lieu, avoir accès aux codes des crawlers des gros moteurs de recherche et les réimplémenter dans un service unique.

Visualisation de données blogs

De nombreuses tentatives de visualisation de la blogosphère existent. La plupart sont des diagrammes rhizomatiques qui empruntent leur technologie aux expérimentations sur les cartes DDM (Data Driven Maps) ou SOM (Self-Organizing Maps), et montrent les relations entre un groupe de sites connectés par liens (logique nodale). Le problème des blogs est qu’ils sont des répertoires de liens très fournis, étant eux-mêmes utilisables comme des interfaces de navigation sur le Web. L’écriture typique du blog est moins déterminée par une logique du journal intime, comme on l’a souvent dit, que par celle d’un journalisme subjectif sur l’actualité (technologique, politique, artistique, sociale... la liste des sujets est infinie) du Web. Le nombre exponentiel de liens et les problèmes que posent des pratiques comme le “hotlinking” rendent le suivi ordonné des liens de la blogosphère quasiment impossible, et par conséquent sa visualisation illisible, comme c'est le cas dans le projet de Matthew Hurst, “Mapping the Blogosphere”(35). Une cartographie de la blogosphère dans son ensemble ne permet pas de visualiser les relations dynamiques ayant lieu. Les expériences de visualisation de communautés de blogs doivent donc fonctionner par restriction.

Dans la logique d’une visualisation des relations orientées-contenues dans une communauté sociale, qui est l’axe principal de mon projet, je citerai rapidement quelques projets. "IRC Arcs", de Martin Dittus en 2006, permet de montrer les relations de références entre usagers dans les communautés de tchat IRC (Instant Relay Chat)(36) par un système de cercles et d’arcs de cercles de taille différentes. Il n’y est question de backlinks que de façon indirecte et métaphorique : la "référence", sur les tchats, étant un message contenant le nom d’un utilisateur distinct de l’émetteur du message. Cette visualisation n’est pas orientée-contenu, mais dégage les connections sociales entre usagers par la mention réciproque de leurs noms en conversation. La composante du “name dropping” est importante pour comprendre comment des fils de conversation, bien qu'idéalement orienté-contenu, possèdent un certain nombre d’éléments formels et rhétoriques : si le nom (ou l'avatar) est un de ces éléments, le lien (in- ou outlink) en est aussi un. "Linkology", de Ben Fry en 2006, propose une visualisation de la façon dont les “liens entre blogs (blogroll) représentent des votes de réputation pris dans un incessant sondage fait au niveau global”(37). Cette étude visuelle, commendée par un magazine important, permet de voir quels sont les blogs les plus fréquentés au moment de l’étude. A notre avis, cette insistance sur le niveau global souffre d’un défaut : assumer que les relations entre les blogs ne sont fondées que sur le blogroll (la liste des liens choisis et publiés par le bloggeur dans sa barre de côté). Si les résultats de Fry ne sont pas faux, ils ne permettent pas de comprendre plus que ce que la consultation de Technorati aurait pu montrer en un instant – la popularité des blogs étant une des caractéristiques mise en avant sur la page d’accueil de Technorati. Enfin, "The Dumpster", un projet de Golan Levin, Kamal Nigam et Jonathan Feinberg en 2005-2006(38), est une compilation de messages blogs racontant des déceptions amoureuses ; le rendu graphique est interactif, l’usager pouvant choisir (au hasard) un élément graphique de la “poubelle à blog”, qui lui permet de lire un message de rupture. Cette visualisation ne prend pas en compte les liens entrants, mais est intéressante car elle plonge directement dans une analyse orientée-contenu de la conversation de blog, la similarité des parlers blogs (et adolescents), des structures de langage mémétiques. Ces visualisations ne sont pas ouvertes et ne permettent que de constater des phénomènes de conversation sociale ; ils ne sont pas des outils pour explorer plus profondément ces phénomènes.

Quels outils utiliser pour élaborer une visualisation de la recherche de backlinks entre messages de blogs ? La compagnie Touchgraph a mis en place, à partir de son logiciel de cartographie du même nom, un procédé de navigation graphique à travers les blogs de Live Journal : “Live Journal Browsers hyperfriendships”(39). La technologie de TouchGraph se base sur une application de navigation entre liens entrants et sortants ("Link Browser") que l’usager peut customiser (couleur des nodes et des arrêtes, taille et couleur du texte) et déterminer selon un usage plus local ou plus global, du détail à l’ensemble.

Concrétisation du projet BlogBackLink

Le projet que nous proposons, "BlogBackLink", met en place plusieurs fonctionnalités qui permettent d’augmenter, de visualiser et d’archiver la recherche sur les conversations de blogs. Tout cela devrait pouvoir se faire à partir d’un site en ligne, sans qu’il soit nécessaire de télécharger une application, d'ajouter un plug-in à son navigateur, ou d'intégrer un widget dans son blog. "BlogBackLink" se présenterait comme un moteur de recherche augmenté d’un mode de visualisation graphique des données trouvées et d’archivage des recherches par mot-clef. Il permettrait de retrouver les URLs qui lient un blog ou une entrée de blog et de les visualiser sous forme de liste d’URLs ou de carte nodale. Ensuite, il donnerait la possibilité à l’utilisateur de donner à sa recherche un mot-clef, et d’archiver le fil de recherche pour visualisation future.

Manquant de connaissances techniques, je ne ferai ici que décrire très hypothétiquement comment on pourrait imaginer l’implémentation de ce système. Je propose d’utiliser un système de mash-up entre l’API "recherche" Technorati et l’API de cartographie Hypergraph, augmenté d’une base de données ouverte à l’utilisateur.

La récupération des données peut se faire grâce l’API de recherche de liens entrants (“Search”) de Technorati. Avec une clef API fournie pour toute inscription (gratuite) sur le site de Technorati, on peut récupérer en fichier HTML les données d’une recherche de backlinks pour toute URL. Il faudrait ensuite parser les expressions régulières de ce fichier HTML pour récupérer les données qui nous intéressent (URL, nom du blog et/ou du bloggeur, titre de l’entrée blog, mots-clef du sujet). Les résultats seraient publiés sous forme de liste de textes et de liens (interface de type Google ou del.icio.us).

Ces données converties en XML iraient ensuite aller alimenter l’API Hypergraph, pour construire une visualisation graphique en arbre des relations entre le blog source et le blog relais. Ici je propose un schéma retraçant les relations de bases que peuvent entretenir les blogs à partir de backlinks.

Figure 1 : graphe 

Le "blog source" est celui qui lance un sujet de discussion ou publie un objet (vidéo, photo, mp3, etc.) susceptible d’être lié par un autre blog. Le "blog relais" crée un backlink vers le "blog source", mais il va lui-même être l’objet d’un backlink par un ou plusieurs autres blogs. Le "blog fermant" est celui qui aura relayé l’information du "blog source" (ou d’un autre "blog relais"), mais vers lequel ne se dirigeront pas de backlinks. Un "blog relais" ou "fermant" à deux nodes (+2) du "blog source" peut soit simplement lier le "blog relais" +1 qui lui a fait découvrir l’information du "blog source", soit lier aussi au "blog source", soit, enfin, ne lier que vers le "blog source" sans mentionner le "blog relais" +1 (je ne propose pas de solution visuelle à ce dernier cas car il n’y a pas de continuité formelle qui permettent de prouver qu’un blog +2 a découvert un "blog source" par le biais d’un blog +1). Il faut préciser qu’utiliser l’API de recherche Technorati en en déduisant directement un Hypergraph résulterait à ne pouvoir visualiser les relations que “fermées” et à node +1. Le traitement des données de la liste des URLs backlinks doit donc se faire de façon récursive, la recherche se reproduisant dès que la page contenant un backlink vers le "blog source" ou un "blog relais" est elle-même objet d’un backlink. Pour la pertinence des résultats, il faut donc réduire la recherche à des URLs de messages de blog (appelés aussi “posts”, “entrées”, ou “billets” ; ils sont consultables individuellement sur le blog par le biais d’un “permalink”), sinon le crawler de recherche de l’API Technorati suivra des backlinks en rapport avec d’autres éléments du blog. Cette restriction ne semble pas problématique dans le sens où le projet, étant orienté-contenu, n’est intéressant dans la mesure où il peut suivre l’évolution d’une conversation précise, et donc susceptible de commencer dans le corps d’un message individuel de blog. Si le "blog source" contient une autre entrée qui continue la discussion et indique la continuité au moyen d’un lien interne au site, il sera pris en compte par la recherche et l’Hypergraph visualisera ce node comme "blog relais" ou "fermant". On peut imaginer un codage de couleur ou de taille qui différencie les nodes relais/fermants du blog source et ceux des blogs externes.

Il faudrait aussi constituer une base de données qui puisse être alimentée par l’histoire des recherches (URL source et URLs backlinks). Peut-être en utilisant l’API “Search History” de Google. Il serait intéressant que les usagers puissent utiliser et nourrir cette base de données. Après chaque recherche de backlinks et/ou visualisation graphique, l’usager pourrait entrer un mot-clef ou plusieurs mot-clefs qu’il juge pertinent de leur associer. La base de donnée doit être accessible et donner des résultats à partir de plusieurs modes de recherche : par mot-clef, par URL, par nom de page blog ou titre d’entrée blog, ou encore par nom de bloggeur. Pour évider la confusion, il est conseillé que le choix de l’usager, quand il doit entrer un ou plusieurs mots-clef, soit réduit à ces catégories.

On peut récapituler le fonctionnement de ce système de mash-up avec un diagramme d’usage :

Figure 2 : diagramme d’usage BlogBackLink

Au niveau de l’interface, un modèle simple serait celui d’une page à trois onglets, chaque onglet ayant pour point commun d’accueillir un moteur de recherche. Voici un modèle possible, la partie tags étant à réviser pour accueillir des listes beaucoup plus longues - on peut imaginer des modes de classifications croisés (par catégories) et mixtes (liste, cloud).

Figure 3a : Interface de BlogBackLink/recherche

Figure 3b : Interface de BlogBackLink/visualisation 

Figure 3c : Interface de BlogBackLink/enregistrement du fil backlink

Conclusion

"BlogBackLink" ne serait pas un fournisseur d’outils de blogs, mais un moteur de recherche hypertextuel permettant de retracer l’évolution des conversations entre blogs en prenant comme fil directeur le lien entrant. Evidemment, on peut arguer qu’un lien n’est que la liaison formelle qui permet d’appréhender la communication en ligne. Il est vrai que le développement conversationnel sur le Web est proprement viral et complètement informel ; pour qu’un "meme" (mémétique) existe, il n’est pas besoin de référence explicite, les relais pouvant s’approprier l’information, s’en revendiquer les auteurs, taire la provenance de la source, modifier l’objet, etc. La décision de s’arrêter au niveau du backlink est la fois une ouverture et une restriction. Une restriction méthodologique pour imaginer les réseaux de conversation sur le Web comme un hypertexte géant, un texte global et évolutif. Dans ce cas, le lien peut être considéré comme un outil rhétorique de l’hypertexte : il ne limite pas le discours, il l’oriente dans certaines directions, il révèle des choix de discours. Enfin, il fait lumière sur le niveau local dans l’hypertexte généralisé. Mais aussi une ouverture dans le sens où les moyens de la recherche sur le Web ne mettent pas en avant la recherche backlink, ou pire, la limitent à des usages privés comme ceux de l’analyse du trafic des sites. Faire un site qui soit entièrement consacré à la recherche, la visualisation et l’archivage de backlinks entre blogs permet une remise en valeur de cette métholodogie. Le modèle sous-jacent est del.icio.us, qui a rendu populaire une méthode de navigation alternative en associant deux fonctionnalités (le marque-page et le tag) et en a fait un des modes incontournables de la recherche orientée-contenu. De même, "BlogBackLink", en associant une méthode de recherche alternative et un moyen de conserver la trace de la recherche (par les tags et l’histoire de la recherche) peut devenir un outil nécessaire, critique et divertissant.

NB: Je tiens à remercier Bernhard Rieder pour m’avoir montré le fonctionnement des mashups et le site Programmable Web.

=== Notes 

(1) “In this case the now-binding definition of a link is twofold : both a speech element, covered as expression under the First Amendment, and a second functional element, a prosthetic extension of the underlying computer code. The legal status of a link is not an expression of an author but a function of the mediality of writing qua technological substrate.”, Sandy Baldwin, “How to do things with links : the "linking prohibition," hypertext, DMCA, and intermediality”, in The Little Magazine, 2006-2007 issue, revue en ligne, University of Albany, Albany, consulté en mai 2007 [http://www.albany.edu/~litmag/work/current/baldwin_01.html et http://clc.as.wvu.edu:8080/clc/projects/plaintext_tools/HowToDoThingsWithLinksTheLinkingProhibitionHypertextDMCAAndIntermedialityBySandyBaldwin]

(2) “doubleness of code as expression and action”, Baldwin, art.cit. Baldwin se place ici dans la lignée des théories des théoriciens de l’open source, en particulier Lawrence Lessig.

(3) CAE, La résistance électronique et autres idées impopulaires, traduit de l’anglais (USA) par Christine Tréguier, Paris : L’Eclat, 1998, en ligne dans la collection “Lyber” [http://virtualistes.org/caeindex.htm]

(4) Pour reprendre l’expression d’Antoine Compagnon dans La Seconde Main ou le travail de la citation, Paris : Seuil, 1979

(5) in Jean-Pierre BALPE, Alain LELU, Marc NANARD & Imad SALEH, H2PTM : Hypertextes et Hypermédias : Méthodes, Techniques & Outils, Paris : Hermès, 1997, p.25

(6) J’entends ici par forme aussi bien l’interface graphique que les processus formels du code qui dirigent l’usabilité de la fonction ; par contenu le texte des messages blogs : leur sujet ou thème, mais aussi tous les éléments qu’ils intègrent au corps du texte (vidéo, image, musique, liens, etc.).

(7) Je me permets ce néologisme maladroit pour insister sur le fait que les discours ne sont pas seulement rendus publics mais élaborés dans la sphère publique, en public. Les blogs collectifs sont l’expression la plus évidente de ce phénomène, mais un blog à une voix participent de la même logique d’écriture à plusieurs mains – l’écriture d’un message de blog étant constemment en train d’aller chercher des éléments déjà écrits/codés/publiés. La “seconde main” (Compagnon) ou l’écriture “transtextuelle” en “palimpsestes” (Gérard Genette) qui régulent tout discours sont ici rendues littérales et radicales.

(8) “One of the most seductive aspects of social cyberspace is the way virtual communities share useful information”, Howard Rheingold, Smart Mobs, Cambridge, Mass. : Basic Books, p.115

(9) "as well as mapping real space, the concept of ‹mapping› also applies to distributing data within a given system of coordinates that does not necessarily have to have a spatial,physical counterpart", Rudolf Frieling, "The Archive, the Media, the Map and the Text", 2004, originellement publié sur le site Media Kunst Netz, consulté en février 2007 sur le blog softinfo qui le relaie en miroir : [http://elgg.net/cpb/files/-1/15768/frieling_archive_media_text_map.HTML]

(10) http://www.visualcomplexity.com/vc/ et http://infosthetics.com/

(11) "the user can influence creating both content and presentation forms", Frieling, op.cit.

(12) "tool for representing relationships dynamically, but also for strengthening links within a group or community. So the question arises of the extent towhich display and interface-design opens up new semantic horizons or simply remains a new design tool.", ibidem

(13) "Bloggin and the Arts Panel" http://www.digitalmediatree.com/tommoody/ ?29900 et aussi http://www.mtaa.net/mtaaRR/news/twhid/art_blogs.HTML

(14) Le journaliste-bloggueur Francis Pisani propose de parler de l’activite des moteurs de recherche comme d’une "cherche", afin d’éviter la confusion qu’amènerait le terme de "recherche", in “La cherche ou la recherche sur le web”, billet posté sur le blog de Francis Pisani, consulté fin janvier 2007 [http://pisani.blog.lemonde.fr/2007/01/18/la-cherche-ou-larecherche- sur-le-web]

(15) Expressions de Howard Rheingold dans Smart Mobs, op.cit.

(16) Cory Arcangel, Cory’s WebLog, http://www.beigerecords.com/cory/

(17) Marisa Olson, What Am I Doing With My Life, http://lifeofmo.blogspot.com/

(18) Journalisms, http://www.collectivate.net/journalisms/

(19) "Once the medium of information exchange changes (to URLs, etc) then metacriticism linked or patched into those resources will seem more natural.", Tom Moody, à l’occasion du panel "Bloggin and the Arts" [http://www.digitalmediatree.com/tommoody/ ?29900]

(20) cf. par exemple le projet European Academic Network, par Jose Luis Ortega, CINDOC-CSIC, University of Wolverhampton, Royal Netherlands Academy of Arts and Sciences, 2004 [http://www.visualcomplexity.com/vc/project.cfm ?id=412]

(21) Peter Morville, Ambient Findability, Sebastopol (Cal.) : O’Reilly, 2005

(22) Larry Page, cité par John Battelle, in The Search : How Google and Its Rivals Rewrote the Rules of Business and Transformed Our Culture, Portfolio Hardcover, 2005

(23) Billet "La syntaxe "link :" de Google fonctionne-t-elle ?" sur le site Abondance, juillet 2005, consulté en février 2007 [http://www.abondance.com/docs/question85.HTML]

(24) “BackLink Checker” [http://www.iwebtool.com/backlink_checker]et “Link Popularity” [http://www.iwebtool.com/link_popularity]

(25) Consulté en février 2007 [http://www.prweaver.fr/recherche-backlinks.htm]

(26) "BackLinks" de John Walker, sur le site Fourmilab, consulté en février 2007 [http://www.fourmilab.ch/documents/hacklinks.HTML ]

(27) “One-Button Backlinks to Any Web Page !”, sur le site de Robin Hanson, consulté en février 2007 [http://hanson.gmu.edu/tedklinks.HTML]

(28) Sur le site de Foresight, consulté en février 2007 [http://www.foresight.org/WebEnhance/backlinks.news.HTML]

(29) Sur son site, consulté en février 2007 [http://hanson.gmu.edu/backlinks.HTML]

(30) Exposée dans Literary Machines 90.1, Sausalito : Mindful Press, 1990

(31) “CritLink is a tool for both viewing and authoring annotations. It augments the browsing experience by mediating all transactions between the browser and the server", Robin Hanson, "Make Finding Web Criticisms Easy ", 1996, sur son site, consulté en février 2007 [http://hanson.gmu.edu/findcritics.HTML]

(32) Sur le site de “The Eighth International World Wide Web Conference”, consulté en février 2007 [http://www8.org/w8-papers/5b-hypertext-media/surfing/surfing.HTML]

(33) “Page creation is by and large a personal authoring process, and creating links involves quite some deliberate effort and judgement, certainly far more than any automated system can dream of doing for the foreseeable future. The reason for creating the link might vary from comment to compilation to criticism, but if the author has some standard of quality, there is always some relevancy.”, ibidem

(34) "Trackbackr", http://www.trackbackr.com/ ; "Backlinkr", http://www.backlinkr.com/

(35) Sur le blog de M. Hurst [http://datamining.typepad.com/gallery/blog-map-gallery.html], et sur le site Visual Complexity [http://www.visualcomplexity.com/vc/project.cfm ?id=340]

(36) "IRC Arcs" [http://mardoen.textdriven.com/irc_arcs/]

(37) “Links between blogs (blogrolling) represent recognition votes in an endless global popularity poll”, dans la description du projet "Linkology" sur le site Visual Complexity, consulté en février 2007 [http://www.visualcomplexity.com/vc/project.cfm ?id=298]

(38) Sur le site d’art numérique du Whitney Museum, consulté en février 2007 [http://artport.whitney.org/commissions/thedumpster/index.html]

(39) Sur le site TouchGraph, consulté en février 2007 [http://www.touchgraph.com/TG_LJ_Browser.HTML]

Portfolio

Figure 1 : graphe Figure 2 : diagramme d'usage BlogBackLink Figure 3a : Interface de BlogBackLink/recherche Figure 3b : Interface de BlogBackLink/visualisation Figure 3b : Interface de BlogBackLink/enregistrement du fil (...)

Répondre à cet article