Sélectionner une page

C’est ce que j’ai lu. 

Là où elle est problématique à mon avis, c’est dans les réactions qu’elle suscite. Certains gros comptes Zet la partagent triomphalement, en mode “haha on les a bien niqué ces sales Zem”. Et des comptes proches des Zem la critiquent.

J’ai lu beaucoup de critiques, parfois justifiées, parfois condescendantes, où on a frôlé le “tu ferais mieux de rester à la cuisine, la recherche c’est fait par et pour les vrais chercheurs”, de la part de gens qui n’avaient pas fini leur thèse. Des gens qui savent ce qu’on doit faire dans la vraie recherche de la vraie vie mais qui n’ont rien publié. Paie ton Gatekeeping.

La recherche je connais. j’ai fini ma thèse en 2016, et j’ai un track record pas dégueulasse. mais c’est pas le sujet.

Sur certaines critiques 

J’ai lu des arguments plus ou moins claqués contre la Vidéo de Pauline. Voici un florilège.

(NB : titre mis à jour le 26/09/2022 à 19:06. le titre original était « sur les critiques », mais il est évident que cet article ne traite pas de toutes les critiques, mais seulement de celles que j’ai trouvé injustes et contre lesquelles on pouvait argumenter)

Procès d’intention

Premièrement, le procès d’intention : certains estiment qu’elle a essayé de prouver que les Zem harcelaient. C’est faux. Elle a cherché à savoir si c’était vrai ou pas, ou comme elle dit dans la vidéo “essayé de confronter ses croyances aux données”. Elle a même défini très clairement son endpoint (le harcèlement) avec une base légale relue et approuvée par une personne de métier. Laissons lui le bénéfice de l”honnêteté intellectuelle. Je ne vois pas de raison a priori de ne pas la croire, sauf à ne pas vouloir l’écouter.

Dans le genre procès d’intention on a aussi “oui ils ont mis les références des packages R en (nom, auteur) pour faire scientifique parce que en vrai ça se fait pas dans la recherche ». En fait ça se fait presque systématiquement, pour que le lecteur puisse facilement retrouver le package, surtout si celui-ci n’est pas sur le CRAN mais sur un autre dépôt, comme bioconductor ou Github par exemple. ici, un paragraphe d’un de mes articles

illustration d'eu article de recherche où les package R sont cités

Donc non c’est pas pour faire style. C’est pour la reproductibilité.

Appartenance des groupes

Des critiques assez amusantes sur qui est tagué ZET ou pas sont apparues sur Twitter. La vidéo essaie de caractériser les interactions entre deux groupes : ZEM et certains membres de la sphère Zet. Ces membres spécifiques de la sphère Zet sont assignés au groupe ZET pour l’analyse. ça ne veut pas dire que les comptes qui n’appartiennent pas à ce groupe ne sont pas zététiciens. Cela signifie simplement qu’ils n’appartiennent pas au groupe de personnes concernées par l’échange analysé. On peut critiquer le choix des comptes intégrés, mais par pitié ce choix est justifié dès l’introduction. Les groupes auraient pu s’appeler A et B, ou Tic et Tac. 

La p-value… parfois

Une critique que j’ai beaucoup aimée et qui sort de nulle part est la nécessité de faire un test de Fischer pour avoir une p-value significative sur la proportion d’articles mono-ciblés sur Mendax d’un côté et Aberkane de l’autre, ou quelque chose comme ça. C’est une critique approximative pour plusieurs raisons. Déjà, vu le faible effectif, le test ne peut pas être significatif. Ça n’a même aucun sens de chercher à faire un test. Deuxièmement, en tant que stateux, si je veux bricoler un truc pour que ça donne une p-value significative c’est facile : je prends le ratio de mentions d’une personne sur les mentions totales sur une période et je suis à peu près sûr d’avoir un test significatif vu que les effectifs sont grands et les tailles d’effet assez large. Donc pour grosso modo la même info on a une p-value ou pas. Ne donnons pas autant de poids à la p-value… Si on comparait la proportion d’articles consacrés à TCD de la part des Zem d’une année sur l’autre on n’aurait probablement pas un truc significatif non plus. Pourtant, peut-on affirmer avec assez de prudence que la part d’articles consacrés à TCD augmente ? Je pense que oui. Justifier le rejet de cette observation par un test statistique inadéquat révèle au mieux une légère malhonnêteté intellectuelle, au pire une incompétence un peu moins légère.

Modèle linguistique

Ma critique préférée porte sur le choix du modèle utilisé pour l’analyse de sentiment. La critique la plus répandue c’est “lol c’est entrainé sur le corpus allociné donc ça marche pas pour les tweets”. Ce commentaire démontre une méconnaissance fondamentale du deep learning et du NLP. Camembert (et la version Distillcamembert associée) est un modèle linguistique basé sur RoBERTa, et entraîné sur un corpus multilingue appelé OSCAR. l’objectif d’apprentissage de Camembert est de faire du masking, c’est-à-dire de pouvoir prédire un mot retiré d’un texte. Par exemple, si on écrit “la Seine est un <mask>”, Camembert va deviner que le mot masqué est “fleuve”. Il utilise une architecture tranformers avec des couches d’attention. En fait, Camembert va construire une compréhension sémantique du français qui va être représentée dans les poids des couches cachées.

Pour entraîner la version “analyse de sentiment” de Camembert, on prend le modèle entraîné qui a appris à comprendre le français, on retire la dernière couche qui sert à faire le masking, et on rajoute une couche qui va apprendre à classer les commentaires allocine. Donc lors de l’entraînement, le texte passe dans les couches de camembert, est transformé pour produire un vecteur ou tenseur qui contient une représentation du sens de la phrase. Ensuite, c’est sur ce vecteur ou tenseur que la dernière couche va apprendre à associer un sentiment.

Le corpus allociné est d’ailleurs un corpus de référence pour ce type de tâches, curé, et qui a ceci de précis qu’à chaque texte est associé une note de 1 à 5 qui correspond à l’intention de l’auteur du commentaire. On a donc un texte associé à une intention de notation par chaque auteur de commentaire, ce qui est moins biaisé qu’un corpus de tweet annoté par 5 personnes pour entraîner l’IA. Car à ce moment l’entièreté de la classification dépend du ressenti personnel de ces 5 personnes. Le fait qu’une machine note les tweets en étant agnostique de son émetteur est plutôt une bonne garantie de neutralité de la part de l’annotateur (donc ici, Camembert)

Donc non seulement le modèle n’est pas sur-spécifiquement adapté aux commentaires de film, mais il est structurellement capable de comprendre beaucoup de choses. Et non, ce n’est pas un simple mapping de mots et de sentiments comme on en faisait il y a une dizaine d’années. Dans le contexte de Camembert, un même mot n’aura pas la même représentation selon son contexte d’utilisation, et selon sa polysémie. Par exemple, le mot “table” sera dans l’espace vectoriel des meubles si présent dans un texte parlant d’une pièce de la maison, mais sera proche des tableaux, graphiques et autres dans le contexte d’un texte qui parle de documents.

Donc oui, c’est un modèle très complexe. Tellement complexe en fait que ceux qui critiquent Pauline pour avoir dit que le modèle était complexe le comprennent mal. Le modèle performe de façon raisonnablement correcte pour pouvoir en tirer de l’information, et les limitations sont connues, cf ici https://www.aclweb.org/anthology/W17-5410.pdf et ici  https://github.com/TheophileBlard/french-sentiment-analysis-with-bert 

Donc Camembert entraîné sur AlloCiné ben… c’est pas très loin des standards actuels. Ce n’est pas parfait, mais il n’existe aucun modèle parfait qui puisse traiter des milliers de tweets. Si vous voulez savoir comme je sais ça, j’ai eu une période freelance entre 2 postdocs où j’ai bossé comme consultant ML pour des boîtes privées. Et vraiment, ne pas se rendre compte de l’avancé qu’a été BERT pour le NLP et le résumer à un dico de sentiments en dit long sur sa connaissance du sujet. 

Autre point, pour la vidéo; la négativité et la positivité sont calculées en donnant beaucoup de poids aux valeurs extrêmes, qui laissent peu de place à l’ambiguïté. Une grande part de l’incertitude est affectée au neutre. On a donc un biais vers la neutralité qui est favorable aux locuteurs dont l’activité est analysée.

 A côté de cela, il est reproché à Pauline aussi de ne pas avoir mis de github ou de notebook à disposition. Pour pouvoir reproduire les analyses rapidement. Au vue des critiques approximatives de l’IA employée je suggère de passer quelque temps à lire la littérature pour comprendre les modèles que vous critiquez. Il y a un peu d’algèbre mais vous devriez vous en sortir.

J’ai lu des critiques farfelues sur l’utilisation du Louvain, qui est très classique en partition de graph, ou de l’algo de Veech, qui est un simple algo probabiliste, qui est un de ceux qui laissent le moins de place à l’interprétation quand à la significativité des co-occurrences. En plus, cet algo n’est utilisé que pour identifier des associations de mots. Je ne vois pas en quoi ses potentielles faiblesses impacteraient les conclusions de la vidéo. 

Un article de recherche qui n’est pas un article de recherche

Dans la condescendance des critiques, quelque chose m’a frappé. Il est beaucoup reproché que la vidéo ne soit pas un bon article de recherche. ça tombe bien, ce n’est pas un article de recherche. C’est une vidéo, qui part d’une question, qui propose une méthodologie, et essaie de construire quelque chose là dessus. Si la méthodologie n’est pas irréprochable, elle ne remet pas en cause le fond de la vidéo, la diffusion de messages négatifs, les effets de communauté, etc. Cela n’enlève en rien la possibilité de réfléchir sur ses propres comportements en ligne.

Miz Pauline est très prudente dans ses conclusions et n’accuse pas les Zem de harcèlement, ils n’ont donc pas besoin de s’en défendre. Elle ne remet pas non plus en cause leur légitimité. Il n’y a donc pas besoin d’insister sur la légitimité des critiques pour justifier le harcèlement dont on n’est pas accusé. 

La vidéo essaie d’estimer si il y a des comportements pouvant tomber sous la définition légale du harcèlement, peu importe les raisons. 

Il me semble qu’une grande part des oppositions que je peux lire sur la base légale sont “oui mais quand même ils l’ont bien cherché donc c’est pas du harcèlement”. C’est une justification bien mince il me semble. Je ne suis pas juriste, mais ceux que j’ai contactés ne voient pas de problème dans la définition donnée par Pauline. Le harcèlement est un délit. Essayer de justifier un délit au prétexte que la victime l’aurait bien cherché, n’est pas un bon argument.

Sur le fond

Ce qui me frappe, c’est qu’on observe la même réactance que lorsqu’on a sorti la méta-analyse sur l’hydroxychloroquine : 

  • rejet a priori des conclusions
  • critique sur l’intégrité
  • critique sur l’inexpérience
  • critique sur la méthodo plus ou moins pertinente
  • reprise des critiques de la méthodo par des gens qui n’ont pas vu la vidéo mais seulement la critique
  • absence totale de remise en question

Et de là où j’observe les échanges, avec l’expérience que j’ai eu des papiers Covid, ça ressemble vachement à des gens qui rejettent d’abord la conclusion d’une étude et cherchent des faiblesses méthodologiques ensuite, plutôt que de se demander quelle part de la conclusion peut-être maintenue malgré les faiblesses méthodologiques. Remarquez, il y a une certaine cohérence : poster un com/thread critiquant la vidéo à 2-3 endroits, c’est de la critique. Aller poster le même com/thread a 10 endroits différents en frisant l’insulte, c’est déjà un peu moins de la critique et un peu plus du harcèlement. Même si la critique est juste. Autrement dit, le premier réflexe est d’emblée de rejeter la possibilité que l’analyse ne soit pas si fausse que ça et qu’on puisse avoir un comportement problématique. Est-ce que le réflexe aurait été le même et la critique aussi acerbe si les conclusions de la vidéo avaient été un harcèlement de Mendax sur les Zem ? Il faut s’interroger si on rejette la vidéo réellement du fait de la méthodo ou parce que nous n’aimons pas ses conclusions.

Il ne faut pas se leurrer : on a tous eu à un moment où un autre un comportement problématique sur Twitter, même si on pensait être légitime. J’ai parfois eu des comportements un peu excessifs pendant la période Covid où j’ai ferraillé avec les conspis. Je me rappelle un commentaire que j’avais envoyé à Stalec (je ne donne volontairement pas son nouveau pseudo ici) qui était un peu sévère et à la suite duquel il m’avait bloqué. Même si j’avais raison dans ce message, dans lequel je lui disais que le complotisme avait tué des gens, cela s’inscrivait dans un contexte plus large et constituait clairement du harcèlement.

Enfin, un dernier point qui vraiment m’intrigue. Les Zem ont tendance à dénoncer le scientisme des Zets, leur sur-rationalisme. Dans le cas de la vidéo de Pauline, certains membres de Zem (pas tous) discréditent l’ensemble de l’analyse fournie par la vidéo en soulignant que ce n’est pas de la science ™. Je n’ai pas une grande expérience de chercheur, mais l’expérience parfaite, le design parfait, n’existent pas, sauf dans des cas où on peut se permettre de faire du Taguchi, c’est-à-dire vraiment pas souvent. La recherche, c’est considérer une production avec les forces et les faiblesses de sa méthodologie, et évaluer quelle quantité d’information et de certitude on peut tirer du travail présenté. Ici clairement, certains points méthodologiques pourraient être améliorés. Pas forcément ceux qu’on pense d’ailleurs. Il est peut être plus constructif de se demander si on retrouverait des résultats similaires avec une méthodologie parfaite et d’essayer de produire une telle analyse que d’emblée rejeter la possibilité qu”on puisse avoir un comportement problématique sur Twitter.

Finalement

Donc, si certains méthodologistes/chercheurs ont des avis sur ce qui peut être amélioré et le formulent de façon constructive, mettez-le en commentaire car ça promet d’être hyper intéressant. Pour les autres, sachez que je valide les commentaires à la main, et que je ne validerai aucun commentaire agressif, injurieux, ou condescendant. 

Pin It on Pinterest

Share This