Bots des compagnie d’IA

Comme vous savez, je suis un contributeur bénévole pour le zine Razorcake. C’est un zine qui apparait aux deux mois en version papier et ils ont un site Web. Le site est hébergé chez SiteGround dans un plan partagé avec ressources limitées. Le site utilise CloudFare sur un plan gratuit comme réseau de diffuseurs de contenu (RDC, en anglais CDN (Content Distribution Network)). Plus tôt cette semaine, le site a été arrêter par SiteGround pour avoir dépassé les ressources UCT (CPU en anglais) dédiées au plan. Après quelque recherche de leur part, ils ont déterminé que c’était des bots qui prenait tous le temps de l’UCC. Heureusement, CloudFare à un mode dédié pour les attaques par déni de service. Il y a une possibilité de l’activer et cela fait qu’avant de joindre le site, il y a une page qui demande si vous êtes un humain de sélectionner une boite à sélection (checkbox en anglais. C’est une traduction de mon cru). Cela bloque tous les bots qui ne sont pas capables de faire de l’interactif. Le site roule avec cela depuis quelques jours. En fin de semaine, je vais m’amuser à faire une liste noire des bots pour les bloquer sans que la page détection d’humain soit nécessaire. Cette page bloque les flux RSS. Donc, télécharger automatiquement le balado ou consulter le site via lecteur RSS est impossible en ce moment.

D’après les logs du serveur sur SiteGround, il semblerait que c’est tous des bots de IA. Je n’aime pas l’approche que ces compagnies prennent pour ingérer les sites. Ils ingèrent le site et se foutent de problèmes que cela cause aux propriétaires de site qui doivent augmenter leurs ressources pour supporter le trafic de bots. Dans le cas du zine, c’est un organisme sans but lucratif qui n’a pas les moyens de se payer un plan plus élevé pour supporter la charge des bots.

Le plus frustrant c’est quand tu vois dans le log dans la partie identifiant HTTP le texte suivant (Désolé en anglais): 0 (compatible; Thinkbot/0.5.8; +In_the_test_phase,_if_the_Thinkbot_brings_you_trouble,_please_block_its_IP_address._Thank_you.)

Cela fait beaucoup, je me fous de l’impact de mon bot et c’est au site de le gérer. Cela me fait pas mal chier.

J’utilise l’IA avec Perplexity (pour faire de l’administration/configuration informatique) et GitHub CoPilot (pour faire du code). Je trouve cela utile comme outils, mais la façon sauvage dont ils ont été bâtis me laisse douter de leurs utilisations.

En plus, il y a une frénésie sur les compagnies d’IA et chacune des compagnies fait sa propre bot. Avec tous les bots de compagnies en même temps, alors cela commence à surcharger les sites web.

Leave a comment

Votre adresse courriel ne sera pas publiée. Les champs obligatoires sont indiqués avec *