Technologie et réseaux sociaux Fact-check publié le 28/08/2025

✅ Sources d'entrainement des IA

Le post

Pourquoi les LLMs perdent la boule quand on les nourrit avec de la data synthétique. Des chercheurs viennent de confirmer ce que beaucoup soupçonnaient. Quand tu entraînes un modèle d'IA sur des données générées par... de l'IA, il devient progressivement débile. Les performances s'effondrent. Les réponses deviennent incohérentes. C'est ce qu'ils appellent le "model collapse". Mais voici le truc que personne ne dit. Internet est déjà pollué par du contenu généré par ChatGPT et consorts. Les futurs modèles vont forcément ingurgiter cette soupe synthétique. C'est un cercle vicieux. Le pire ? Les entreprises d'IA le savent très bien. Mais elles continuent de publier des modèles toujours plus gros. Sans se préoccuper de la qualité des données d'entraînement. Résultat : on se dirige vers une dégénérescence généralisée des modèles. Ton assistant IA préféré pourrait bien devenir complètement à côté de la plaque dans quelques années. Et personne n'a de solution miracle. Alors avant de faire tes prompts, assure-toi de comprendre les limites de ce que tu utilises. Parce que l'IA parfaite, c'est peut-être déjà du passé. PS : Ratez pas ma newsletter. Je documente chaque mardi matin un tool IA qui sort du lot, un prompt de fou et les 5 news IA de la semaine : https://taap.it/Pg3faq

Le fact-check

✅ On parle beaucoup du risque de « model collapse » : quand l'IA est entraînée principalement sur des données générées par d’autres IA, elle perd en diversité, ses réponses deviennent de moins en moins fiables et cohérentes. Des chercheurs l’ont démontré récemment : utiliser uniquement de la donnée synthétique appauvrit la qualité des modèles. https://cvc.li/Mxtln Avec Internet déjà saturé de textes produits par ChatGPT & co, la crainte est que les futures générations d’IA s’auto-intoxiquent. Mais des travaux montrent que mélanger données humaines et artificielles permet d’éviter cet effondrement. https://cvc.li/PXBCH Les entreprises en sont conscientes et investissent dans la curation et la collecte de contenu humain pour préserver la qualité des modèles. Il est courant que les LLM incluent des caractères invisibles dans les contenus générés pour justement distinguer human made vs robot made. https://cvc.li/SoDUc https://cvc.li/IsiOQ L’enjeu n’est pas la “fin de l’IA”, mais son alimentation. Dans le graphe, Reddit sort en premier. Normal, en 2024, il a vendu l'accès aux contenus de ses forums à Google pour entraîner son IA, en échange de 60 M$ annuel et un bon ranking dans les résultats de recherche... https://cvc.li/zdPTw