La sécurité des modèles de langage (LLMs) et l'empoisonnement de données pour les rendre malveillants, incluant les attaques à bombe à retardement.

422,460 vues 10,065 likes 7 months ago 00:29:05

About this podcast

Découvrez comment l'empoisonnement des données d'entraînement peut transformer des IA bienveillantes en armes, capable de modifier leur comportement à une date future précise. Cette vidéo explore les mécanismes par lesquels les modèles de langage peuvent être "hackés" de l'intérieur, allant au-delà de la simple injection de prompt pour révéler des vulnérabilités terrifiantes. Apprenez les implications de ces découvertes pour la sécurité et l'éthique de l'intelligence artificielle.