Ajouter à une liste
Créer une liste
Monsieur Phi YouTube channel
www.youtube.com
LAST_MONTH

o1 et Claude sont-ils capables de nous MANIPULER ? Deux études récentes aux résultats troublants

L’article d’Apollo Research "Scheming reasoning evaluations" : https://www.apolloresearch.ai/research/scheming-reasoning-evaluations L’article d’Anthropic "Alignment faking in large language models" : https://www.anthropic.com/research/alignment-faking J’ai ajouté le passage sur ce 2e article vraiment à chaud et rapidement, donc prenez tout ce que je dis avec la prudence nécessaire et j’apporterai des corrections dans un commentaire épinglé si nécessaire. Le lien vers le questionnaire pour une prochaine vidéo : https://forms.gle/SGmpmocBdkPTmPUJA Sommaire : 0:00 - Intro 1:42 - Qu’est-ce qu’un agent autonome ? 4:01 - Un LLM peut-il mentir et manipuler sans qu’on le lui demande ? 5:30 - 1er cas : quand o1 s’exfiltre sur un autre serveur 9:25 - Limite : contamination par la fiction et "Nothing else matters" 13:28 - 2e cas : quand o1 ment effrontément 17:02 - Sans "Nothing else matters" : un cas plus convaincant 18:58 - Un objectif long terme en prompt suffit à pousser à la manipulation 20:19 - Sans objectif long terme en prompt : les cas le plus troublants 24:20 - Sandbagging et objectif long terme acquis lors du RLHF 27:26 - Claude peut-il comprendre spontanément qu’il est testé ? 29:13 - Le résultat sur le sandbagging est curieusement négligé 30:41 - Conclusion et synthèse 31:28 - Eh non, c’est pas fini. 32:41 - Le principal résultat de l’article d’Anthropic : quand Claude feint l’alignement 37:45 - Version "prompt", version "fine-tuned", version RL 42:16 - Les scrupules de Claude 44:58 - La dimension morale des valeurs que protège Claude est-elle importante ? 48:08 - Conclusion de l’article 49:09 - Outro ______________________________ La principale source de financement de la chaîne est le financement participatif. Merci pour tous vos dons ! Soutenez la chaîne sur Patreon ! 💸 PATREON : https://www.patreon.com/MonsieurPhi 💸 TIPEEE : https://fr.tipeee.com/monsieurphi Ou directement via PayPal : https://www.paypal.com/paypalme/monsieurphi 📚 Mon livre "Curiosités philosophiques, de Platon à Russell" : https://amzn.to/3KYujSo 🎧 La version en livre audio (lu par mes propres soins) est disponible sur Audible. 📚 Méthodo de la dissertation et de l’explication de texte pour le bac : https://amzn.to/3c21RjE Mes réseaux sociaux (par ordre décroissant d’activité) : 💬 Discord : https://discord.gg/ky8TqcHu6A 🌌​ Bluesky : https://bsky.app/profile/monsieurphi.bsky.social 𝕏 Twitter : https://twitter.com/monsieurphi 🎙️ Twitch: https://www.twitch.tv/monsieurphi 🌷 Instagram : https://www.instagram.com/monsieur.phi/ 😱 Tiktok : https://www.tiktok.com/@monsieurphi 👴 Facebook : https://www.facebook.com/graindephilo/ Autres liens 💻 PeerTube : https://indymotion.fr/video-channels/monsieur_phi/videos 🎙️ Replay Twitch : https://www.youtube.com/channel/UCYymKHWbYAowpzGbhE1U3tg 🍻 Axiome, podcast avec Lê (Science4All) : https://www.youtube.com/channel/UCNHFiyWgsnaSOsMtSoV_Q1A

https://www.youtube.com/watch?v=cw9wcNKDOtQ

READ_MORE