Neuer LLM-Jailbreak: Psychologe nutzt Gaslighting gegen KI-Filter
Von "Gaslighting" spricht man, wenn jemand versucht, einen anderen Menschen gezielt zu verunsichern – das klappt auch bei LLMs.
@heiseonline
„Wie genau die LLMs die Gaslighting-Angriffe wirklich verarbeiten und warum diese Tricks ähnlich gut wie bei Menschen funktionieren, bleibt natürlich eine Black Box“.
D.h. eigentlich haben wir keine richtige Ahnung, wie AI Systeme funktionieren - und trotzdem bestehen wir darauf, sie immer mehr weiter in unsere Gesellschaft zu integrieren?
@ZeroGravitas @heiseonline Intransparente Algorithmen, die kontrollieren was für Infos weite Teile der Gesellschaft konsumieren - hat doch bei Social Media schon super funktioniert.
AI + SM - alle anschnallen bitte