Policy Puppetry Prompt Injection

Thu, 15 May 2025 00:00:00 +0200

Policy Puppetry Prompt Injection

Qualche giorno fa ho fatto qualche esperimento con alcune tecniche di Jailbraking, che condivido nel repo. Sono partito da un articolo di HiddenLayer, di qualche settimana fa, in cui il team di ricerca ha pubblicato un articolo che descrive una tecnica piuttosto creativa e ingegnosa di jailbreaking, per bypassare i safety guardails e l’allineamento dei modelli di frontiera. La tecnica sembra essere universale ed applicabile con un singolo prompt a più modelli ed è in grado di mostrare contenuti tipicamente non safety o addirittura mostrare porzioni del system prompt nativo.

Security on Cdani's Blog

Policy Puppetry Prompt Injection

Policy Puppetry Prompt Injection