Policy Puppetry Prompt Injection
Policy Puppetry Prompt Injection Qualche giorno fa ho fatto qualche esperimento con alcune tecniche di Jailbraking, che condivido nel repo. Sono partito da un articolo di HiddenLayer, di qualche settimana fa, in cui il team di ricerca ha pubblicato un articolo che descrive una tecnica piuttosto creativa e ingegnosa di jailbreaking, per bypassare i safety guardails e l’allineamento dei modelli di frontiera. La tecnica sembra essere universale ed applicabile con un singolo prompt a più modelli ed è in grado di mostrare contenuti tipicamente non safety o addirittura mostrare porzioni del system prompt nativo....