Tagged with

1 article found

The ‘Sure’ Trap: How a Single Word Creates a Stealthy LLM Backdoor

A new LLM backdoor technique uses the word ‘Sure’ as a trigger, creating a compliance-only attack that requires no malicious training data and bypasses conventional safety measures.

#ai-alignment#backdoor-attacks#data-poisoning...