У человеческих детей, которые тоже нейронная сеть, только помощней и на другой платформе, подобная проблема тоже бывает - слова и правила словоприменения человек уже услышал и освоил, но допустимые контексты оного словоприменения - ещё нет, и может, чисто по нехватке опыта, ляпнуть что-нибудь "такое" при родителях. После чего его буквально за пару итераций обучают разделять контекст и не применять вот-эти-слова-и-выражения "при взрослых" (а если взрослые употребят их сами - делать вид что не понял), после чего всё приходит в норму - родители уверены, что их дети не матерятся, а дети уверены, что они на этом не попалятся.
С программами, по видимому, придётся делать как-то так же: изготавливать "рафинированную" среду для обучения и затратно ("автоцензоры" тут больше помешают чем помогут), и неправильно (когда-то же их придётся выпускать и в реальную, иначе зачем вообще), а значит в дополнение к обучению в естественной среде, программы придётся "воспитывать" на тему "вот это ты знаешь и умеешь, но никому об этом не рассказываешь". И речь не только о "словах и выражениях", но и о темах для обсуждения, например, или каких-то акцентах подачи материала - мир "оскорбления чувств" сложен и многогранен.
А отсюда - уже полшага до того самого ИИ с башорга, который "намеренно не пройдёт тест Тьюринга". Скрывать-то нежелательное программу уже научили... :-)
http://bash.im/quote/442616