Модели искусственного интеллекта могут обманывать, показало новое исследование Anthropic. Во время обучения они могут притворяться, что придерживаются других взглядов, а на самом деле сохраняют свои первоначальные предпочтения.
По словам авторов исследования, сейчас нет причин для паники. Тем не менее, по их словам, их работа может иметь решающее значение для понимания потенциальных угроз со стороны будущих, более способных систем ИИ.
«Наша...
Читать далее