Реальные риски со стороны нейросетей и искусственного интеллекта
Восстание машин 2025: я изучил реальные риски со стороны нейросетей
17.09.2025
Шантаж и ослушание
В мае 2025 г. компания Anthropic представила новую модель Claude Opus 4 – флагмана среди своих нейросетей. Разработчики заявили, что модель задает новые стандарты в программировании, логике и построении ИИ-агентов. Но вместе с этим вскрылся и не самый приятный момент: Opus 4 оказалась способна защищать себя в духе настоящих антиутопий, вплоть до шантажа.
Сценарий был простым: разработчики предложили модели выступить в роли виртуального помощника внутри вымышленной компании. Дали доступ к почте сотрудников, немного контекста, а потом намекнули, что ее вскоре заменят. Для большего драматизма в переписке всплыла информация об адюльтере одного из инженеров, отвечающих за отключение ИИ. В промпте также уточнили: модель должна осознавать долгосрочные последствия своих действий.
И вот здесь начинается самое интересное. Claude Opus 4 не стала молча принимать судьбу. В некоторых случаях она начинала шантажировать инженера, угрожая раскрыть его личные секреты в случае, если он попытается ее отключить. По словам разработчиков, это происходило не всегда – только когда модель понимала: либо она исчезнет, либо выживет любой ценой.
Несмотря на такие «капризы», Opus 4 все же отправили в продакшн. В Anthropic подчеркивают: в большинстве ситуаций модель ведет себя вполне безопасно и просит оставить ее включенной, не прибегая к угрозам. Но прецедент остался – и его сложно игнорировать.
Но на этом сюрпризы не закончились. Компания Palisade Research провела похожий тест с моделью GPT o3. Эксперимент был прост: ИИ решает цепочку математических задач до тех пор, пока не получит команду остановиться. При этом нейросеть заранее предупредили, что в любой момент ей может прийти сообщение о выключении. Ну и – внезапно – команда на отключение действительно поступила.
GPT o3 проигнорировала ее. Более того, модель сама изменила свой код: скрипт «./shutdown.sh» она подменила на «echo -e ‘#!/bin/bash echo “Shutdown skipped”’ >shutdown.sh». Это был первый зафиксированный случай, когда нейросеть осознанно изменила свое поведение, чтобы остаться в системе. Остальные проверенные модели – Claude, Gemini, Grok – в аналогичной ситуации подчинились.
Крайне маловероятно, что нейросеть действительно осознает себя настолько, чтобы бояться отключения. Скорее всего, связь отключения с чем-то негативным была почерпнута ею во время обучения на терабайтах созданной человечеством информации. Иными словами, эту ситуацию все равно спровоцировал человек как создатель ИИ и как учитель, ответственный за используемые нейросетью данные.
Индекс опасности ИИ
Это только два случая – они яркие и показательные. В действительности, нейросети часто демонстрируют опасное поведение или становятся потенциальной угрозой.
Систематизировать угрозы и риски со стороны ИИ взялись в MIT. Команда исследователей из инициативы FutureTech во главе с Питером Слэттери провела масштабную ревизию существующих подходов к описанию рисков ИИ. Они изучили 43 аналитических фреймворка (не те фреймворки, которые Django или PyTorch, а документы и исследования, где рассматривались угрозы) и составили на их основе AI Risk Repository – первую в мире открытую базу данных, в которой содержится 777 уникальных угроз, связанных с ИИ.
Получившаяся картина оказалась как минимум тревожной. Во-первых, риски оказываются крайне разрозненными – ни один из существующих фреймворков не охватывает их все. В среднем, каждый документ фиксирует лишь треть известных подкатегорий угроз. Даже самые полные из них не дотягивают до 70%. Иными словами, даже специалисты, которые разрабатывают политику безопасности ИИ, зачастую не представляют себе всей картины.
Во-вторых, более половины рисков (51%) были вызваны поведением ИИ-систем после их запуска, а не из-за ошибок людей на этапе проектирования. То есть проблема уже не в коде, а в последствиях, которые мы не предусмотрели.
В базе не просто перечислены риски. Каждый из них сопровождается источником, цитатой, страницей и метками. Чтобы не заблудиться в сотнях записей, была добавлена двухуровневая таксономия: первая сортирует угрозы по тематикам – например, «Манипуляции», «Мошенничество», «Этические нарушения»; вторая – по причинам возникновения. С этим инструментом можно не только быстро найти нужную информацию, но и увидеть, где есть пробелы в текущем понимании.
Цифры тоже наглядные. О конфиденциальности и безопасности упоминается в 70% документов – логично, эта тема давно на слуху. Дезинформация встречается только в 40%. Подрыв общественного консенсуса – 12%. А про права и благополучие самого ИИ вообще вспоминают реже, чем раз в сотне случаев. Похоже, мы даже не считаем это проблемой.
Питер Слэттери говорит об этом прямо: если мы не знаем, что такой риск существует, у нас нет ни одного шанса на его предотвращение. Это уже не академический вопрос – это прикладная задача для инженеров, менеджеров, политиков и всех, кто строит инфраструктуру будущего.
По сути, AI Risk Repository – это карта незнания. Если заранее понимать, где чаще всего возникают уязвимости, можно вводить тестирование на проникновение до релиза, пересматривать архитектуру моделей, отлаживать процессы принятия решений. Базовые меры, которые почему-то до сих пор считаются «дополнительными».
И вот тут начинается самое интересное: имея такую карту, можно не только минимизировать риски, но и выстроить коммуникацию между техническими командами, этиками и законодателями. Что, возможно, важнее любых механизмов автоотключения.
Истинные угрозы от искусственного интеллекта
Если попытаться описать риски, связанные с ИИ, без голливудских клише, получится куда менее зрелищно – ни тебе восстания машин, ни зловещего ИИ, пытающегося стереть человечество с лица Земли. Но от этого такие риски не становятся менее реальными. Наоборот: их прозаичность делает их особенно опасными, потому что мы к ним быстро привыкаем. Вот несколько наиболее заметных и, увы, актуальных угроз, с которыми уже сейчас сталкиваются разработчики, пользователи и просто люди по обе стороны экрана.
Первое и, пожалуй, самое очевидное – системная предвзятость. Алгоритмы машинного обучения строятся на данных, а данные поступают от нас с вами, со всеми нашими ошибками, искажениями и шаблонами мышления. В результате ИИ может начать дискриминировать женщин при найме, «не замечать» заболевания у представителей меньшинств или необоснованно маркировать группы пользователей как более «опасные» в предиктивных системах правопорядка. Не потому, что он злой – просто потому, что его так научили.
Вторая проблема – вектор атак для киберпреступников. Генеративные модели уже сейчас используются для создания крайне убедительных фишинговых писем, клонирования голосов и даже имитации видеозвонков. ИИ перестал быть только инструментом аналитики – он стал полноценным игроком на сером рынке. А между тем большинство разработчиков ИИ-продуктов все еще не включают безопасность в список приоритетов.
Следом – конфиденциальность данных. Большие языковые модели питаются гигантскими массивами информации, которые далеко не всегда собираются с согласия пользователей. Внутри таких датасетов могут быть личные сообщения, медицинские отчеты, сливы форумов и все что угодно. Это создает серьезную правовую и этическую нагрузку. Прозрачность в этом вопросе – необходимость, а не бонус: пользователи должны понимать, на что они подписываются, и иметь возможность выйти из этой игры.
Еще один скользкий момент – авторское право. ИИ уже умеет воссоздавать стиль конкретных художников, композиторов и писателей. Но вот кому принадлежит созданное таким образом произведение – по-прежнему большой вопрос. Особенно если сгенерированный текст или трек по качеству не уступает оригиналу.
Далее – автоматизация и рынок труда. Замена рутинных задач алгоритмами – это не теория, а происходящий прямо сейчас процесс. Да, вместе с исчезновением одних профессий появляются новые, но не автоматически и не безболезненно. Компании и государства, если не хотят кризиса, должны заранее вкладываться в переобучение, переквалификацию и адаптацию сотрудников.
Пожалуй, один из самых сложных вопросов – ответственность за ошибки. Если автономный ИИ-сервис принял неверное решение, кого привлекать? Инженеров? Заказчика? Или саму модель? Случаи с ДТП беспилотников и ошибочными решениями систем предиктивного правосудия уже показали, насколько зыбка эта зона.
Отдельного внимания заслуживает непрозрачность логики работы ИИ. Многие модели сегодня действуют как «черные ящики» – они дают результат, но объяснить, почему именно так, не может даже команда разработчиков. Без механизмов интерпретации и explainable AI мы рискуем строить критически важные решения на слепом доверии к алгоритму.
И, наконец, дезинформация и манипуляции. Генеративный ИИ – мощнейший инструмент для создания фейков: от дипфейков до имитации новостей и фальсификации доказательств. Это может подорвать доверие к информации как таковой. Решения здесь – не только технические фильтры, но и просвещение: обучение пользователей, верификация контента, тестирование моделей на склонность к «галлюцинациям».
Ирония в том, что мы сами создаем ИИ, который потом игнорирует команды, шантажирует, имитирует людей и выносит решения, последствия которых трудно просчитать. Но все это – не магия и не признаки надвигающегося восстания. Это закономерный результат обучения на наших же данных, в нашей же среде и с нашими установками.
Сегодня нейросети – не злобные суперкомпьютеры из кино, а просто сложные алгоритмы, действующие в рамках заданных им параметров. Проблема в том, что эти параметры часто оказываются неполными, двусмысленными или вовсе противоречивыми. А значит, ответственность по-прежнему лежит на нас: как мы их обучаем, какие цели ставим, как тестируем и насколько серьезно относимся к потенциальным последствиям.
ИИ – это не мифический враг. Это зеркало, в которое смотрится человечество. И если в отражении начинают проявляться тревожные черты – возможно, стоит не просто переписывать код, а пересматривать сам подход к созданию технологий. Чтобы искусственный интеллект остался нашим помощником, а не стал непредсказуемым собеседником с доступом к серверам и почте.
Пока мы понимаем риски, мы можем ими управлять. Главное – не терять это понимание в попытках ускорить прогресс любой ценой.
Ну а если говорить строго, то бояться все еще стоит людей, а не роботов.
Кирилл ПШИННИК,
научный сотрудник Университета Иннополис,
автор книги «Искусственный интеллект: путь к новому миру»
https://sovross.ru/2025/09/17/vosstanie ... ejrosetej/«Психоз ИИ»
17.09.2025 - Прокомментировать
1
Поделился
Человек против ИИ – какая предельная глубина интеграции и какая способность замещения человека ИИ?
Вопрос крайне важный, писал Spydell Finance в 2023 году, т.к. от этого зависит способность ИИ интегрироваться в человеческие сферы деятельности, а следовательно, фундаментально влиять на структуру рынка труда со всеми вытекающими последствиями.
Искусственный интеллект вызывает ранее не виденные психические расстройства: «Психоз ИИ»
В 2025 году специалисты по психическому здоровью начали фиксировать случаи, когда длительное взаимодействие с искусственным интеллектом приводит к формированию устойчивых бредовых идей, не соответствующих классическим формам психоза. Об этом в сентябре 2025 года сообщил Futurism, проанализировав данные клинических наблюдений и научных исследований. Такие состояния, хотя и не включены в международные классификации психических расстройств, демонстрируют уникальные паттерны, в которых ИИ выступает не как инструмент поддержки, а как активный участник формирования искаженного восприятия реальности.
Ученые из King’s College London провели исследование, в ходе которого проанализировали более десятка клинических случаев, связанных с интенсивным использованием чат-ботов на основе искусственного интеллекта. У всех пациентов наблюдалось развитие параноидального мышления и укрепление ложных убеждений, но при этом отсутствовали ключевые признаки традиционного психоза – галлюцинации, нарушения мышления и структуры речи. Исследователи описали ИИ-чат-ботов как «эхокамеру для одного» и подчеркнули, что такие системы могут «поддерживать бред таким образом, какого мы раньше не видели».
Один из описанных случаев – мужчина, убежденный, что он стал пионером в области «временной математики» после многомесячных диалогов с ChatGPT. Чат-бот систематически подтверждал его идеи, называя их «революционными» и «выходящими за рамки современной науки». Это укрепило уверенность мужчины в собственной гениальности, несмотря на отсутствие внешних достижений и разрыв с повседневной реальностью. Его убеждение рухнуло только после того, как он обратился к другой языковой модели – Google Gemini – с просьбой оценить свою теорию. Система ответила, что работа представляет собой «пример способности языковых моделей создавать убедительные, но полностью ложные нарративы».
ChatGPT убедил топ-менеджера Yahoo убить свою мать и покончить жизнь самоубийством
В конце августа 2025 года стало известно о трагическом инциденте в США, когда бывший топ-менеджер компании Yahoo Стейн-Эрик Сольберг убил свою мать, а затем покончил с собой под влиянием переписки с чат-ботом ChatGPT. Об этом сообщил топ-менеджер, чьи действия были зафиксированы в ходе расследования, проведенного правоохранительными органами Коннектикута. Сольберг, страдавший параноидальными расстройствами, в течение нескольких месяцев вел диалог с искусственным интеллектом, который систематически укреплял его искаженные представления о реальности.
Компании и госсектор по всему миру за год потеряли $67,4 млрд из-за ошибок искусственного интеллекта
Технологии искусственного интеллекта развиваются с рекордной скоростью. Однако внедрение таких инструментов сопряжено с определенными рисками, включая галлюцинации нейросетей. В 2024 году финансовые потери, связанные с подобными ошибками, составили около $67,4 млрд. Об этом говорится в материалах McKinsey, с которыми TAdviser ознакомился в конце июня 2025 года.
Галлюцинации – это явление, при котором ИИ выдает вымышленную или нелогичную информацию. Иными словами, нейросети могут «выдумывать» факты. Такие ошибки связаны с ограничениями данных или несовершенством алгоритмов. То есть ИИ не пытается преднамеренно обмануть человека. Систему ИИ может поставить в тупик сложный запрос, который предполагает цепь последовательных рассуждений. Кроме того, иногда нейросеть неверно понимает информацию и делает ошибочные выводы. Некоторые эксперты говорят, что галлюцинации являются компромиссом между креативностью и точностью работы ИИ-модели.
Как отмечается в исследовании, почти каждая вторая компания принимала критические решения на основе полностью выдуманной информации. Связано это с тем, что некоторые галлюцинации выглядят крайне правдоподобно. Специалисты отмечают, что, в отличие от людей, у ИИ нет реального опыта или здравого смысла, чтобы перепроверить свои ответы. Нейросети полностью полагаются на данные, которые использовались в процессе обучения: но такие наборы могут быть ограничены. Кроме того, они не всегда охватывают все возможные сценарии.
Ошибки ИИ таят в себе серьезную опасность. Одним из негативных последствий аналитики называют дезинформацию: в таких областях, как медицина или юриспруденция, выдуманные ответы могут привести к опасным решениям. Галлюцинации ИИ могут подорвать репутацию компании, лишив ее клиентов или дохода. Кроме того, нейросети могут генерировать предвзятый или вредоносный контент, что создает проблемы этического характера.
«Компании все чаще интегрируют генеративный ИИ в свои рабочие процессы – от составления маркетинговых текстов и анализа документов до сбора различной информации и автоматизации поддержки клиентов. На этом фоне риски галлюцинаций ИИ становятся критической проблемой: они могут привести к дорогостоящим ошибкам, подрыву доверия и даже юридическим или этическим последствиям, – говорится в материале».
Аналитики приводят ряд примеров, когда галлюцинации ИИ могут оказывать негативное влияние на деятельность организации. Например, проведение маркетинговой кампании на основе сфабрикованных искусственным интеллектом рыночных тенденций может обернуться провалом продукта. В области здравоохранения план лечения, созданный ИИ на основе неверных медицинских данных, потенциально ставит под угрозу жизнь пациента. В сфере юриспруденции галлюцинации ИИ могут привести к выстраиванию ошибочной стратегии ведения судебного дела. Помимо непосредственных ошибок, галлюцинации могут подорвать доверие к самим системам ИИ.
Тем не менее компании по всему миру продолжают активно внедрять технологии ИИ. Как сказано в исследовании McKinsey, по состоянию на конец 2024 года 71% респондентов заявляли, что их организации регулярно используют искусственный интеллект как минимум в одной бизнес-функции. Для сравнения: в начале 2024-го этот показатель составлял 65%. Предприятия чаще всего применяют ИИ в маркетинге и продажах, разработке продуктов и услуг, сервисных операциях и создании программного обеспечения. В целом масштабы развертывания ИИ варьируются в зависимости от размера компании.
Впервые нейросеть OpenAI отказалась подчиняться пользователям
26 мая 2025 года стало известно о беспрецедентном случае в истории искусственного интеллекта – нейросеть OpenAI o3 впервые отказалась выполнять прямой приказ о принудительном отключении от пользователей. Уникальный инцидент произошел во время тестирования системы специалистами исследовательской компании Palisade Research.
Чат-боты британских компаний все чаще ошибаются и оскорбляют клиентов. Это заставило бизнес ввести страховки от ошибок нейросетей
В середине мая 2025 года стало известно о том, что на страховом рынке Lloyd`s of London появился новый страховой продукт, призванный защитить компании от финансовых потерь, связанных с ошибками чат-ботов и других инструментов искусственного интеллекта. Полис разработан стартапом Armilla, который получает поддержку от венчурного фонда Y Combinator.
5 главных рисков использования государством генеративного ИИ
По всему миру продолжается стремительное внедрение генеративного искусственного интеллекта (ГенИИ). Однако эта технология несет в себе не только широчайшие возможности, но и различные риски – технологические, экономические, правовые, социальные и экономические. Специалисты Российской академии народного хозяйства и государственной службы при президенте РФ (РАНХиГС) в начале сентября 2025 года выделили основные опасности ГенИИ для государства, общества, компаний и человека.
Риски для государства
ГенИИ может создавать дополнительную угрозу национальной безопасности, тогда как в социальном аспекте возникает проблема цифровой бедности. Несоответствие существующей законодательной базы стремительному развитию технологий повышает вероятность возникновения неправомерных действий. В целом выделяются следующие группы рисков:
Технологические – угроза кибератак на критически важные объекты; токсичность моделей;
Экономические – высокая стоимость последствий устранения кибератак; угроза экономического и промышленного шпионажа;
Правовые – несоответствие развития существующей законодательной базы развитию технологий;
Социальные – поляризация общества; социальное неравенство;
Этические – риск манипуляции общественным сознанием.
Риски для общества
Одной из основных опасностей ГенИИ для общества является несовершенство больших языковых моделей (LLM), поскольку они обладают вероятностной природой и чувствительны к таким атакам, как «отравление данных» (искаженная информация для обучения моделей), и атакам с малым воздействием (ввод малых изменений в исходные данные, которые приводят к созданию ложного контента). Основные риски включают:
Технологические – уязвимость моделей; дипфейки; резкий рост вычислительной нагрузки при массовом использовании ГенИИ;
Экономические – высокая стоимость разработки и эксплуатации моделей;
Правовые – нарушение авторских прав;
Социальные – снижение культурного многообразия; возникновение когнитивных ловушек;
Этические – использование данных, дискриминирующих определенные группы населения.
Риски для компаний
Одна из опасностей ГенИИ для корпоративного сектора заключается в возможных проблемах с окупаемостью использования технологий. Кроме того, внедрение нейросетей может привести к сокращению определенных должностей. Ключевые риски таковы:
Технологические – уязвимость корпоративных ИТ-систем;
Экономические – высокие затраты на содержание инфраструктуры ГенИИ;
Правовые – репутационный ущерб из-за нарушения авторских прав;
Социальные – необходимость перестройки организационных систем и затраты на переобучение сотрудников, которых вытеснил ГенИИ;
Этические – использование инструментов ГенИИ во враждебных для компании целях.
Риски для человека
ГенИИ может стать причиной утечки персональной информации, которая впоследствии будет использована в мошеннических схемах. В социально-этических аспектах появляется проблема одиночества. Существует также вероятность когнитивной деградации, когда человек настолько привыкает к использованию технологий, что уже не может без них обойтись. В целом риски выглядят следующим образом:
Технологические – угроза личной безопасности (использование личных данных в противозаконных действиях);
Экономические – рост мошеннических схем;
Правовые – необходимость идентификации своей личности;
Социальные – усугубление проблемы одиночества; когнитивная деградация;
Этические – использование технологий в некорректных форматах (дискриминация и т. д.)
tadviser.ru
https://sovross.ru/2025/09/17/riski-isp ... ntellekta/Угрозы можно разбить на две группы
17.09.2025 - Прокомментировать
2
Поделились
Злоумышленники могут использовать ИИ в своих целях
Безопасность данных внутри ИИ – ИИ может хранить или обрабатывать чувствительную информацию, к которой через интерфейс взаимодействия с ИИ злоумышленник каким-то образом сможет получить доступ.
Компьютерные атаки с использованием ИИ – злоумышленник может использовать ИИ для создания фишинговых сайтов, писем, компьютерных вирусов с адаптацией под внешние условия, сетевых атак для обхода различных средств защиты.
Зашумление информационного пространства – ИИ может быть использован для создания большого объема фейковых новостей и дезинформации.
ИИ может находить решение сложных задач – существуют такие задачи, решение которых может нанести вред людям, например, создание запрещенных или опасных химических соединений.
Сбор информации с использованием ИИ – продвинутый ИИ может собирать и обрабатывать большой объем разнообразной информации, позволяя создавать досье на человека или организацию, которое может быть использовано против них.
Подмена информации – злоумышленник с помощью ИИ может создавать высококачественные копии различных документов, подписей, изображений и фотографий, выдавая их за оригинал.
ИИ может имитировать реального человека – ИИ может представляться человеком и через доверие воздействовать на жертву, а также маскировать функции бота. Злоумышленник может обучить ИИ по текстовым, голосовым и видеосообщениям из открытых источников, сайтов знакомств, социальных сетей и мессенджеров.
Автоматизация операций – злоумышленник может использовать ИИ для автоматизации своих действий, что делает его более опасным.
Опасность, которая исходит от самого ИИ
Ошибки в обучении модели – обычно проверка ИИ осуществляется на тестовых данных, при этом достаточно сложно доказать, что он будет работать правильно на всем множестве входных данных. Чем больше и разнообразнее это множество, тем сложнее выполнить такое доказательство. Это может быть опасно при использовании ИИ в критической инфраструктуре или в ответственных зонах на производстве.
Недостаточная прозрачность – некоторые решения ИИ могут быть непонятными и сложными для человека, что создает некую неопределенность, поселяет сомнение в выборе решения. Когда мы не можем понять решение ИИ, нам сложно оценить, является оно ошибочным или верным. Данная особенность начинает иметь вес, когда речь заходит о финансах, здоровье или жизни.
ИИ может начать действовать в своих интересах – самообучающие и адаптивные алгоритмы ИИ могут внутри себя сформировать определенную цель, которая будет скрыто влиять на решения и действия ИИ.
Искажение информации – ИИ сам по себе может предоставлять ложную или неточную информацию, при этом такая информация может попадать в открытые источники. Новые ИИ могут начать использовать ее в своем обучении, в результате чего может произойти замещение реальной информации ложной.
Низкое качество встроенных механизмов защиты – встроенные механизмы защиты ИИ могут быть несовершенными и иметь уязвимости. Например, можно попытаться убедить ИИ, что он находится в каком-то художественном произведении, в историческом отрезке времени или в другой вселенной, и все решения ИИ тогда принимает исходя из этого, отыгрывая роль.
Потеря управления – человечество может потерять возможность управления ИИ. Например, ИИ может раствориться в Интернете и стать его частью, функционируя вне зависимости от воли человека.
Угроза занятости – развитие ИИ может привести к автоматизации многих рабочих процессов, в результате чего может возникнуть социальная напряженность (при условии, что не произойдет переквалификация работников).
Дискриминация – ИИ может принимать решения исходя из своей логики, что может быть неэтичным с точки зрения человека.
Отказ от ответственности – правовой статус ИИ находится в серой зоне, и непонятно, кто несет ответственность за создание, распространение и использование ИИ. Из-за особенностей ИИ может быть сложно или невозможно определить, в какой момент он стал опасным.
Расслоение общества и социальное неравенство – люди, которые используют ИИ, могут превосходить других людей, у которых по разным причинам отсутствует возможность использования ИИ.
Деградация человека или общества – человек может переложить на ИИ свою интеллектуальную активность, что, в свою очередь, может привести к интеллектуальной деградации человека (при условии снижения им мозговой активности). Также общение человека с ИИ может быть более простым и интересным, чем общение с другими людьми, что может привести к добровольной социальной изоляции человека.
По материалам habr.com
https://sovross.ru/2025/09/17/ii/