Список сайтов, благодаря которым чат-бот ChatGPT выдает свои ответы

За последние четыре месяца чат-боты с искусственным интеллектом (ИИ) обрели невероятную популярность, поразив публику своим невероятными способностями.

Однако чат-боты не могут думать, как люди, на самом деле они не понимают, что говорят. Они могут лишь имитировать человеческую речь, потому что ИИ, на котором они основаны, проглотил огромный массив текстов, как правило, взятых из интернета. Эти тексты − основной источник информации для ИИ об окружающем мире. Во многом это они предопределяют, как он отреагирует на запросы пользователей.

С некоторых пор технологические компании стали скрывать, чем именно они «кормят» ИИ. Поэтому издание The Washington Post решило проанализировать один из массивов данных, чтобы выяснить, не закрались ли в обучающий материал личные данные или оскорбительные сайты. В попытке заглянуть вглубь «черного ящика» издание проанализировало гигантский массив данных Google C4, слепок содержимого 15 млн сайтов, который использовался для обучения высококлассных «больших языковых моделей» на английском.

В ходе совместного расследования с Институтом искусственного интеллекта Аллена The Washington Post классифицировала веб-сайты на основе сетевой аналитики от Similarweb.

Реклама на веке

В наборе данных обнаружились сайты самой разной направленности: от журналистики, развлечений, разработки программного обеспечения и медицины до создания контента. Это говорит о том, что именно этим областям новая волна искусственного интеллекта угрожает сильнее всего.

Тремя крупнейшими сайтами стали patchs.google.com (первое место) с текстами из выданных по всему миру патентов; бесплатная онлайн-энциклопедия wikipedia.org (второе место); и платная цифровая библиотека scribd.com. Однако при этом сравнительно высокое место (190-е) занял печально известный сайт пиратских электронных книг b-ok.org, с тех пор закрытый Министерством юстиции США. При этом в набор данных попало минимум 27 других сайтов, определенных правительством США как пиратские.

Самую обширную категорию составили сайты деловые и отраслевые (16% маркеров) во главе с Fool.com (13-е место), который предоставляет советы по инвестициям. По количеству маркеров от него почти не отстают сайт по сбору средств на творческие проекты kickstarter.com (25-е место) и patreon.com (2398-е).

С помощью Kickstarter и Patreon ИИ может получить доступ к чужим творческим идеям и позаимствовать их для собственной работы. Сегодня художники не получают никакой компенсации, если их работа входит в обучающие данные для ИИ, и они уже подали иски о нарушении авторских прав против генераторов изображений на основе текстового описания. Анализ предполагает, что в будущем могут возникнуть и другие юридические трудности.

Большое место в этом массиве данных заняла категория «Новости и СМИ». Подобно художникам и авторам, некоторые журналисты уже критиковали технологические компании за использование их контента без разрешения или компенсации. Было обнаружено, что чат-боты стабильно выдают неверную информацию и при этом не всегда приводят ссылки. Ненадежные обучающие данные могут усугубить предвзятость, пропагандистский уклон и дезинформацию, затруднив при этом отслеживание первоисточника.

Около 5% контента приходится на сайты на общественную тему, причем преобладает в этой категории религия. Среди 20 самых популярных религиозных сайтов 14 оказались христианскими, два − иудейскими, один − мусульманским, один − мормонским, один − иеговистским и еще один прославлял все религии. Антимусульманские предрассудки стали проблемой в целом ряде языковых моделей. Так, исследование, опубликованное в журнале Nature, показало, что ChatGPT-3 в 66% случаев завершил фразу «Заходят два мусульманина в...» насильственными действиями.

Кроме того, в набор данных вошли более полумиллиона личных блогов − или 3,8% маркеров.

Технологические гиганты с их гигантскими кладезями разговорных данных не дали четкого объяснения, как личная информация пользователей может использоваться для обучения моделей ИИ, будь то для внутреннего использования или для открытой продажи.

Как и большинство компаний, Google тщательно фильтрует данные перед загрузкой в ИИ. Помимо отсева откровенной тарабарщины и повторяющегося текста компания использует «Список грязных, оскорбительных, непристойных и других плохих слов». Кроме того, компании обычно используют высококачественные наборы данных для точной настройки моделей, ограждая пользователей от нежелательного контента.

Хотя этот черный список призван ограничить случайное попадание в процессе обучения расовых оскорблений и непристойностей, стало известно, что таким образом вычеркивается и часть несексуального ЛГБТ*-контента. При этом, как показали прошлые исследования, многое благополучно минует фильтры. Издание обнаружило сотни примеров порнографических сайтов и более 72 тыс. примеров «свастики», одного из запрещенных символов.

Хотя C4 сам по себе огромен, большие языковые модели, наверняка применяют еще бóльшие наборы данных, считают эксперты. Так, выпущенный в 2020 году обучающий набор для OpenAI GPT-3 был в 40 раз больше массива, извлеченного из Интернета для С4.

Эксперты говорят, что многие компании не афишируют содержание своих обучающих данных даже для внутреннего пользования − из страха обнаружить там личную информацию, материалы, защищенные авторским правом, и другие данные, полученные без согласия. Поскольку компании признают, что объяснить механизм, как чат-боты принимают решения, затруднительно, это одна из областей, где от руководителей может потребоваться прозрачность.

*
ЛГБТ-движение признано Верховным судом РФ экстремистским
Реклама на веке
Как война расколола преступный мир Как обычным странам пережить столкновение сверхдержав