Список сайтов, благодаря которым чат-бот ChatGPT выдает свои ответы

3678
За последние четыре месяца чат-боты с искусственным интеллектом (ИИ) обрели невероятную популярность, поразив публику своим невероятными способностями.

Однако чат-боты не могут думать, как люди, на самом деле они не понимают, что говорят. Они могут лишь имитировать человеческую речь, потому что ИИ, на котором они основаны, проглотил огромный массив текстов, как правило, взятых из интернета. Эти тексты − основной источник информации для ИИ об окружающем мире. Во многом это они предопределяют, как он отреагирует на запросы пользователей.

С некоторых пор технологические компании стали скрывать, чем именно они «кормят» ИИ. Поэтому издание The Washington Post решило проанализировать один из массивов данных, чтобы выяснить, не закрались ли в обучающий материал личные данные или оскорбительные сайты. В попытке заглянуть вглубь «черного ящика» издание проанализировало гигантский массив данных Google C4, слепок содержимого 15 млн сайтов, который использовался для обучения высококлассных «больших языковых моделей» на английском.

В ходе совместного расследования с Институтом искусственного интеллекта Аллена The Washington Post классифицировала веб-сайты на основе сетевой аналитики от Similarweb.

Реклама на веке

В наборе данных обнаружились сайты самой разной направленности: от журналистики, развлечений, разработки программного обеспечения и медицины до создания контента. Это говорит о том, что именно этим областям новая волна искусственного интеллекта угрожает сильнее всего.

Тремя крупнейшими сайтами стали patchs.google.com (первое место) с текстами из выданных по всему миру патентов; бесплатная онлайн-энциклопедия wikipedia.org (второе место); и платная цифровая библиотека scribd.com. Однако при этом сравнительно высокое место (190-е) занял печально известный сайт пиратских электронных книг b-ok.org, с тех пор закрытый Министерством юстиции США. При этом в набор данных попало минимум 27 других сайтов, определенных правительством США как пиратские.

Самую обширную категорию составили сайты деловые и отраслевые (16% маркеров) во главе с Fool.com (13-е место), который предоставляет советы по инвестициям. По количеству маркеров от него почти не отстают сайт по сбору средств на творческие проекты kickstarter.com (25-е место) и patreon.com (2398-е).

С помощью Kickstarter и Patreon ИИ может получить доступ к чужим творческим идеям и позаимствовать их для собственной работы. Сегодня художники не получают никакой компенсации, если их работа входит в обучающие данные для ИИ, и они уже подали иски о нарушении авторских прав против генераторов изображений на основе текстового описания. Анализ предполагает, что в будущем могут возникнуть и другие юридические трудности.

Большое место в этом массиве данных заняла категория «Новости и СМИ». Подобно художникам и авторам, некоторые журналисты уже критиковали технологические компании за использование их контента без разрешения или компенсации. Было обнаружено, что чат-боты стабильно выдают неверную информацию и при этом не всегда приводят ссылки. Ненадежные обучающие данные могут усугубить предвзятость, пропагандистский уклон и дезинформацию, затруднив при этом отслеживание первоисточника.

Около 5% контента приходится на сайты на общественную тему, причем преобладает в этой категории религия. Среди 20 самых популярных религиозных сайтов 14 оказались христианскими, два − иудейскими, один − мусульманским, один − мормонским, один − иеговистским и еще один прославлял все религии. Антимусульманские предрассудки стали проблемой в целом ряде языковых моделей. Так, исследование, опубликованное в журнале Nature, показало, что ChatGPT-3 в 66% случаев завершил фразу «Заходят два мусульманина в...» насильственными действиями.

Кроме того, в набор данных вошли более полумиллиона личных блогов − или 3,8% маркеров.

Технологические гиганты с их гигантскими кладезями разговорных данных не дали четкого объяснения, как личная информация пользователей может использоваться для обучения моделей ИИ, будь то для внутреннего использования или для открытой продажи.

Как и большинство компаний, Google тщательно фильтрует данные перед загрузкой в ИИ. Помимо отсева откровенной тарабарщины и повторяющегося текста компания использует «Список грязных, оскорбительных, непристойных и других плохих слов». Кроме того, компании обычно используют высококачественные наборы данных для точной настройки моделей, ограждая пользователей от нежелательного контента.

Хотя этот черный список призван ограничить случайное попадание в процессе обучения расовых оскорблений и непристойностей, стало известно, что таким образом вычеркивается и часть несексуального ЛГБТ*-контента. При этом, как показали прошлые исследования, многое благополучно минует фильтры. Издание обнаружило сотни примеров порнографических сайтов и более 72 тыс. примеров «свастики», одного из запрещенных символов.

Хотя C4 сам по себе огромен, большие языковые модели, наверняка применяют еще бóльшие наборы данных, считают эксперты. Так, выпущенный в 2020 году обучающий набор для OpenAI GPT-3 был в 40 раз больше массива, извлеченного из Интернета для С4.

Эксперты говорят, что многие компании не афишируют содержание своих обучающих данных даже для внутреннего пользования − из страха обнаружить там личную информацию, материалы, защищенные авторским правом, и другие данные, полученные без согласия. Поскольку компании признают, что объяснить механизм, как чат-боты принимают решения, затруднительно, это одна из областей, где от руководителей может потребоваться прозрачность.

*
ЛГБТ-движение признано Верховным судом РФ экстремистским
Реклама на веке
Как война расколола преступный мир Как обычным странам пережить столкновение сверхдержав

Дневной сон может повышать риск ранней смерти

298
Дневной сон может повышать риск ранней смерти
Фото: https://www.dailymail.co.uk/health/article-14831637/Nap-daytime-sleeping-early-death-dementia.html
Крупное исследование выявило связь между дневным сном и повышенным риском ранней смерти. Узнайте, как продолжительность и время отдыха влияют на здоровье и какие скрытые опасности могут стоять за привычкой дремать днем.

Крупное исследование с участием 86 000 человек показало тревожную связь между дневным сном и повышенным риском преждевременной смерти. Ученые обнаружили, что у тех, кто регулярно спит днем, особенно в первой половине дня, вероятность ранней смерти увеличивается на 20%.

Результаты исследования

Исследование, представленное на конференции SLEEP 2025, охватило здоровых взрослых людей среднего возраста, не работающих в ночную смену. Участники носили актиграфы — устройства, отслеживающие циклы сна и бодрствования. Дневной сон определялся как любой сон между 9:00 и 19:00.

Реклама на веке

За 11 лет наблюдений умерло 5 189 участников. Анализ данных показал:

- Нерегулярный дневной сон повышает риск смерти на 14%.

- Длительный сон (более 30 минут) связан с наибольшим риском.

- Сон между 11:00 и 13:00 увеличивает вероятность ранней смерти на 7%.

Почему дневной сон может быть опасен?

Эксперты предполагают, что дневная сонливость часто сигнализирует о скрытых проблемах со здоровьем:

- Нарушения ночного сна (апноэ, бессонница).

- Неврологические заболевания (деменция, болезнь Альцгеймера).

- Сердечно-сосудистые патологии.

- Сбой циркадных ритмов, влияющий на метаболизм.

Профессор Джеймс Роули из Университета Раша отмечает: "Дневной сон — маркер, который врачи должны учитывать при оценке здоровья пациента".

Альтернативные объяснения

Некоторые ученые считают, что опасность представляет не сам сон, а его причины:

- Накопление токсинов в мозге из-за некачественного ночного отдыха.

- Связь с диабетом 2 типа и депрессией.

Профилактика рисков

Для сохранения здоровья эксперты рекомендуют:

1. Оптимизировать ночной сон (7-9 часов).

2. При хронической дневной сонливости — пройти обследование.

3. Поддерживать регулярный график сна и бодрствования.

Контекст

Исследование появилось после публикации данных о том, что 40% случаев болезни Альцгеймера можно предотвратить коррекцией образа жизни. В Великобритании деменция стала ведущей причиной смерти, опередив сердечно-сосудистые заболевания.

Вывод

Хотя дневной сон может быть приятным, его регулярность и продолжительность стоит контролировать. Как отмечают ученые, "здоровый организм обычно не требует дополнительного сна днем". При постоянной потребности в дневном отдыхе лучше обратиться к специалисту.

Реклама на веке
ИИ делает нас глупее? Исследование MIT показало тревожные последствия ChatGPT
Реклама на веке
Реклама на веке