Исследователи загрузили 7,9 миллионов речей в ИИ, и то, что они обнаружили, переворачивает наше понимание языка
Анализ 7,9 млн речей ИИ показал: пожилые люди перенимают новые значения слов всего на 2-3 года позже молодежи, а иногда и вовсе лидируют в языковых изменениях.
Масштабное исследование, проанализировавшее с помощью искусственного интеллекта 7,9 миллионов речей Конгресса США, произнесенных с 1873 по 2010 год, опровергает устоявшееся представление о том, как меняется язык. Оказалось, что семантические изменения — эволюция значений слов — носят гораздо более инклюзивный характер, чем считалось ранее.
Главный вывод, опубликованный в журнале Proceedings of the National Academy of Sciences, заключается в том, что пожилые носители языка не остаются в прошлом. Вопреки старой социолингвистической модели, которая предполагала, что язык развивается преимущественно за счет смены поколений, новое исследование показывает: носители всех возрастов активно участвуют в изменениях. Молодые люди лишь ненамного опережают старших, которые подхватывают новые значения слов в среднем всего через 2-3 года. А в некоторых случаях, как, например, с геополитическим значением слова «спутник» во времена Холодной войны, именно старшее поколение лидировало в этом изменении.
«Основной результат, заключающийся в том, что пожилые люди адаптивны к новым значениям слов, сам по себе стал неожиданностью», — признался ведущий автор исследования Гаурав Камат. — Но еще большим сюрпризом стало то, что для некоторых слов мы обнаружили свидетельства того, что именно старшие носители языка возглавляли изменения».
Это открытие кардинально меняет подход к изучению языковой эволюции. Десятилетиями лингвисты полагались на метод «кажущегося времени», сравнивая речь разных поколений в один момент времени. Этот метод основывался на предположении, что взрослые сохраняют стабильные языковые модели на протяжении жизни. Если же носители языка старшего поколения постоянно адаптируются к новым тенденциям, такие сравнения могут давать искаженную картину и недооценивать скорость изменений.
Методология исследования была новаторской: ИИ анализировал около 100 слов, которые, вероятно, изменили свое значение в XX веке (например, «монитор», «статьи», «выдающийся»). С помощью продвинутых языковых моделей и алгоритмов кластеризации ученые выявляли различные «смыслы» каждого слова в контексте и отслеживали, как их использование менялось с течением времени у тысячи ораторов, чей возраст был точно известен.
Ограничения и будущие исследования
Авторы работы отмечают и ограничения своего исследования. В фокусе анализа была речь исключительно взрослых людей (членов Конгресса США), а подростки и молодежь, которые часто являются главными драйверами языковых инноваций, в выборку не попали. Кроме того, исследуемая группа — американские законодатели — не является социально репрезентативной.
Тем не менее, это исследование — мощная демонстрация того, как большие данные и вычислительные методы позволяют отвечать на фундаментальные вопросы о человеческом языке, которые раньше казались недостижимыми для системного анализа.
Главный вывод, опубликованный в журнале Proceedings of the National Academy of Sciences, заключается в том, что пожилые носители языка не остаются в прошлом. Вопреки старой социолингвистической модели, которая предполагала, что язык развивается преимущественно за счет смены поколений, новое исследование показывает: носители всех возрастов активно участвуют в изменениях. Молодые люди лишь ненамного опережают старших, которые подхватывают новые значения слов в среднем всего через 2-3 года. А в некоторых случаях, как, например, с геополитическим значением слова «спутник» во времена Холодной войны, именно старшее поколение лидировало в этом изменении.
«Основной результат, заключающийся в том, что пожилые люди адаптивны к новым значениям слов, сам по себе стал неожиданностью», — признался ведущий автор исследования Гаурав Камат. — Но еще большим сюрпризом стало то, что для некоторых слов мы обнаружили свидетельства того, что именно старшие носители языка возглавляли изменения».
Это открытие кардинально меняет подход к изучению языковой эволюции. Десятилетиями лингвисты полагались на метод «кажущегося времени», сравнивая речь разных поколений в один момент времени. Этот метод основывался на предположении, что взрослые сохраняют стабильные языковые модели на протяжении жизни. Если же носители языка старшего поколения постоянно адаптируются к новым тенденциям, такие сравнения могут давать искаженную картину и недооценивать скорость изменений.
Методология исследования была новаторской: ИИ анализировал около 100 слов, которые, вероятно, изменили свое значение в XX веке (например, «монитор», «статьи», «выдающийся»). С помощью продвинутых языковых моделей и алгоритмов кластеризации ученые выявляли различные «смыслы» каждого слова в контексте и отслеживали, как их использование менялось с течением времени у тысячи ораторов, чей возраст был точно известен.
Ограничения и будущие исследования
Авторы работы отмечают и ограничения своего исследования. В фокусе анализа была речь исключительно взрослых людей (членов Конгресса США), а подростки и молодежь, которые часто являются главными драйверами языковых инноваций, в выборку не попали. Кроме того, исследуемая группа — американские законодатели — не является социально репрезентативной.
Тем не менее, это исследование — мощная демонстрация того, как большие данные и вычислительные методы позволяют отвечать на фундаментальные вопросы о человеческом языке, которые раньше казались недостижимыми для системного анализа.