Правозащитний раздел Голоса Правды
Блоги журналистов

Google изучил эволюцию языка за двести лет

Google изучил эволюцию языка за двести лет

На сайте главного оппозиционного проекта Украины «Голос Правды» опубликована новая запись независимого журналиста Мирославы Бердник:

Google изучил эволюцию языка за двести лет
Ученые приспособили поисковый сервис Google для проведения масштабных лингвистических исследований. С его помощью специалисты, используя 5 миллионов отсканированных книг, смогли проследить эволюцию языка в последние 200 лет. Статья специалистов опубликована в журнале Science, а коротко о работе пишет New Scientist ( Google's 'fossil record' digitises 5 million books ).
До сих пор у лингвистов не было инструмента, при помощи которого можно было бы проанализировать значительное количество текстов. Авторы нового исследования работали с книгами, которые были переведены в цифровой формат к настоящему моменту — всего их насчитывается около 15 миллионов. Ученые выбрали из них треть текстов (5,2 миллиона книг, написанных на английском, французском, испанском, немецком, китайском и русском языках) и составили базу всех использованных в них слов — их получилось около 500 миллиардов. Базу слов Ngrams можно найти здесь — поиск по словам осуществляется на базе алгоритмов Google.
Проанализировав полученные данные, авторы смогли сделать большое количество разнообразных выводов. В частности, они установили, что за последние сто лет число часто используемых слов возросло вдвое — если в 1900 году использовалось около 544 тысяч слов, то в 2000 году это число возросло до одного миллиона, причем 52 процента новых слов стало активно употребляться после 1950-х годов.
Насколько я понимаю, это опровергает очень распространенный миф об оскудении языка и т.д.
Интересна и судьба отдельных слов.

Вот частота употребления слова "жопа" за последние 200 лет:

Вот что случилось со словом "любовь"

Вот слово "честь"
.

Вот слово "добро":

Вот, например, изменение частоты употребления слова "амбиции" с 1920 по 2000 годы:


Кроме того, специалисты изучили, как сказывалась на использовании тех или иных слов цензура. Ученые установили, что после 1989 года словосочетание "площадь Тяньаньмень" практически перестало встречаться в литературе, изданной в Китае. То же самое произошло с именем Лев Троцкий в СССР в 1940-е годы и с именами голливудских актеров, уличенных в связях с Советским Союзом в США.

Авторы и их коллеги полагают, что новый инструмент позволит ученым исследовать слова и лингвистические тенденции, используя те же подходы и методы, что и специалисты по естественным наукам.

Источник

Вы можете прочитать эту запись в «Живом Журнале» Мирославы Бердник, а также оказать автору финансовую поддержку.

 Об авторе:
МИРОСЛАВА БЕРДНИК
Независимый журналист
Все публикации автора »»
Дивіться нас у «YouTube»

Читайте нас у «Google.News», «Яндекс.Дзен», «Facebook», «ВКонтакте», «Однокласники», «Telegram» і «Twitter». Щоранку ми розсилаємо популярні новини на пошту – підпишіться на розсилку. Ви можете зв'язатися з редакцією сайту через розділ «Повідомити Правду».


Знайшли на сайті орфографічну помилку? Виділіть її мишою і натисніть Ctrl+Enter.




Блоги журналистов
Auto-Translate
AfrikaansAlbanianArabicArmenianAzerbaijaniBasqueBelarusianBulgarianCatalanChinese (Simplified)Chinese (Traditional)CroatianCzechDanishDutchEnglishEstonianFilipinoFinnishFrenchGalicianGeorgianGermanGreekHaitian CreoleHebrewHindiHungarianIcelandicIndonesianIrishItalianJapaneseKoreanLatvianLithuanianMacedonianMalayMalteseNorwegianPersianPolishPortugueseRomanianSerbianSlovakSlovenianSpanishSwahiliSwedishThaiTurkishUrduVietnameseWelshYiddish
Олесь Бузина
Тема дня