База данных CHIELD: каталогизация гипотез об эволюции языка

Сегодня у нас поистине графский материал от Александра Бердичевского, научного сотрудника Гётеборгского университета, выпускника нашего отделения 2007 года. Я получил от родной кафедры любезное приглашение рассказать о базе данных CHIELD (The Causal Hypotheses in Evolutionary Linguistics Database, читается так же, как shield), в создании которой я поучаствовал и которую считаю важным шагом для изучения изменений языка. CHIELD 1; все ссылки помещены в комментарии — прим. ред. придумал Шон Робертс из Бристольского университета, и основная задача базы — формализовать и каталогизировать существующие гипотезы о том, какие факторы как влияют на изменения языка (в названии говорится об «эволюции языка», но я считаю, что в данном случае это то же самое). В идеальном случае база должна содержать записи о всех опубликованных работах, выдвигающих какие-либо релевантные гипотезы. Каждая гипотеза должна быть представлена в виде наглядного «каузального графа»: что как на что влияет и, что очень существенно, какие данные подтверждают каждую «дугу» графа: эксперимент, типологическое исследование, корпусное исследование, компьютерная модель и т.д. А дальше начинается самое интересное: если переменные называть последовательно, то очень быстро база позволит строить графы, выходящие за рамки одной работы. Если Смит (2000) предположил, что А влияет на Б, а Кузнецова (2001) — что Б влияет на В, то CHIELD нарисует граф вида A -> Б -> В. На картинке — граф, который я получил, введя переменные population size и morphological complexity и попросив базу отобразить все «каузальные пути» между ними. Внимание: совсем необязательно, что все эти пути действительно существуют. CHIELD не умеет отличать истину от лжи, это лишь удобное хранилище информации со встроенными инструментами для визуализации. В базе можно просто просматривать, что уже было написано по интересующей пользователя теме, можно обобщать информацию (см. выше), можно даже автоматически обнаруживать конфликты между двумя теориями (см. разбор примера в 2:17-18. Можно вести поиск по именам переменных, по «документам» (т.е. опубликованным статьям и книгам), по авторам (из которых тоже можно легко строить сети: например, чтобы найти себе потенциального соавтора). Все данные можно скачать и использовать для поиска и по другим параметрам: тип каузальной связи; тип исследования, подтверждающего ее и т.д. Таким образом, CHIELD — это мощный и полезный мета-инструмент для эмпирических исследований, позволяющий лучше понять, что мы уже знаем, чего не знаем, о чем лишь догадываемся и что в первую очередь хотим узнать. База открыта для пополнения, редактирования и обсуждения, принять участие может любой желающий. Разумеется, CHIELD не свободен от недостатков. Возможности встроенного поиска ограничены, в базе есть случайные (а может быть, и систематические) ошибки, имеются большие проблемы со стандартизацией — как имен переменных, так и графов: если Смит и Кузнецова независимо друг от друга добавят в базу работу (Калейс 2002), то, скорее всего, получится два разных графа. Пока что нельзя говорить и о полной репрезентативности: в настоящее время, например, почти не представлены социолингвистика лабовианского толка и традиционная историческая лингвистика. Все это, однако, может быть исправлено совместными усилиями. На момент написания этого текста (27 апреля 2020 года) в базе есть 401 документ и 1700 переменных.

Теги: язык эволюция база данных

Теги других блогов: язык эволюция база данных

Оставить комментарийCancel reply