Питання спорідненості мов, а особливо слов'янських, давно вже стало – а, може, і було завше – ідеологічним. А у випадку мов, які прийнято називати східнослов'янськими, воно, на жаль, є навіть політичним – а тепер (і тут оце "на жаль" недоречно м'яке) ще й смертоносним.
Зрештою, як пише видання ZBRUC.eu, про гостроту проблеми свідчить навіть цей початок, здавалобись, специфічно наукової розвідки, – початок, який цілковито випадає з конвенційної структури наукового – ба, навіть новинного¹ – тексту.
Генетичні відношення між мовами (а точніше, між лектами, тобто між мовами, діалектами чи говірками) вивчає генеалогічна лінгвістика, розкриваючи діахронічні траєкторії окремих мовних еволюційних історій та встановлюючи їх генеалогічну класифікацію на основі ступеня генетичної спорідненості² (даючи таке визначення, Матей Шеклі, зокрема, застерігає, що в цьому сенсі не можна плутати соціолінгвістичний термін літературна/стандартна мова з терміном генеалогічної лінгвістики – з мовою, якою розмовляють на певній території³).
З кінця XIX століття, з часу, коли процес виникнення мов почали розуміти як розвиток розгалужень дерева (Stammbaumtheorie⁴), вважається, що основним інструментом генеалогічної лінгвістики є історична фонологія, тобто доказом спорідненості лектів є спільні інновації, які відділили нову гілку від стовбура прамови⁵. Теорія хвиль (Wellentheorie⁶), що була заявлена як альтернатива до теорії дерева, фактично доповнювала її механізмом поширення інновацій: від одного діалекту до суміжного, мовно близького в діалектному континуумі, а цей суміжний діалект, інтерналізувавши інновацію, передає її наступному суміжному і т. д. Міграції частини населення на великі відстані призводили до різкого відгалуження його мови від материнської, а поступове розширення території проживання мовної групи вело до хвильового механізму щораз дальшого відокремлення мов діалектів на протилежних периферіях мовного ареалу⁷.
Юрій Шевельов же, підсумовуючи своє фундаментальне дослідження фонологічної еволюції праслов'янської мови⁸, фактично запропонував концепцію мережевого розвитку мов, в якій основну роль відіграють діалектні групи: "Ізоглоси п'ятого-десятого століть не виявляють жодної закономірності і майже не утворюють стабільних груп мов чи діалектів. Вони накладаються і перетинаються одна з одною в позірному безладі, ніби відображаючи неспокійну історію слов'янської мови того часу. Деякі ізоглоси перетинають те, що з сучасної точки зору є мовами, об'єднуючи їхні частини з іншими мовами [...] Розпад праслов'янської мови не був схожий на ріст дерева, яке спочатку випустило три великі гілки (східно-, західно- та південнослов'янські), з яких згодом проросли менші гілочки (окремі слов'янські мови, як ми їх знаємо). Цю дезінтеграцію також не можна осягнути за допомогою традиційної метафори хвиль, що поширюються одна за одною. Якщо метафора є доречною, то найкраще підійде образ хмар у небі в грозовий день, з їхніми постійними змінами форми, наростанням, накладанням, злиттям, роз'єднанням і здатністю миттєво зникати. [...] Лінгвістично, південноросійські та північноукраїнські діалекти могли б стати білоруськими, східнословацькі – польськими, кайкські діалекти сербохорватської – словенської, а західноболгарські – сербохорватськими, або тимокські діалекти сербохорватської – болгарськими"⁹.
Свою ідею про вирішальну роль діалектів у процесі формування мов Шевельов окреслив ще раніше у "Проблемах формування білоруської мови", а потім в "Історичній фонології української мови" він на конкретному прикладі взірцево показав, як при реконструкції історичного розвитку мови необхідно враховувати еволюцію діалектів¹⁰. Після Шевельова цей підхід розвинув (зокрема, але, як на мене, найпереконливіше) його – в певному сенсі – учень¹¹ Геннінґ Андерсен, формалізувавши метафору Шевельова про хмари концепцією різних швидкостей інновацій, діалектні ареали яких перекриваються, а їх комбінація може в результаті призвести до отого "позірного безладу" ізоглос¹².
До середини минулого століття фонологічні підходи були фактично єдиною надійною методикою реконструкції траєкторії еволюції мов. Були спроби для оцінки спорідненості мов застосувати кількісні критерії¹³, однак справа впиралась не тільки у необхідність відсіву випадкових збігів, а й у нерозв’язану проблему зважування релевантності кожного окремого показника.
Проривною стала ідея Моріса Сводеша (точніше її формалізація) про те, що в усіх мовах існує пласт базової лексики, яка передає універсальні поняття, а її список є однаковим для всіх мов, тобто не залежить від культури носіїв мови, і що заміна слів у цьому списку відбувається з найнижчою і постійною ймовірністю. Отож, виходячи з цієї ідеї, він запропонував список понять (спершу 215 слів, пізніше скорочений до 100 слів), які є універсальними і культурно нейтральними – наприклад, рука, вода, сонце, їсти, спати. Такі слова мали би слугувати своєрідними "лінгвістичними генами": наявність у двох порівнюваних лектах когнатів, які мають спільний етимон (тобто слова хоч різні за звучанням, але які етимологічно походять від спільного предка) і позначають те саме універсальне поняття, відображають глибинну генеалогічну спорідненість мов. А кількість таких слів зі спільним значенням і спільним етимоном у фіксованому списку спеціально відібраних понять відображає рівень цієї спорідненості¹⁴. Ідея про постійну ймовірність, на основі якої Сводеш та його послідовники розвинули глоттохронологію, використовуючи лексикостатистику для визначення приблизного часу розділення пари споріднених мов, не знайшла підтвердження у всіх мовах, але від неї не відмовилися, пропонуючи моделі зміни цієї швидкості в часі та для різних частин базового списку.
Якщо порівнювати більше двох лектів, то отримаємо матрицю лексичних відстаней між ними (до недавнього часу можна було сміливо казати "між мовами" – рівня діалекту такі дослідження не сягали). А маючи матрицю, можна різними математичними алгоритмами вибудувати ієрархічну кластеризацію, що буде відображати дерево еволюції мов – від прамови до сучасних мов.
Для слов'янських мов було побудовано з десяток таких генеалогій; ґрунтовний критичний огляд цих спроб подано у відносно свіжій статті А.Касьяна "Лексикостатистика"¹⁵ в "Енциклопедії слов'янських мов та лінгвістики"¹⁶: критика в основному стосується якості підбору ("garbage in, garbage out") різномовних слов'янських відповідників англійського списку Сводеша традиційних методик (проблема синонімів) та деяких аспектів нових математично абстрактніших спроб генеалогічної класифікації¹⁷. А.Касьян відзначив, що на даний час найадекватнішу глоттохронологічну схему запропоновано у публікації групи 75 авторів на чолі з А.Курашкевич (білоруської за походженням генетика з Тартуського університету)¹⁸ фундаментального дослідження 2015 року про генетичну спадщину балто-слов'яномовних популяцій, де, власне, сам А.Касьян (разом з А.Дибо) був автором лексикостатистичної частини проєкту моделі.
Варто звернути увагу, що на цій взірцевій глоттохронологічній схемі чільного представника московської школи компаративістики зазначено відокремлення російської гілки від українсько-білоруської шостим століттям, що цілком заперечує теорію єдиної східнослов'янської мови Київської Русі, але підтверджує концепцію глоттогенезу цих мов Шевельова.
Ще одним непрямим підтвердженням цієї концепції на схемі Касьяна є одночасне відгалуження білоруської й української мов та галицько-подільських діалектів, що заперечує класичну схему, за якою прамова розпадається на діалекти, з яких розвиваються окремі мови, і в яких, своєю чергою, формуються свої діалекти, – діалекти, як і вказував Шевельов, можуть формуватися раніше за самі мови.
Цілком можливо, що до цих важливих висновків призвело піонерське включення в лексикостатистичну матрицю слов'янських мов списків Сводеша "живих"¹⁹ діалектів, але змішання в одній матриці двох різних мовних категорій: соціально стандартизованих (внормованих) літературних мов та розмовних мов (діалектів) окремих територій несе загрозу деформації реальної картини.
І це (дослідження еволюцій територіальних мов на основі стандартизованих, тобто соціальних) є загальним застереженням до, фактично²⁰, всіх робіт зі слов'янської лексикостатистики і, відповідно, глоттохронології. Звичайно, є висока кореляція між базовими списками цих двох категорій мов, але є і суттєві відхилення: у всіх базових списках, наприклад, болгарської мови фігурує лексема луна, відсутня – так само на всіх лінгвістичних мапах болгарського мовного ареалу – на території Болгарії. Очевидно, що наслідком таких деформацій списків буде деформація результату ("garbage in, garbage out").
Можна запропонувати простий вихід: всеслов'янське соціологічне опитування, де респондентам, що в побуті спілкуються місцевою говіркою, пропонують за методом діагностичних контекстів²¹ одним словом описати Сводешеві поняття. Його може виконати будь-яка соціологічна фірма, інтерв'юери не мусять бути фаховими лінгвістами; фінансування (десь кілька тисяч євро на одну країну), думаю, досяжне національним славістичним комітетам – зате в результаті вони (і всі ми) отримали б певну мовну машину часу.
Але поки цього нема, можна спробувати використати те, що є. А є матеріали Загальнослов'янського лінгвістичного атласу (OLA) – грандіозного проєкту, що почався за рішенням IV Міжнародного з’їзду славістів в 1958 році і ще не завершився. Опитування охоплювали 834 пункти (мовці 13 слов'янських мов) і тривали до 1990 року. Квестіонар атласу включав 3454 питання – серед них, власне, були 98 лексем²² зі 100-слівного списку Сводеша²³.
Результати почали публікувати з 1988 року, до 2020-го вийшло 18 випусків OLA з відповідями на 1224 питання анкети. Планувалося, що до 2024 року будуть онлайн опубліковані всі матеріали²⁴, але через російську агресію робота міжнародної комісії Загальнослов'янського атласу зупинилася²⁵ (останнє із засідань, що з 1966 року відбувалися один-два рази річно, було в 2021 році).
Дві країни (Пн. Македонія і Боснія та Герцеговина) результати опитування на своїй території опублікували повністю, Польща оприлюднила "сирі" дані: скани картотеки опитування зі всіх 88 пунктів на її теренах²⁶; про публікацію своєї бази заявила і Росія, але формуляр на сайті slavatlas.org видає лиш повідомлення "error on connection".
Зі всіх ста Сводешевих концептів п'ятдесят у слов'янських мовах мають однакові когнати; з решти 48 в опублікованих матеріалах є 36; ще чотири є в паралельному проєкті ALE²⁷ (щоправда, з рідшою сіткою: 331 слов'янський пункт). Замість двох відсутніх концептів (kill і bite) можна використати два з модифікованого Яхонтовим списку Сводеша²⁸ (worm і year, матеріали стосовно яких вже опубліковані в лексико-словотворчих випусках OLA). Ареали ж слов'янських відповідників решти шести концептів можна попередньо (поки не будуть опубліковані всі матеріали слов'янського атласу) визначити за національними атласами окремих мов, корпусами діалектних текстів (зокрема, в прикладах словників діалектів), словниками мов тощо. Що і було зроблено: мапи ареалів відповідників цих 50 Сводешевих понять у слов'янських діалектах наведені в додатку²⁹.
Отож, реалізувавши всі ці "можна", перераховані в попередньому абзаці, я розрахував матриці мовних дистанцій слов'янських діалектів. Розрахунок дистанцій проводився сумуванням попарного порівняння всіх пунктів OLA за всіма п'ятдесятьма різнокогнатними поняттями: мовна дистанція між двома пунктами в математичних вимірах певного Сводешевого поняття рівна одиниці, якщо в двох порівнюваних пунктах на його позначення вживають етимони різних когнатів, і рівна нулю – якщо одного і того ж; коли в певному пункті на позначення цього певного поняття вживають два або більше синонімів, то попарне порівняння проводилось з кожним з ним і враховувалась відносна стосовно кількості синонімів сума результатів цих порівнянь³⁰.
Проблема з синонімами є однією з найприкріших у лексикостатистиці: довільний підбір синонімів може суттєво спотворити таксономічну мовну класифікацію³¹.
З іншого боку, синонімія засадничо закладена в Сводешеву ідею поступової заміни прадавньої лексеми на означення певного поняття його списку іншою: заміна не відбувається одномоментно – деякий час в мові паралельно немарковано функціонують стара і нова лексеми. Хоч на цей аспект у лексикостатистичних теоріях і вказується ("один із випадків, коли синонімія є неминучою, – це перехідний етап в історії мови, під час якого старіше слово поступово витісняється новішим замінником"³²), але при складанні списків враховується тільки тоді, коли частота вживання синонімів приблизно однакова (однак методика бінарних значень у таких випадках противиться зважуванню: "дозволена синонімія означає, що коли той самий слот списку Сводеша заповнений більш ніж одним словом, тобто кількома синонімами, в межах цього слоту порівнюються усі можливі пари відповідних слів між двома мовами: якщо існує хоча б одна збіжна пара, увесь слот вважається збігом"³³ – тобто фіксується нульова віддаль, хоч коректніше би було зафіксувати проміжну між цим нулем та величиною, якою позначається відсутність збігу).
Document: PDF proof of the original version of the news item "Чому диференціація діалектів, які стали основою сучасної української мови, почалася ще в надрах загальнослов'янської спільності". It records the publication content at the moment of the first scan, the preservation date and the source: argumentua.com.