Анализ книги Г.Хьетсо и др. "Кто написал Тихий Дон". Богатство словаря.

Анализ книги Г.Хьетсо и др. "Кто написал Тихий Дон". Богатство словаря.

Одним из главных (по Ф.Кузнецову - самым главным) выводом работы Г. Хьетсо и др. "Кто написал "Тихий Дон" (см. http://next.feb-web.ru/feb/sholokh/default.asp) является более бедный словарь Крюкова по сравнению с ТД, тогда как словарь Шолохова в "Донских рассказах" (ДР) и 1-й книге "Поднятой целины" (ПЦ1) приближается к уровню ТД.

Богатство словаря каждого из авторов определяется следующим образом. В текстах выделяются блоки по 500 слов и подсчитывается число различных слов (словоформ) из этих 500. При этом разные формы одного слова (существительное в разных падежах и т.п.) считаются разными словами. Число различных словоформ на один блок варьируется обычно от 340 до 400. Для изучаемых текстов рассмотрено следующее количество блоков из 500 слов каждый:

1. Крюков-1 (сборник 1907 г.) - 45

2. Крюков-2 (сборник 1914г. + 1 рассказ 1907 г.) - 45

3. Шолохов - 1 (Донские рассказы, далее - ДР) - 45

4. Шолохов-2 - 1-я книга "Поднятой целины", далее - ПЦ1) - 37

5. Тихий Дон -1-я часть, "Тихого Дона" (далее - ТД-1) - 25

6. Тихий Дон-2 - ТД-2 - 30

7. Тихий Дон-4 - ТД-4 - 40.

Для каждого из 7 выборок вычисляется среднее арифметическое числа различных словоформ, приходящихся на один блок, и среднеквадратическое отклонение числа словоформ в блоке от среднего арифметического. Данные приведены в таблице.

Для каждого из 7 текстов количество словоформ во всех блоках рассмативается как выборка значений случайной величины, объем выборки равен соответственно 45, 45, 45, 37, 25, 30,40. Методы математической статистики позволяют не просто сравнить 7 выборок "на глаз", но проверить попарно однородность выборок. Точнее - можно ли с большой вероятностью считать, что данные 2 выборки (например - Крюков-1 и ТД-1) состоят из значений случайной величины с одинаковым законом распределения или нет. Если ответ отрицателен (т.е. если различие между двумя выборками оказывается слишком большим), то данные выборки с большой вероятностью взяты из текстов разных авторов. Мы не будем пока обсуждать, насколько такой подход обоснован (т.е. могут ли все-таки одному автору в разных его текстах соответствовать разные распределения случайной величины числа словоформ или нет). Будем исходить из того, что предложенный авторами подход корректен и проверка однородности выборок равнозначна проверке тождественности авторов.

В качестве величины, характеризующей близость выборок, рассматривается t-тест (критерий) Стьюдента (в русском издании переведено как "Студенческий тест", с. 120), который для пары выборок с номерами i, j вычисляется по формуле

. (i,j=1, ..., 7) (1)

.Задается уровень доверия (достоверности), например 0,99. По специальным таблицам (например с помощью электронных таблиц Microsoft Excel) определяется значение коэффициента Стьюдента T(0,99; k) с числом степеней свободы , равным , соответствующего данному уровню доверия. Для однородных выборок с вероятностью 0,99 значения t-теста t _ij не превосходит значения коэффициента Стьюдента T(0,99; k). Таким образом, если выполнено противоположное неравенство t _ij>T(0,99; k), то статистическая гипотеза о принадлежности двух выборок к текстам одного автора отвергается. Если t _ij<T(0,99; k), то гипотеза не отвергается. Например, сравнение Крюкова-1 и ТД-1 (выборки 1 и 5 соотвественно) дает значение теста Стьюдента t ₁₅=7,79; тогда как коэффициент Стьюдента с 45+25-2=68 степенями свободы T(0,99; 68)=2,65< t ₁₅)=7,79; на этом основании гипотеза об авторстве Крюкова авторами отвергается с достоверностью 99 процентов. Авторы попарно сравнивают 3 части "Тихого Дона" (ТД-1, ТД-2, ТД-4) с текстами "претендентов" на авторство (по 2 текста каждого). Полученные таким образом значения теста Стьюдента приведены в таблице (в скобках - число степеней свободы).

Авторы замечают, что "для самого нижнего числа степеней свободы (60) критическая величина t [с уровнем доверия 0,99] составляет 2,66, а для самого высокого числа степеней свободы (83) она составляет 2,64. Как видно из таблицы, сопоставление текстов Крюкова с анализируемыми частями ТД дает более высокие значения величин." Внимательный читатель может задаться вопросом, почему же сравнение ПЦ-1 и ТД-4 t ₃₇=3,95) также существенно превышает критическое значение. У авторов на это нет ответа, они лишь замечают туманно: " Правда, сопоставление Ш-1 с ТД-4 также дает слишком высокую величину, но в целом Шолохов обнаруживает очень небольшие отличия от ТД, невероятно малое различие". Между тем для 83 степеней свободы значения теста с вероятносью 0,001 должны быть меньше 3,41 , так как T(0,999; 83)=3,41! Т.е. "Донские рассказы" и четвертую часть ТД с вероятностью более 99,9 процентов написали разные люди ! Апелляция к тому, что это - единственный случай, когда предложенный метод дает "неправильный" результат, несерьезны. Что же это за метод, если он дает вопиюще неверный (с точки зрения авторов "КНТД") результат как минимум в одном случае из 6 (всего тексты Шолохова и ТД попарно сравниваются 6 раз)? Таким образом, достоверность метода вызывает большие сомнения. Авторы могли бы попытаться их рассеять, рассмотрев большое количество выборок из текстов литературы 19-20 веков, авторство которых не вызывает сомнений, и показать, что метод ошибается крайне редко. Однако это не сделано, возможно по причине огромной трудоемкости такой работы для конца 70-х годов 20 века. Тем не менее у авторов была прекрасная возможность выяснить достоверность метода путем попарного сравнения всех 7 текстов путем вычисления теста Стьюдента для каждой пары, число таких пар выборок в этом случае составило бы (7Х7-7)/2=21. Поскольку число различных словоформ уже просчитано по всем 7 текстам, то оставалось лишь вычислить значение теста по формуле (1), т.е сравнить Крюкова-1 с Крюковым-2, ДР с ПЦ-1 и т.п. и показать, что в бесспорных случаях (автор - заведомо одно лицо) метод дает правильный результат. Эту работу даже в конце 70-х гг. можно было легко выполнить с помощью калькулятора, тем не менее такого сравнения в книге "КНТД" нет. Мы решили восполнить этот досадный пробел и просчитать тест Стьюдента для 21 пары выборок, используя число различных словоформ, полученное авторами "КНТД". Данные приведены в следующей таблице:

		1	2	3	4	5	6	7
		Кр1	Кр2	Дон.Р.	ПЦ1	ТД1	ТД2	ТД4
1	Кр1		4	4,62	8,21	7,78	6,42	10,1
2	Кр2	4		1,14	4,16	3,92	3,21	5,98
3	Дон.Р.	4,62	1,14		2,44	-2,32	-1,97	3,95
4	ПЦ1	8,21	4,16	2,44		0,03	0,06	1,73
5	ТД1	7,78	3,92	2,32	0,03		0,03	1,67
6	ТД2	6,42	3,21	1,97	0,06	0,03		1, 39
7	ТД4	10,1	5,98	3,95	1,73	1,67	1,39

Первый результат, который сразу бросается в глаза - Крюков-1 и Крюков-2 - это разные авторы, если методику "КНТД" принимать всерьез. Причем, если задать уровень доверия 0,999, то получаем критическое значение T(0,999; 68)=3,44, и оно у "двух Крюковых" превышено , т.к. t ₁₂=4>3,44; следовательно с вероятностью 99,9 процентов Крюковых действительно было двое! Кроме того, Крюков-2 гораздо ближе к ДР, чем к Крюкову-1, а ДР ближе к Крюкову-2, чем к ТД-1,2,4 и ПЦ-1.

Критический уровень T(0,99; k) значения теста Стьюдента для числа k степеней свободы от 53 до 88, соответствующий уровню доверия 0,99 находится в пределах от 2,63 до 2,67. Из таблицы видно, что для пары ДР - ТД-4 этот уровень превышен, т.е. ДР и ТД-4 с вероятностью 99 (и, как отмечалось выше, даже 99,9) процентов написаны разными авторами. Если же уровень доверия понизить до 0,9, то критический уровень T(0,9; k) равен примерно 1,65, этот уровень превышают, например, все тесты Стьюдента с участием ДР, кроме пары ДР - Крюков-1, т.е. с вероятностью 90 процентов ДР не могут быть написаны ни автором ПЦ-1 ни автором ТД-1,2,4. Тогда как тест Стьюдента для пары Крюков-2 - ДР равен t ₂₃=1,14, что ниже критического уровня 1,65; т.е. авторство Крюкова (говоря языком авторов "КНТД") в отношении ДР не может быть отвергнуто. Стили Крюкова-2 и ДР вообще близки друг другу, различие между ними даже несколько меньше, чем различие ТД-2 и ТД-4, и существенно меньше, чем в паре ДР и ТД-4. Возможно это связано с тем, что в малых произведениях словарный состав (даже в расчете на блок из 500 слов) может быть менее богатым, чем в крупных, и размер произведения может больше влиять на богатство словаря, чем собственно личность автора.

В довершение отметим, что уровень доверия 90 % выдерживают вообще только пары Крюков-2 - ДР, ТД-1 - ТД-2, ТД-1 - ПЦ-1, ТД2- ПЦ-1, ТД-2 - ТД-4, что означает только то, что совпадение авторов в этих парах не может быть отвергнуто с достоверностью 90 % (но может быть отвергнуто с меньшей достоверностью, например в случае пары ТД-2 - ТД-4 с достоверностью 80 процентов, т.к. T(0,8; 68)=1,29< t ₆₇)=1,39).)

Мы показали, что предложенная скандинавскими авторами методика определения автора по "богатству словаря" приводит к совершенно абсурдным результатам. Еще раз обратим внимание, что мы всего лишь добросовестно воспроизвели их методику для анализа всех пар выборок из рассматриваемых 7 текстов. Таким образом установлено, что тест Стьюдента для числа различных словоформ абсолютно не годится для определения личности автора или опровержения авторства, поскольку не обладает ни устойчивостью в рамках текстов одного автора, ни различительной способностью для разных авторов. Авторский стиль - слишком сложное явление, чтобы быть описанным в сравнительно простых терминах математической статистики. Напомним, что сравнение текстов проводилось в "КНТД" в условиях, заведомо более выгодных для Шолохова чем для Крюкова, поскольку были взяты произведения Крюкова с большим временным разбросом по отношению к возможному написанию им ТД (статистика могла сильно измениться), тогда как все тексты Шолохова были взяты из гораздо более короткого временного периода (см. Введение). Но даже в условия такого "гандикапа" результаты статистического анализа не дают никаких оснований отдать предпочтение Шолохову перед Крюковым в качестве возможного автора ТД. Разумеется и Крюков не получает такового предпочтения перед Шолоховым. Предложенный метод вообще не представляет никакой ценности и является примером того, как неудачно построенная математическая модель дает абсурдные результаты в гуманитарном исследовании. Заметим также, что ко всем этим выводам добросовестные и компетентные авторы могли и должны были придти в процессе их работы. Нужно было просто сравнить все пары текстов! Если авторам это не пришло в голову, то приходится говорить о вопиющей некомпетентности. Если же они это сделали, но не обнародовали результаты, которые однозначно говорят о непригодности предложенного метода, то речь идет уже о прямой фальсификации научных исследований. Обратим еще раз внимание на то, что именно коэффициент типичности знаков (т.е. число различных словоформ) рассматривается авторами как "наиболее надежный параметр для решения проблемы авторства "Тихого Дона" (с. 119). Степень "надежности" этого параметра мы рассмотрели выше.

Отметим, что далее авторы строят также "доверительные интервалы" для среднего числа различных словоформ для всех 7 текстов, см. рис.

и делают следующий окончательный вывод (его же повторяет и Ф. Кузнецов): "А теперь, если мы представим себе путь Крюкова и Шолохова к «Тихому Дону» в виде «скромной лестницы, приставленной к величественному зданию», перефразируя Гоголя, — исходя из этой диаграммы, не остается сомнения в том, что Крюков, с его высокой степенью повторяемости словарного запаса, находится внизу лестницы. И нет никаких оснований предполагать, что он сможет когда-либо подняться выше. Взгляд на диаграмму 1.11 показывает, что К, I не имеет точек соприкосновения с тремя анализируемыми частями романа, тогда как К, II имеет лишь отдельные точки соприкосновения со второй частью. Шолохов, напротив, демонстрирует точки соприкосновения даже в своих первых рассказах (Ш, I), а когда он начинает писать первую книгу «Поднятой целины» (Ш, II), то демонстрирует ту же низкую повторяемость и то же богатство словарного запаса, что и несколькими годами ранее, когда писал «Тихий Дон»." Увы, и здесь авторы видят лишь то, что хотят видеть. Они не хотят видеть, что Крюков 1914 г. "не имеет точек соприкосновения с самим собой 1907 г., но приближается к "Донским рассказам". Что развитие стиля Крюкова идет в направлении увеличения числа словоформ и при сохранении этой динамики Крюков 1917-1920 гг вполне может иметь характеристики, близкие к ТД . Что Шолохов "Донских рассказов" почти не имеет точек соприкосновения с ТД-4. Напомним, что 2-я книга "Поднятой целины" и "Они сражались за Родину" предусмотрительно изъяты авторами из рассмотрения вообще. Остается только догадываться, к каким фантастическим выводам можно было придти, применяя скандинавские методы к полному корпусу текстов Шолохова. (Факт существенного отличия статистических характеристик ПЦ-2 от ТД и Шолохова авторами все же признан, но никаких подробностей не приводится.)

Итак, рекламируемый (в основном дилетантами в области математической статистики) в течение почти 20 лет "математический поиск истины" при первой же мало-мальски серьезной проверке обернулся пшиком - типичная ситуация для работ, призванных обосновать авторство Шолохова.

tikhij-don@narod.ru