Кто же автор «Сказки о царе Салтане»
Два способа — дюжинный и недюжинный — по скрепам распознать, какой текст написан не его автором, или О процедуре текстовой атрибуции с проверкой по полному и укороченному спискам частот употребления словечек, которые автор предпочитает.
...Есть правило, «излишняя строгость изложения ведет к интеллектуальным судорогам». Не помню, кто сказал… (В. М. Афанасьев)
Вопрос о точных методах установления авторства начинает интересовать широкую аудиторию в основном в те моменты, когда начинается очередная волна споров об авторстве «Тихого Дона». Однако эта проблема интересна и вне зависимости от таких злободневных дискуссий. Уже около десяти лет — сначала в научноисследовательском информационном центре Московского университета, а затем в Институте русского языка им. В. В. Виноградова РАН — пытаются выяснить, возможно ли выделить в тексте следы (слова, словечки или целые словосочетания), позволяющие установить, кто был реальным автором данного текста, и которые, следовательно, позволят выявить плагиат, если таковой имел место.
От «мелкой сволочи» к «скрепам»
Идеальным решением задачи в целом было бы установление универсальной суммы признаков, по которой всякий автор определялся бы однозначно: плюс, плюс, минус, минус, плюс…— ага, понятно, это Набоков, а вот это — Бунин, Горький, Мельников-Печерский и т. д. Но один автор предпочитает одно, другой — другое, а третий, как говорится, вообще — свиной хрящик. Приходится устанавливать все элементы, которые могут быть как-либо значимы при «опознании» автора. И таких элементов, или малых слов (в науке о языке их обычно относят к средствам сочинения или подчинения, гениальный Александр Пушкин когда-то их — предлоги да наречья — окрестил «мелкой сволочью», ну а мы называем, отчасти в шутку, но все-таки на полном серьезе — скрепами (или текстовыми скрепами), не имея, естественно, в виду идеологических составляющих данного понятия) сейчас в нашем списке значится около 900.
Полная проверка или частичная?
Сначала о недюжинной, то есть полной процедуре проверки сомнительного текста Х — по всем скрепам. Из текста извлекаются вхождения в него всех скреп и подсчитываются их частоты, после чего эти частоты сравниваются — со средними частотами у всех авторов, которые уже обсчитаны в нашей базе (таковых авторов, или идиостилей, более 70): у кого окажется наиболее сходная картина по частотам употребления большинства скреп, тот и становится наиболее вероятным претендентом на авторство. Если это титульный автор, то — слава Богу, если же нет, то возникает повод задуматься: а был ли мальчик?
Ну, есть еще одна, упрощенная, или дюжинная процедура: она состоит в том, что берутся только 12 наиболее часто употребляемых в тексте Х (но также и у всех авторов в нашей базе) скреп, и эти дюжины сравниваются между собой. У кого совпадение наиболее богато, тот (идиостиль, или его «хозяин») и становится вероятным автором текста Х.
Результаты обеих процедур несколько расходятся между собой, что создает дополнительную интригу.
Концентрация признаков
Вообще, по насыщенности текста скрепами (или же по их концентрации) самый «скрепоносный» писатель в русской литературе — Федор Достоевский (что неудивительно), по крайней мере в сравнении с остальными более чем семью десятками авторов XIX–XX веков, чьи тексты нами обсчитаны. Вот пример вполне ординарного для его текста нагромождения скреп разного рода, из романа «Подросток», 1875 год. Кстати, это и есть самый достоевский текст, то есть наиболее похожий на его идиостиль, по нашим подсчетам (в примере ниже каждая из скреп выделена подчеркиванием):
При имении находилась тогда тетушка; то есть она мне не тетушка, а сама помещица; но, не знаю почему, все всю жизнь ее звали тетушкой, не только моей, но и вообще, равно как и в семействе Версилова, которому она чуть ли и в самом деле не сродни.
Всего в одном предложении — целая чертова дюжина скреп (не считая повторяющихся): а именно союзы ТОГДА, ТО ЕСТЬ и НО; союзное слово ПОЧЕМУ и вводное ВООБЩЕ; противительные конструкции НЕ (…), А и НЕ ТОЛЬКО (…), НО; сравнительный оборот РАВНО КАК И; местоимение ВЕСЬ и вопросительное местоимение (или относительное слово) КОТОРЫЙ; отрицание НЕ; частицы И ЧУТЬ ЛИ (…) НЕ.