О процедуре текстовой атрибуции

НаукаНаука

Кто же автор «Сказки о царе Салтане»

Два способа — дюжинный и недюжинный — по скрепам распознать, какой текст написан не его автором, или О процедуре текстовой атрибуции с проверкой по полному и укороченному спискам частот употребления словечек, которые автор предпочитает.

Михаил Михеев, доктор филологических наук, ведущий научный сотрудник Лаборатории автоматизированных лексикографических систем. Лев Эрлих, программист, Научно-исследовательский вычислительный центр МГУ имени М. В. Ломоносова

...Есть правило, «излишняя строгость изложения ведет к интеллектуальным судорогам». Не помню, кто сказал… (В. М. Афанасьев)

Вопрос о точных методах установления авторства начинает интересовать широкую аудиторию в основном в те моменты, когда начинается очередная волна споров об авторстве «Тихого Дона». Однако эта проблема интересна и вне зависимости от таких злободневных дискуссий. Уже около десяти лет — сначала в научноисследовательском информационном центре Московского университета, а затем в Институте русского языка им. В. В. Виноградова РАН — пытаются выяснить, возможно ли выделить в тексте следы (слова, словечки или целые словосочетания), позволяющие установить, кто был реальным автором данного текста, и которые, следовательно, позволят выявить плагиат, если таковой имел место.

От «мелкой сволочи» к «скрепам»

Идеальным решением задачи в целом было бы установление универсальной суммы признаков, по которой всякий автор определялся бы однозначно: плюс, плюс, минус, минус, плюс…— ага, понятно, это Набоков, а вот это — Бунин, Горький, Мельников-Печерский и т. д. Но один автор предпочитает одно, другой — другое, а третий, как говорится, вообще — свиной хрящик. Приходится устанавливать все элементы, которые могут быть как-либо значимы при «опознании» автора. И таких элементов, или малых слов (в науке о языке их обычно относят к средствам сочинения или подчинения, гениальный Александр Пушкин когда-то их — предлоги да наречья — окрестил «мелкой сволочью», ну а мы называем, отчасти в шутку, но все-таки на полном серьезе — скрепами (или текстовыми скрепами), не имея, естественно, в виду идеологических составляющих данного понятия) сейчас в нашем списке значится около 900.

Полная проверка или частичная?

Сначала о недюжинной, то есть полной процедуре проверки сомнительного текста Х — по всем скрепам. Из текста извлекаются вхождения в него всех скреп и подсчитываются их частоты, после чего эти частоты сравниваются — со средними частотами у всех авторов, которые уже обсчитаны в нашей базе (таковых авторов, или идиостилей, более 70): у кого окажется наиболее сходная картина по частотам употребления большинства скреп, тот и становится наиболее вероятным претендентом на авторство. Если это титульный автор, то — слава Богу, если же нет, то возникает повод задуматься: а был ли мальчик?

Ну, есть еще одна, упрощенная, или дюжинная процедура: она состоит в том, что берутся только 12 наиболее часто употребляемых в тексте Х (но также и у всех авторов в нашей базе) скреп, и эти дюжины сравниваются между собой. У кого совпадение наиболее богато, тот (идиостиль, или его «хозяин») и становится вероятным автором текста Х.

Результаты обеих процедур несколько расходятся между собой, что создает дополнительную интригу.

Концентрация признаков

Вообще, по насыщенности текста скрепами (или же по их концентрации) самый «скрепоносный» писатель в русской литературе — Федор Достоевский (что неудивительно), по крайней мере в сравнении с остальными более чем семью десятками авторов XIX–XX веков, чьи тексты нами обсчитаны. Вот пример вполне ординарного для его текста нагромождения скреп разного рода, из романа «Подросток», 1875 год. Кстати, это и есть самый достоевский текст, то есть наиболее похожий на его идиостиль, по нашим подсчетам (в примере ниже каждая из скреп выделена подчеркиванием):

При имении находилась тогда тетушка; то есть она мне не тетушка, а сама помещица; но, не знаю почему, все всю жизнь ее звали тетушкой, не только моей, но и вообще, равно как и в семействе Версилова, которому она чуть ли и в самом деле не сродни.

Всего в одном предложении — целая чертова дюжина скреп (не считая повторяющихся): а именно союзы ТОГДА, ТО ЕСТЬ и НО; союзное слово ПОЧЕМУ и вводное ВООБЩЕ; противительные конструкции НЕ (…), А и НЕ ТОЛЬКО (…), НО; сравнительный оборот РАВНО КАК И; местоимение ВЕСЬ и вопросительное местоимение (или относительное слово) КОТОРЫЙ; отрицание НЕ; частицы И ЧУТЬ ЛИ (…) НЕ.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Под знаком рыб Под знаком рыб

Инновационные нейротропные препараты компания «Лактокор» испытывает на рыбах

Наука
Нахимичили на миллиард: как запустить экспресс-доставку реактивов Нахимичили на миллиард: как запустить экспресс-доставку реактивов

Как трое выпускников химфака МГУ создали маркетплейс химических реактивов

Эксперт
Светлое будущее с сердцем свиньи Светлое будущее с сердцем свиньи

Главные тренды науки в 2022 году

Эксперт
Крест в небе Крест в небе

Историк авиации Вадим Михеев — о жизни авиаконструктора Игоря Сикорского

Наука
5 лучших адресов 5 лучших адресов

Отличаются ли приложения для знакомств?

Playboy
На подходе — искусственный разум На подходе — искусственный разум

Смогут ли физики приблизить будущее?

Наука
Герман Эль Классико о клубе «Амкал», медийном футболе и будущем российского спорта Герман Эль Классико о клубе «Амкал», медийном футболе и будущем российского спорта

Почему аудитория профессиональных футбольных клубов переходит к блогерам?

Forbes
Валерий Фокин: «Театр — это высказывание. Он не может радикально изменить ситуацию» Валерий Фокин: «Театр — это высказывание. Он не может радикально изменить ситуацию»

Валерий Фокин о своих новых работах и о роли театра в современном мире

Эксперт
10 русских кумиров иностранных знаменитостей 10 русских кумиров иностранных знаменитостей

Кто из европейских знаменитостей любил русских культурных деятелей?

Maxim
Одежда на будущее Одежда на будущее

Меховой дом Re-Look Furs предлагает новый взгляд на мех

Grazia
Помогают помогать: как российские компании поддерживают благотворительность в 2022 году Помогают помогать: как российские компании поддерживают благотворительность в 2022 году

Как строят свою благотворительную стратегию в кризисные для фондов времена

СНОБ
Ядерный взрыв: что нужно знать об оружии массового поражения и как спастить от удара Ядерный взрыв: что нужно знать об оружии массового поражения и как спастить от удара

Что необходимо знать об оружии массового поражения и как защититься от его удара

TechInsider
«Матриарх» всея Америки: как Крис Дженнер сделала свою семью известной и влиятельной «Матриарх» всея Америки: как Крис Дженнер сделала свою семью известной и влиятельной

В 51 год Крис Дженнер запустила семейное реалити-телешоу

Forbes
Расстрел Петроградской церкви Расстрел Петроградской церкви

100 лет с момента расстрела четырех фигурантов «петроградского процесса»

Наука
«Бояться нечего»: 6 смелых уроков жизни от Илона Маска — узнайте секрет его успеха «Бояться нечего»: 6 смелых уроков жизни от Илона Маска — узнайте секрет его успеха

Почему Илон Маск настолько успешен?

Psychologies
Вариантов осталось немного: как защитить сбережения в финансовом шторме Вариантов осталось немного: как защитить сбережения в финансовом шторме

Самым надежным способом защиты сбережений сейчас можно считать долговые бумаги

Forbes
4 вредные привычки, которые, как подтверждают исследования, медленно разрушают здоровье 4 вредные привычки, которые, как подтверждают исследования, медленно разрушают здоровье

Привычки, которые могут стать смертельными, если их не контролировать

Inc.
Электронные помощники водителя. Насколько они нужны? Электронные помощники водителя. Насколько они нужны?

Что именно в машине требует столько чипов, и нельзя ли без этого обойтись?

Цифровой океан
10 худших и самых редких суперкаров всех времён 10 худших и самых редких суперкаров всех времён

Представляем вам десятку редких суперкаров, которые являются одними из худших

TechInsider
Кофе, помаду, вино, кровь, пот и слезы: как отстирать все? Кофе, помаду, вино, кровь, пот и слезы: как отстирать все?

Вооружись серьезными народными средствами и выведи ненавистные пятна!

Maxim
За одуванчики обидно За одуванчики обидно

У российских фермеров заметно вырос интерес к возделыванию лекарственных трав

Эксперт
10 личностей внутри нас: в чем особенности эволюционных типов поведения 10 личностей внутри нас: в чем особенности эволюционных типов поведения

Каждая из десяти личностей просыпается в тот момент, когда больше всего нужна

Psychologies
10 самых красивых женщин всех времен и народов 10 самых красивых женщин всех времен и народов

Самые известные красавицы от палеолита до наших дней

Maxim
Как общаться с инспекторами ГИБДД, что говорить нельзя: советы сотрудника Как общаться с инспекторами ГИБДД, что говорить нельзя: советы сотрудника

Какие вопросы не стоит задавать сотрудникам ГИБДД при остановке?

РБК
Как поставить пароль на компьютер: несколько способов для разных ОС Как поставить пароль на компьютер: несколько способов для разных ОС

Как поставить пароль на компьютер с разными версиями Windows

CHIP
Почему в XVII веке девушек на портретах писали с обнаженной грудью? Почему в XVII веке девушек на портретах писали с обнаженной грудью?

Что в XVII веке значила обнаженная женская грудь?

Maxim
Выбросить нельзя использовать Выбросить нельзя использовать

Как снизить объемы уничтожения просроченных продуктов питания

Агроинвестор
В счастливое будущее без хлама: 7 вещей, от которых вам следует избавиться перед Новым годом В счастливое будущее без хлама: 7 вещей, от которых вам следует избавиться перед Новым годом

Избавившись от хлама, вы освободите место для более нужных и новых вещей!

TechInsider
Со страшной женской силой Со страшной женской силой

Чем Безумная Грета Брейгеля напугала ад

Weekend
Коридор затмений предвещает беду: 5 главных мифов об астрономическом явлении Коридор затмений предвещает беду: 5 главных мифов об астрономическом явлении

Несет ли беду солнечное затмение?

Psychologies
Открыть в приложении