«Искусство статистики. Как находить ответы в данных»
Человек по своей природе плохо оперирует вероятностям и большими числами. Мы предпочитаем обращать внимание на информацию, которая кажется нам наиболее интересной, и игнорировать все остальное. И хотя люди всегда собирали и систематизировали данные, извлечь действительную пользу из обширных массивов информации удалось только благодаря теории вероятностей, открытой в середине XVII века и положившей начало современной статистике. С начала Нового времени статистика является важным инструментом научного познания мира, который позволил совершить значимые открытия в астрономии, биологии и медицине. В мире больших данных базовое понимание статистики и вовсе кажется необходимым. В книге «Искусство статистики. Как находить ответы в данных» (издательство «Манн, Иванов и Фербер»), переведенной на русский язык Евгением Поникаровым, британский статистик Дэвид Шпигельхалтер рассказывает о ключевых принципах и показателях, которые помогают извлекать из данных знания о мире и отвечать на вопросы о нем. N + 1 предлагает своим читателям ознакомиться с отрывком, посвященным тому, как на основании множества данных сделать правильный вывод.
Выводы из данных — процесс «индуктивного умозаключения»
В предыдущих главах предполагалось, что у вас есть какая-то проблема, вы получаете какие-то данные, смотрите на них и находите их сводные характеристики. Иногда ответ уже заключен в подсчете, измерении или описании. Например, если мы хотим знать, сколько людей в прошлом году обращалось в службу экстренной медицинской помощи, то данные дадут нам ответ.
Однако часто вопрос выходит за рамки обычного описания данных: мы стремимся узнать нечто большее, чем просто набор имеющихся у нас наблюдений, например, хотим делать прогнозы (что будет происходить с показателями в следующем году?) или сообщить о причинах (почему цифры растут?)
Прежде чем приступить к обобщению на основе данных, чтобы узнать что-то о мире за пределами непосредственных наблюдений, нужно задать себе вопрос: «Узнать о чем?». А это требует обращения к сложной идее индуктивного умозаключения.
Многие люди имеют некоторое смутное представление о дедукции благодаря Шерлоку Холмсу, использовавшему ее при поиске преступников*. В реальной жизни дедукция — это процесс применения правил логики для перехода от общего к частному. Если согласно законодательству в стране установлено правостороннее движение, то мы можем прийти к дедуктивному заключению, что в любой ситуации лучше ехать по правой стороне. Индукция работает наоборот: на основании частных случаев предпринимаются попытки сделать общие заключения. Например, мы не знаем, принято ли в каком-то сообществе целовать подруг в щеку, и пробуем это выяснить, наблюдая, целуют ли женщины друг друга один, два, три раза или не целуют вовсе. Принципиальное отличие индукции от дедукции состоит в том, что дедукция дает истинные заключения, а индукция — в общем случае нет**.
* Артур Конан Дойль ошибался: методы Холмса не имели ничего общего с дедукцией. Его рассуждения — абдукция. Дедукция — это переход от общих посылок к частным следствиям. Классический пример: 1) все люди смертны; 2) Сократ — человек; 3) следовательно, Сократ смертен. Дедукция гарантирует истинность заключения, если истинными были исходные посылки. При абдукции у нас есть заключение, а мы восстанавливаем какую-нибудь посылку. Например, если к нам летит футбольный мяч, мы делаем абдуктивное заключение, что по мячу кто-нибудь ударил. Или пусть у нас есть первая посылка «Все люди смертны» и заключение «Сократ смертен». Тогда мы предполагаем, что вторая посылка — «Сократ — человек». Абдукция вовсе не гарантирует истинности нашего заключения (например, мячом могли выстрелить из специальной пушки, да и если на первой странице детектива какого-то человека застали над трупом с пистолетом, то, скорее всего, окажется, что он как раз и не убийца). Однако абдуктивные рассуждения дают определенный ориентир, позволяя выдвигать разумные гипотезы. Выдающийся логик Чарльз Пирс полагал, что дедукция, индукция и абдукция — три основных вида элементарных рассуждений. Прим. пер.
**Индукция может быть полной и неполной. Полная индукция гарантирует истинность заключения, неполная — нет. Вот пример полной индукции. Предположим, в классе 30 человек, и все сдавали экзамен. Если у вас есть 30 посылок вида «Александр сдал экзамен», «Мария сдала экзамен» и аналогичные утверждения для всех остальных учеников, то вы можете сделать вывод: «Весь класс сдал экзамен», и это будет истинным заключением. Однако в большинстве случаев индукция является неполной — вам известно, что какой-то признак есть только у части элементов множества, и вы делаете вывод, что он имеется у всех его элементов. В этом случае истинность заключения не гарантируется. Например, если у вас есть информация только о 25 школьниках, сдавших экзамен, то вы можете предположить, что его сдали все 30 учеников, но это заключение уже носит вероятностный характер. Прим. пер.