Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Есть ли какие-нибудь наглядные примеры, подтверждающие истинность высказывания "Существуют 3 вида лжи: ложь, наглая ложь и статистика" ?

ОбществоИскусство и культура+2
Настя Сорокина
  ·   · 1,1 K
Статистик, переводчик. Интересуюсь биологией  · 20 мар 2017

Статистика даёт людям, которые в ней не разбираются иллюзию объективности, в этом и кроется её опасность. В статистике огромное количество разнообразных методов и показателей для описания одних и тех же явлений и результат анализа во многом зависит именно от них. Как статистик я знаю, какие из этих методов применить, чтобы искомые значения были больше или меньше, но как честный статистик, я знаю, что мои выводы и оценки должны основываться на максимальном количестве методов. Далеко не все статистики честные.

Теперь к примерам: самый простой - это составление плохих выборок. Слишком маленькие выборки, выборки, в которых все элементы обладают одним признаком - все случаи, когда статистик составляет выборку для анализа так, чтобы получить конкретный результат.

Другой относительно простой способ - обман при помощи среднего значения. Представим: в баре выпивают трое человек. Доход первого 20 000, второго 27 000, а третьего - 38 000. В среднем их доход составит (20 000+27 000+38 000):3=28 333, но тут в бар заходит Билл Гейтс и со средним доходом случается страшное. Для удобства предположим, что его доход составляет 1 000 000. Пересчитываем среднюю: (20 000+27 000+38 000+1 000 000):4=271 250. Получается, с точки зрения статистики, появление в баре Билла Гейтса неплохо подправило доходы остальных посетителей. А всё дело в том, что средняя чувствительна к аномальным (как у Гейтса) значениям. Честный статистик в таком случае считает медиану - это такое значение, которое разделяет все значения выборки пополам. В баре с Биллом Гейтсом она составит (27 000+38 000):2=32 500, что гораздо более прилично. Вот и первый способ обманывать ни разу не соврав - показывайте только среднюю или только медиану, если хотите скрыть реальные доходы или же скрыть неравенство.

Продолжим примером, который подходит под определение bad science - плохой науки. Корреляция это когда изменение значений одной или нескольких величин сопровождается систематическим изменением другой величины. Тут важно подчеркнуть, что корреляция не отражает, какая из величин оказывает влияние на остальные, корреляция только выявляет и оценивает силу связи. В связи с этим наш первый герой - ложные корреляции, которые возникают оттого, что иногда события просто разворачиваются сходным образом. Есть даже сайт, на котором собирают самые забавные ложные корреляции, например потребление сыра коррелирует с количеством людей, которые умерли, запутавшись в простынях при этом потребление моцареллы можно связать с количеством докторских степей. Эти примеры очевидны оттого, что абсурдны, в прочих случаях для выявления ложных короеляций применяют специальные методы, но это делают далеко не все. На следующем кругу обмана корреляцию выдают за зависимость. Это когда мы говорим, что люди запутываются в простынях из-за того, что едят сыр, но если вы готовы рискнуть этим и каждый день есть моцареллу, вы точно получите докторскую степень.

Вот такие дела творятся в статистике. И это далеко не все способы обмана. Однако это не значит, что статистика используется только для того, чтобы дурить людей, хотя бы потому, что большую часть этих хитростей легко выявить при повторном обследовании.