|
Понравилась статья? Поделитесь с друзьями:
|
|
|
|
|
|
|
Рубрику ведет
Илья КАШНИЦКИЙ
|
Guys, it's time to stop using 'statistical significance'
as the mark of important research. P-values don't mean what you
think they mean
Guys, it's time to stop using 'statistical significance'
as the mark of important research.
P-values don't mean what you think they mean.
|
На днях Американская Статистическая Ассоциация (American
Statistical Association) впервые за свою 177-летнюю историю опубликовала
подробную инструкцию о том, как следует использовать классическое
тестирование гипотез на статистическую значимость. В документе приводятся
наиболее частые примеры ошибочной трактовки результатов подобного
тестирования.
Проблема в том, что подавляющее большинство исследований
опирается на тест статистической значимости гипотез как на единственный
и вполне надежный способ установления зависимости между наблюдаемыми
явлениями. Однако наличие корреляции, пусть и статистически значимой,
не гарантирует ни смысловой нагрузки корреляции, ни значительного
эффекта взаимосвязи. В итоге распространенность данного теста в
совокупности с распространенностью ошибочных трактовок его результатов
приводит к публикации значительного количества необоснованных или
недостаточно обоснованных выводов и суждений. Кроме того, искусственный
и крайне субъективный 95-процентный барьер доверительного интервала
отсекает значительную часть любопытных результатов, которые не могут
быть опубликованы из-за засилья р<0,05 стереотипа. Надо ли говорить
о том, что наличие жестко определенного барьера соблазняет некоторых
исследователей "допросить данные с пристрастием", чтобы
получить заветные значения ниже пяти сотых.
Статистики призывают использовать более изощренные методы
для статистически обоснованного установления взаимосвязи или хотя
бы не делать наиболее распространенных ошибок. О чем нам могут и
не могут сообщить p-значения в шести пунктах по мнению American
Statistical Association:
- P-значения могут указывать на несовместимость данных
в рамках статистической модели.
- P-значения не измеряют вероятность того, что проверяемая
гипотеза окажется верной, равно как и вероятность того, что данные
сгенерированы случайным процессом.
- Научные выводы и предлагаемые меры не должны определяться
лишь попаданием р-значения в субъективно указанный интервал.
- Полноценные логические выводы должны быть подтверждены
абсолютно прозрачным анализом.
- Р-значение, или статистическая значимость, не измеряет
размер наблюдаемого эффекта или важность результата.
- Само по себе р-значение не является хорошим измерителем
статистической модели или гипотезы.
|