• LOGIN
  • No hay productos en el carrito.

¿Qué es exactamente el p-valor?

El valor de P era considerado clave en ciencia: Si P es menor que 0.05, un artículo era científico. Pero hace muy poco, la asociación Estadística Americana ha dicho que mejor no usar los valores de P. En este vídeo explicamos porqué. Y porqué sí que tiene sentido seguir usando el contraste de hipótesis, con potencia, alfa, beta y soporte de H previamente establecidos.

Transcripción

El pasado 16 de abril, con Rosa Lamarca, Alex Sánchez, Xavier López y Montse Guillem debatimos sobre el valor de P. Resumo, en castellano, mi intervención.

Para hablar de qué es exactamente el valor de P, repasaré los conceptos de probabilidad condicionada, de potencia, y de sustento de la hipótesis. Distinguiré entre el concepto de evidencia de Fisher y la propuesta de Neyman-Pearson para decidir. Comentaré un posible uso abusivo de la P. Y qué alternativa tenemos para considerar la incertidumbre de un estudio irrepetible. Y terminaré cuestionando si todo esto ha tenido alguna influencia en la falta de reproducibilidad de los artículos científicos.

Empecemos repasando el concepto de probabilidad condicionada.

Supongamos que jugamos a futbol con estos amigos. De los que 6 de 10, un 60%, llevan gafas. Y 4 tienen el cabello largo, un 40%. Queremos saber qué información aporta cada variable sobre la otra.

Si lo que sé es que llevan gafas, ¿qué probabilidad hay de llevar el pelo largo? De los 6 con gafas, 3 tienen el pelo largo, un 50%.

Y si sé que tienen el cabello largo, ¿cuál es la probabilidad de llevar gafas? De los 4 con el cabello largo, 3 llevan gafas, un 75%. Son números distintos. Tienen el mismo numerador, pero diferente denominador.

Con la notación de la probabilidad condicionada los representaremos de forma diferente: después de la barra vertical, lo que sabemos. Y antes, lo que nos preguntamos.

Este ejemplo de Stephen Senn, la probabilidad de que un católico llegue a papa es casi cero; pero la de que el Papa sea católico es del 100%.

Y llegamos ahora a nuestro objetivo.

La declaración de la American Statistical Association, en su segundo principio, dice que el P valor no habla de la probabilidad de que una hipótesis sea cierta. Hay dos probabilidades condicionadas que se confunden. Veámoslo.

En esta tabla, las filas representan los escenarios desconocidos, las hipótesis; mientras que las columnas, los resultados que, convenientemente dicotomizados, conducen a dos acciones distintas.

Una cosa es la probabilidad de la columna dada la fila; y otra, la de la fila dada la columna. La primera cuantifica la probabilidad de tomar una decisión equivocada si la hipótesis nula fuera cierta. La segunda, la probabilidad de que la hipótesis nula sea cierta una vez tomada la decisión. Una vez más, el denominador ha cambiado.

El segundo punto de la declaración remarca que esta segunda probabilidad condicionada no es el P valor.

Recordemos primero que los procesos para decidir y para obtener evidencia no son iguales.

En este artículo, Hubard y Bayarri nos dicen que P y alfa son distintas medidas: de la misma forma que nunca diremos que 80 Kgs es menos que 180 cms, no debemos decir “P es menor que alfa”.

Según estos autores, Fisher quería contestar una pregunta de conocimiento, de Ciencia, “¿qué sé?”; mientras que Neyman y Pearson querían ayudar a decidir, acotando los posibles riesgos de optar por acciones erróneas.

Resaltemos que la decisión reclama un punto de corte a partir del cual actuaremos de otra manera. Por ejemplo, si un enfermo supera tantos puntos en cierta escala, lo llevaremos al quirófano. Este punto de corte marca el umbral a partir del cual cambia la decisión.

Pero el conocimiento no lo requiere: la evidencia puede ser un continuo, sin destacar ningún límite, ni 0.05, ni ningún otro. Simplemente, cuando menor es la P, más evidencia en contra de H. Lo que implica una gran limitación del valor P: absuelto no implica inocente.

O dicho más formalmente: ausencia de pruebas no implica prueba de ausencia.

Veamos ahora la potencia, o probabilidad de obtener un resultado significativo si fuera cierta la hipótesis alternativa de interés; y el soporte en favor de H o sustento de la evidencia acumulada hasta el momento.

Y vamos a verlos con la aplicación informática de esta referencia, a la que pueden acceder los oyentes.

Este artículo muestra cómo alfa, potencia y soporte influyen en la credibilidad posterior, que definimos como la probabilidad de que sea real el efecto una vez observado un resultado significativo.

La columna de la izquierda, en azul, indica efectos reales; mientras que la de la derecha, en rosa, los que son falsos.

En este ejemplo ponemos valores altos del soporte y de la potencia, pero mantenemos alfa al tradicional 5%.

Como la expectativa del efecto es alta (75%), la columna izquierda es 3 veces más gruesa.

Además, la parte superior del gráfico muestra los resultados estadísticamente significativos; mientras que la parte inferior, los que no lo son.

Como la potencia es alta (80%), la mayoría de los resultados de la primera columna son significativos, arriba. Y como alfa es del 5%, el 95% de los resultados de la columna de la derechaserán no significativos, abajo.

Así, cuando reunimos todos los efectos significativos en el cociente inferior , vemos que el 98% proviene de efectos reales. Bien, muy bien. El contraste de hipótesis, con soporte y potencia, funciona.

En este contra-ejemplo, bajamos el soporte al 20% y la potencia al 10% aunque dejamos el límite de significación en el 5%. Ahora, los efectos reales dentro de los resultados significativos caen hasta una tercera parte: 2 de cada 3 P valores vendrán de situaciones donde los efectos no son reales. Es decir, sin soporte y sin potencia, el P valor a solas, se convierte en una lotería.

Las agencias reguladoras lo saben. La figura representa los estudios previos que dan soporte y requieren las autoridades para autorizar un fármaco.

¿Hemos abusado del P valor? ¿Hacemos pruebas de significación sin potencia o sin soporte? Ustedes dirán.

Y sí, tenemos alternativas al valor de P.

La guía CONSORT para reportar los resultados de estudios de intervención, publicada el siglo pasado, pide reportar la magnitud del efecto acompañada de intervalos de compatibilidad. Y pide no reportar «P huérfanas».

Recordemos que el principio fundamental de la Ciencia es la reproducibilidad.

Pero en el campo de la Medicina, Paul Glasziou y el creador de Cochrane, Ian Chalmers, han estimado que el 85% de la inversión en investigación no termina en estudios replicables.

¿Ha contribuido a este derroche el uso de una medida tan críptica como el valor P?

Esto parecen creer l los editores de Basic and Applied Social Psychology, que prohibieron los valores de P en su revista.

En resumen, no haga Pes sin sustento ni potencia. Y evite las P huérfanas. Pero digámoslo en positivo: 1º, añada intervalos de incertidumbre; 2º, ponga medidas del grado de obtención de su objetivo: p.e. si quiere intervenir diga el tamaño del efecto. Y 3º, siga las guías de publicación y, como premio, aumentará su impacto.

Gracias al profesor Joan Guardia, a la Universidad de Barcelona, ​​al ICE y al instituto de desarrollo profesional por la invitación; a todos Vds. por su atención; y a mis amigos, al profesor José Antonio González, por el Shinny; y al dibujante Enrique Ventura, por sus ilustraciones.

Un Goya anciano tituló su autorretrato: «Aun aprendo». Disculpas a todos los que hemos explicado el valor de P sin haber insistido en sus limitaciones.

01/05/2020

0 responses on "¿Qué es exactamente el p-valor?"

Deja un mensaje

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Bioestadística para no estadísticos. Universidad Politécnica de Catalunya