Tres amenazas del P-valor

Los médicos saben cuán crucial es, para estimar una probabilidad, definir bien el denominador de una proporción. No es lo mismo la probabilidad de que un católico sea Papa que la de que un Papa sea católico [1]. De forma similar, no es lo mismo la probabilidad de que un enfermo dé positivo, que la de que un caso que ha dado positivo esté enfermo: aquella es conocida como la sensibilidad de una prueba diagnóstica, la segunda como valor predictivo positivo. El valor de P muestra analogías con la probabilidad de un falso positivo: asumiendo cierta una hipótesis H —el paciente está sano—, es la probabilidad de obtener un resultado tan significativo o más que el observado —dar positivo en la prueba diagnóstica.

Sin embargo, la replicabilidad de un experimento tiene más que ver con las chances de una hipótesis dado un resultado: la situación inversa. La replicabilidad es fundamental para la ciencia. La replicabilidad será mucho mayor cuanto mayor sea: (1) la base teórica y empírica para establecer la hipótesis; (2) la potencia del estudio; y (3) el control de la multiplicidad de pruebas.

Usaremos como analogía las pruebas diagnósticas. Esta aplicación permite obtener los valores diagnósticos de los resultados de una prueba. Por ejemplo, supongamos que la sensibilidad y la especificidad alcanzan el 90% y que la prevalencia de la enfermedad es también del 90% entre los que son enviados a hacer la prueba. En este supuesto, entre los casos que den positivo, 988 de cada mil padecen la condición estudiada. En cambio, para un clínico indolente, que apenas cribara quién se somete a las pruebas, la prevalencia bajaría sensiblemente, pongamos al 10%. En este caso, el valor diagnóstico de un positivo, para idénticas sensibilidad y especificidad, sería tan sólo de 50%. La prueba funciona bien, ya que ha ayudado a seleccionar pacientes, aumentando del 10 al 50% la probabilidad de estar enfermo, pero la confianza final no es en absoluto satisfactoria. El resultado de un cribado diagnóstico, sin patología previa, debe ser interpretado con prudencia.

¿Qué ocurre con la credibilidad que merece un ensayo experimental?. Ahora usaremos esta aplicación. Supongamos que el desarrollo completo de una intervención ha incluido estudios piloto, o de fase II, fase IIIa, “proof of concept”, “feasibility”, según la terminología y ya se dispone de una sólida hipótesis sobre su eficacia, por la que se ha determinado el tamaño muestral necesario para garantizar, por ejemplo, una potencia del 80% preservando un 5% unilateral de riesgo α para detectar determinado efecto. Pongamos que estos estudios previos han permitido seleccionar intervenciones de tal forma que 3 de cada 4 son realmente eficaces (expectativa de efecto real: 75%). En esta situación, si el experimento alcanza la significación estadística, el aplicativo permite obtener que la confianza en un resultado positivo será del 98%, una cifra excelente para la proporción de efectos reales entre los resultados significativos.

Tres formas en las que podemos comprometer este buen resultado:

  • En primer lugar, pongamos que el equipo investigador no ha realizado un buen desarrollo previo de su hipótesis y pretenden ir directamente al estudio confirmatorio sobre el que pivotarán decisiones posteriores: la expectativa del efecto baja a un 10%. En este caso, la confianza en un resultado positivo bajaría al 64%.
  • En segundo lugar, si no se dispone de muchos casos, se tendrá poca potencia. Con una potencia del 30%, la confianza en un resultado positivo bajaría al 40% siendo más probable que este resultado significativo provenga en realidad de una intervención sin efecto.
  • Finalmente, si un investigador decide hacer muchas pruebas de hipótesis sobre distintas variables o momentos en el tiempo en que se miden, está multiplicidad descontrolará el riesgo α. Por ejemplo, si el investigador calcula 14 valores de P en sendas pruebas independientes, la probabilidad de que simplemente por azar al menos 1 sea significativa es ligeramente mayor al 50%. El aplicativo muestra que en este caso la confianza en un resultado significativo bajaría hasta el 6.2%.

Así, sin (1) un buen avance de la Investigación al Desarrollo (expectativa del efecto del 10%); (2) un buen diseño y tamaño muestral (30% de potencia); y (3) un adecuado control del riesgo α (50%), sólo 6 de cada 100 intervenciones significativas tienen detrás un efecto real [2]

Puedes ver el siguiente vídeo para más información:

Referencias

  1. Senn S. Invalid inversion. Significance. 10(2): 40-42 (2013)

Cortes, J., Casals, M., Langohr, M., et al. Importance of statistical power and hypothesis in P value. Med. Clin. 146(4): 178–181 (2016)

27/09/2019

0 responses on "Tres amenazas del P-valor"

    Deja un mensaje

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    Bioestadística para no estadísticos. Universidad Politécnica de Catalunya
    Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Ver
    Privacidad