Nuevo algoritmo dirigido a la lucha contra la problemUniversity reproducibilidad de la ciencia de Pennsylvania

grandes conjuntos de datos son herramientas importantes de la ciencia moderna. Minería de correlaciones entre millones de piezas de información puede revelar relaciones vitales o predecir resultados futuros, tales como factores de riesgo para una enfermedad o estructuras de los nuevos compuestos químicos.


Estas operaciones mineras no están exentos de riesgos, sin embargo. Los investigadores pueden tener un tiempo difícil contar cuando han descubierto una pepita de la verdad, o lo que es el oro del tonto: una correlación que parece no tener valor predictivo, pero en realidad no lo hace, ya que los resultados sólo de azar.


Un equipo de investigación que sirve de puente academia y la industria ha desarrollado una nueva herramienta de minería de datos que pueden ayudar a contar estas pepitas de diferencia. En un estudio publicado en Science, han diseñado un método para probar hipótesis sucesivamente en el mismo conjunto de datos estadísticos sin comprometer garantías de que sus conclusiones son válidas.


controles existentes sobre este tipo de “análisis de adaptación”, donde las nuevas hipótesis basadas en los resultados de los anteriores se ponen a prueba en varias ocasiones en los mismos datos, sólo pueden ser aplicadas a grandes conjuntos de datos. La adquisición de datos suficientes para ejecutar estos controles puede ser un desafío logístico o de costo prohibitivo.


método de los investigadores podría aumentar el poder del análisis realizado sobre los conjuntos de datos más pequeños, marcando los caminos investigadores pueden llegar a un “falso descubrimiento”, donde un hallazgo parece ser estadísticamente significativa, pero no se puede reproducir en los nuevos datos.


Para cada hipótesis de que necesita pruebas, podría actuar como un freno contra “sobreajuste”, donde las tendencias predictivos sólo se aplican a un determinado conjunto de datos y no se pueden generalizar.


El estudio fue realizado por Cynthia Dwork, distinguido científico de Microsoft Research, Vitaly Feldman, científico investigador en el Centro de Investigación Almaden de IBM, Moritz Hardt, científico investigador de Google, Toniann Pitassi, profesor en el Departamento de Ciencias de la Computación de la Universidad de Toronto, Omer Reingold, investigador principio de Samsung Investigación Latina, y Aaron Roth, profesor asistente en el Departamento de Informática y Ciencias de la Información en la Universidad de Pennsylvania Escuela de Ingeniería y Ciencias Aplicadas.


El análisis adaptativo, donde se combinan múltiples pruebas en un conjunto de datos para aumentar su poder de predicción, es una técnica cada vez más común. También tiene la capacidad de engañar.


Imagine que recibe una llamada anónima a través de correo electrónico, una mañana diciendo que el precio de una determinada acción subirá por el final del día. Al cierre de la sesión, la predicción del informante se confirma y se hace otra predicción. Después de una semana de éxito ininterrumpido, el informante comienza a cobrar por sus habilidades probadas pronóstico.


Muchos se inclina a aceptar la oferta de la informante y caer en esta estafa. Sin el conocimiento de sus víctimas, el informante se inició mediante el envío de predicciones al azar a miles de personas, y sólo repite el proceso con los que terminó siendo correcta por casualidad. Mientras que sólo un puñado de personas podría dejarse para el final de la semana, cada uno ve lo que parece ser una correlación fuertemente predictivo que es en realidad nada más que una serie de monedas de la suerte flips.


De la misma manera, “adaptativa” prueba de muchas hipótesis sobre los mismos datos, cada uno nuevo influenciado por el último, puede hacer que el ruido aleatorio parecer como una señal: lo que se conoce como un falso descubrimiento. Debido a que las correlaciones de estos falsos descubrimientos son idiosincrásicos al conjunto de datos en el que se generaron, no pueden ser reproducidos cuando otros investigadores intentan replicar con nuevos datos.


La forma tradicional para verificar que una señal supuesta no es sólo una coincidencia ruido es utilizar una “retención”. Se trata de un conjunto de datos que se mantiene separado mientras que se analiza la mayor parte de los datos. Hipótesis generadas sobre las correlaciones entre los elementos de los datos por lotes se pueden probar en la retención; existirían relaciones reales en ambos conjuntos, mientras que los falsos no serían capaces de replicarse.


El problema de usar reductos de esa manera es que, por naturaleza, sólo pueden ser reutilizados si cada hipótesis es independiente de la otra. Incluso algunas hipótesis adicionales encadenados fuera otro puede dar lugar rápidamente a falso descubrimiento.


Con este fin, los investigadores desarrollaron una herramienta conocida como una “retención reutilizable.” En lugar de poner a prueba hipótesis sobre la retención establecer directamente, los científicos tendrían que consultar a través de un algoritmo de “diferencialmente privada”.


El “diferente” en su nombre es una referencia a la garantía de que un algoritmo diferente privada hace. Sus análisis deben permanecer funcionalmente idéntica cuando se aplica a dos conjuntos de datos diferentes: una con y otra sin que los datos de un solo individuo. Esto significa que cualquier hallazgo que podría basarse en los valores extremos idiosincrásicas de un conjunto dado desaparecerían cuando se mira a través de una lente de datos privada diferencialmente.


Para probar su algoritmo, los investigadores llevaron a cabo análisis de datos en un conjunto de adaptación manipuladas para que no contenía más que el ruido aleatorio. El conjunto era abstracta, sino que podría ser considerado como una prueba de que 20.000 pacientes en 10.000 variables, tales como variantes en sus genomas, para los que son predictivos del cáncer de pulmón.


Aunque, por su diseño, ninguna de las variables del conjunto son predictivos del cáncer, la reutilización de un reducto ubicado en la forma estándar mostró que 500 de ellos tenían el poder predictivo significativo. Realizando el mismo análisis con la herramienta de retención reutilizable de los investigadores, sin embargo, mostró correctamente la falta de correlaciones significativas.


Un experimento con un segundo conjunto de datos aparejado representa un escenario más realista. Allí, algunas de las variables no tienen poder de predicción, pero el uso tradicional reducto creado una combinación de variables excesivamente sobreestimada con este poder. La herramienta de retención reutilizable identificó correctamente el 20 que tenía verdadera significación estadística.


Más allá de señalar los peligros de sobreajuste accidental, el algoritmo de retención reutilizable podría advertir a los usuarios cuando fueron agotando la validez de un conjunto de datos. Esta es una señal de alerta para lo que se conoce como “p-piratería”, o juegos de azar intencionadamente los datos para obtener un nivel de significación publicable.


La implementación del algoritmo de retención reutilizable permitirá a los científicos para generar más fuertes, los hallazgos más generalizables a partir de pequeñas cantidades de datos.

Leave a Reply

Your email address will not be published. Required fields are marked *