15 falacias y sesgos del manejo de datos

Para considerar a la hora de hacer un análisis del tema

0

El manejo de los datos para realizar investigaciones y contrastar hipótesis es un tema delicado. La manipulación o ajuste de la data para obtener resultados específicos va en contra de los principios de investigación y del método científico, además, da lugar a afirmaciones basadas en estudios realizados de manera sesgada.

Por ello, las personas que realicen estudios de esta naturaleza deben ser imparciales en cuanto al resultado que se espera. En este artículo nombraremos 15 falacias y sesgos que tiene la data.

Falacias y sesgos de los datos

 

1. Selección a conveniencia: Escoger solo los resultados de la investigación que se ajusten a lo que se necesita o se desea demostrar y dejar por fuera a los resultados que vayan en contra. El problema de hacer esto es que se tiene un sesgo, por tanto, los resultados que se muestren, a pesar de ser verdaderos, no mostraran la imagen completa.

2. Usar siempre la misma data: El investigador usara la misma información para contrastar distintas hipótesis. Sin embargo, al hacer esto, podrán aparecer correlaciones que responden al uso de la misma data y al comportamiento real de las variables. Correlaciones erradas podrán llevar a conclusiones y toma de decisiones de manera errónea.

3. Sesgos de supervivencia: Usar data incompleta puede ser un error grave al momento de realizar una investigación, incluso si esta ha supera un proceso de depuración y selección. El problema es que el investigador podría verse forzado a usar elementos de la data para estimar el comportamiento de otras variables que no necesariamente responden a la data que posee. Si la data no permite aproximarse al comportamiento de real de la variable, entonces esta está dañada o incompleta.

4. Efecto cobra: Iniciar una investigación con un resultado en mente puede llevar a que se cometan errores, debido a la parcialidad con la que se afronta la investigación. Esto se conoce como efecto cobra, querer conseguir algo puede acarrear otras consecuencias que empeoren la situación en vez de mejorarla, comprometiendo el desarrollo del proyecto.

5. Falsa causalidad: Cuando se estudia la data sin entender bien lo que representan los valores de cada variable, se pueden cometer algunos errores. Podría llegarse a establecer una relación de causalidad (el cambio en una variable genera un impacto sobre otra) entre dos variables que no están relacionadas directamente pero que responden a otros factores.

6. Manipular la selección: La data suele dividirse en distintos grupos cuando se realiza una investigación (nivel de ingreso por estrato social, por ejemplo), un investigador puede ajustar estos límites según le convenga para obtener el resultado que desea y no el que realmente debería obtener.

7. Sesgo en el muestreo: Hacer una investigación estudiando toda la población es muy difícil en muchos casos, por ello, se emplea un muestreo para poder obtener una imagen más pequeña de la población. La muestra debe ser representativa, es decir, debe contar con las mismas características de la población para que no exista sesgo de muestreo.

8. Falacia de Montecarlo: Ocurre cuando se cree que los acontecimientos previos condicionan o determinan lo que pueda ocurrir. Sin embargo, esto no cambia la probabilidad teórica de que ocurra un evento. Por ejemplo, que haya salido un numero x al lanzar el dado en muchas ocasiones no hace más probable que este sea el próximo en salir

9. Efecto Hawthorne: La aparición de este efecto hace que el comportamiento de los individuos estudiados cambie cuando saben que están siendo observados. Esto cambia los resultados y la investigación, pese a ser metodológicamente correcta, podrá arrojar un resultado erróneo

10. Regresión hacia la media: Existe la creencia de que cuando un evento extremo ocurre, por ejemplo, una desviación abrupta de una variable con respecto a su media (valor promedio), este deberá regresar con el tiempo a su valor. El problema al asumir esto es que se está asumiendo un comportamiento estacionario y no se consideran los posibles cambios en tendencia.

11. Paradoja de Simpson: Esta paradoja hace que se puedan observar tendencias similares entre variables al estudiarlas por separado, pero, al estudiar la data como agregado, esta tendencia desaparece. Podría hacer que se saquen conclusiones erradas en cuanto a la tendencia y correlación de las variables

12. Falacia de Mcnamara: Consiste en confiar solo en los valores que muestra la data sin entender el tema que se está estudiando. Caer en esta falacia haría que se deje de lado algunos aspectos clave que no pueden ser cuantificados y que pueden ser los causantes de arrojar datos sesgados

13. Sobreajuste: Crear un modelo diseñado a medida para la data que se recolecto, llegando a dejar a un lado el comportamiento real. Esto hace que el investigador obtenga los resultados que desea pero forzando la metodología del proceso, por tanto, la investigación no será confiable

14. Sesgo de publicación: Investigaciones que sean interesantes tienen más probabilidad de ser publicadas, por ello, los investigadores podrían buscar obtener un resultado distinto al esperado o un resultado que cause revuelo, con el fin de lograr la publicación de la investigación.

15. Peligro de usar las métricas de resumen: Emplear solo métricas de resumen puede hacer que se saquen conclusiones erradas al no poder observar la imagen completa del comportamiento de las variables. Por ello, se debe considerar la data cruda como instrumento de trabajo para la investigación y no el resumen.

 

Fuente:

Deja una respuesta

Enviar comentarios sobre la nota. Su dirección de correo electrónico no será publicada. Esta sección no es para realizar consultas ni asesoramiento legal, que debe procurarse abogado/a.