Incertidumbre, Errores, y Confiabilidad | Process of Science

Tabla de Contenido

Resaltar términos del glosario

Active el resaltado de términos del glosario para identificar fácilmente los términos clave dentro del módulo. Una vez resaltados, puede hacer clic en estos términos para ver sus definiciones.

Mostrar anotaciones NGSS

Active las anotaciones NGSS para identificar fácilmente los estándares NGSS dentro del módulo. Una vez resaltados, puede hacer clic en ellos para ver estos estándares.

¿Sabías que...?

¿Sabia usted de que cuanto científicos utilizan la palabra "incertidumbre" no significa que están inseguros acerca de sus resultados de investigación? Así mismo, cuando científicos hablan acerca del "error", no se refieren a que su investigación esta mala. Los científicos miden el error y lo reportan junto con sus encuentros.

Conceptos clave

La incertidumbre es una estimación cuantitativa del error que está presente en todos los datos; todas las medidas contienen alguna incertidumbre generada a través del error sistemático y o del error común.
Reconocer la incertidumbre de los datos es un componente importante en la presentación de los resultados de la investigación científica.
La incertidumbre es malentendida comúnmente como que significa que los científicos no están seguros de sus resultados, pero el término especifica el grado por el cual los científicos sí están seguros de sus datos.
La cuidadosa metodología puede reducir la incertidumbre al correr el error sistemático y minimizar el error aleatorio. Sin embargo, la incertidumbre nunca puede ser reducida a cero.

Términos que usted debe saber

El deporte olímpico biatlón (Figural 1) es una carrera de esquí de 20 km a campo traviesa, donde los atletas paran en cuatro ocasiones para tirar al blanco balas de 0.57 cm de diámetro, con un rifle calibre .22. El deporte no sólo requiere una gran resistencia, sino de una excepcional precisión, ya que los atletas tiran en dos ocasiones desde una posición tendida, y en dos ocasiones en posición erguida. Todos los blancos apuntados están a 50 m, pero el tamaño varía para concordar la precisión que se espera de ellos; aquellos a los que se apunta desde una posición tendida son de 4.5 cm de diámetro, mientras que los apuntados desde la más difícil posición erguida son de 11.5 cm diámetro. En ambos casos, sin embargo, el diámetro del blanco es varias veces mayor que el diámetro de la bala en sí - ¿Por qué?

Mientras que la leyenda de Robín Hood, partiendo una flecha con otra es bien conocida, también es poco realista. Los blancos del biatlón son, a propósito, más grandes que las balas que lanzan los atletas para dar cuenta del inherente error e incertidumbre presentes en el tiro al blanco a larga distancia. Hasta el tirador más diestro, no puede dar cuenta de cada una de las variables que influyen en el sendero de la bala, como las repentinas ráfagas de viento o las variaciones de la presión aérea. Desde la posición erguida, el tiro supone una incertidumbre aún mayor, como lo indica el blanco más grande, porque hasta la sencilla expansión y contracción del pecho del atleta al respirar, puede afectar el tiro del rifle.

Categorización de la incertidumbre: exactitud ^ ~ frente a precisión

Las medidas científicas también incorporan variabilidad, y los científicos informan sobre ésta como una incertidumbre, tratando de compartir con otros el nivel de error que encuentran aceptable en sus medidas. Pero la incertidumbre en la ciencia no implica duda como ocurre en el uso cotidiano. La incertidumbre científica es una medida cuantitativa de la variabilidad de los datos. En otras palabras, la incertidumbre en la ciencia se refiere a la idea que todos los datos tienen una gama de valores supuestos y no un valor puntual preciso. Esta incertidumbre puede ser categorizada de dos maneras: certeza y precisión.

La certeza es el término que describe cuán correctamente la medida se aproxima al valor teórico correcto de esa medida, por ejemplo, cuán cerca está la flecha de la diana (Figura 2).
Comparativamente, el término precisión, describe el grado por el cual las medidas individuales varían alrededor de un valor central. Las medidas con una alta precisión son bastante reproducibles, porque las medidas repetidas dan resultados similares fidedignos. Sin embargo pueden o no ser exactos (Figura 2).

Figura 2: Una representación de la exactitud y precisión de tiro al blanco. El blanco a la izquierda representa una buena exactitud ya que las marcas están cerca de la diana, pero mala precisión; mientras que el blanco de la derecha representa buena precisión ya que las marcas están agrupadas estrechamente, pero mala exactitud. — **Figura 2**: Una representación de la exactitud y precisión de tiro al blanco. El blanco a la izquierda representa una buena exactitud ya que las marcas están cerca de la diana, pero mala precisión; mientras que el blanco de la derecha representa buena precisión ya que las marcas están agrupadas estrechamente, pero mala exactitud.

La incertidumbre en la naturaleza

Se le atribuye comúnmente a Karl Pearson, el estadístico y genetista inglés, al final de los años 1800 la primera descripción del concepto de incertidumbre como una medida de variabilidad de los datos (Salsburg, 2001). Antes de Pearson, los científicos se dieron cuenta que las medidas incorporaban variabilidad, pero asumían que esta variabilidad se debía simplemente a un error. Por ejemplo, las medidas orbitales de los planetas alrededor del sol, tomadas por diferentes científicos en diferentes momentos variaba, y se pensaba que esta variabilidad se debía a los errores causados por una instrumentación inadecuada. Ya en el año 1820 el matemático francés Pierre-Simon Laplace discutió un método para cuantificar la distribución del error de las medidas astronómicas causadas por pequeños errores asociados con las limitaciones instrumentales. A medida que la tecnología avanzaba durante los años 1800, los astrónomos se dieron cuenta que podían reducir, pero no eliminar este error en sus medidas.

Pearson adelantó una idea revolucionaria: la incertidumbre, propuso, no se debía simplemente a los límites de la tecnología en la medición de ciertos eventos, sino que era de naturaleza inherente. Hasta la más cuidadosa y rigurosa investigación científica (o cualquier tipo de investigación, de hecho) no puede producir una medida exacta. Al contrario, repetir una investigación produce unas medidas dispersas que están distribuidas alrededor de algún valor central. Esta dispersión estaría causada no solamente por el error, sino también por la variabilidad natural. En otras palabras, las medidas en sí mismas, independientemente de cualquier inexactitud humana o instrumental, exhiben dispersión.

Ya sea el sendero de una flecha, el corazón reposado de un adulto masculino, o la edad de un artefacto histórico, las medidas no tienen valores exactos, sino que siempre exhiben una gama de valores, y esta gama puede ser cuantificada como incertidumbre. Esta incertidumbre puede ser expresada como un campo de la probabilidad para obtener un cierto valor, y las probabilidades están distribuidas alrededor de un valor central o medio.

La incertidumbre y el error en la práctica: la datación por carbono 14

Los arqueólogos, paleontólogos y otros investigadores se han interesado durante mucho tiempo en la datación de objetos y artefactos, en un esfuerzo de comprender su historia y sus usos. Desafortunadamente, los registros escritos son una invención humana relativamente reciente y hay pocos artefactos históricos acompañados de historias escritas precisas.

En la primera mitad del siglo XX, un químico nuclear americano llamado Willard F. Libby, se interesó en el uso del isótopo radioactivo ¹⁴C para datar ciertos objetos. La teoría de la datación por radiocarbono es relativamente sencilla. La mayoría del carbono en la estratosfera de la Tierra está como ¹²C, pero una pequeña cantidad del isótopo ¹⁴C, está producido naturalmente a través del bombardeo del ¹⁴N con rayos cósmicos (W. F. Libby, 1946). A medida que las plantas captan carbono de la atmósfera a través de la respiración, incorporan el ¹⁴C, así como el más abundante ¹²C en sus tejidos. Los animales también toman los isótopos de carbono a través de la comida que comen. Por consiguiente, todos los organismos vivos tienen la misma proporción de isótopos de ¹⁴C y ¹²C en sus cuerpos, que los que tiene la atmósfera.

Al contrario del ¹²C, el ¹⁴C es un isótopo radioactivo que en su producto ¹⁴N está constantemente sufriendo descomposición a un índice conocido. Mientras que un organismo está vivo, toma nuevo ¹⁴C del ambiente y así se mantiene en equilibrio con éste. Cuando los organismos mueren, sin embargo, el carbono en sus tejidos ya no se sustituye, y la cantidad de ¹⁴C disminuye lentamente con el tiempo al descomponerse en ¹⁴N. Por consiguiente, la cantidad del ¹⁴C radioactivo que se conserva en un pedazo de madera o hueso animal puede ser usado para determinar cuándo murió ese organismo. Esencialmente, a mayor tiempo de muerte del organismo, menores niveles de ¹⁴C.

La cantidad de material radioactivo (como el ¹⁴C) en un ejemplar, puede ser cuantificada al contar la cantidad de descomposición que sufre el material en un tiempo específico, usualmente presentados en cuentas por minuto (cpm). Cuando Libby empezó su trabajo sobre el radiocarbono, en los años 1940, la tecnología disponible todavía era muy reciente. El sencillo contador Geiger se inventó recién en 1908 por el científico alemán Hans Wilhelm Geiger, un estudiante de Ernest Rutherford, y no fue perfeccionado hasta 1928, cuando Walther Müller, un alumno de Geiger, mejoró el diseño permitiendo la detección de todos los tipos de radiación. Se le atribuye al mismo Libby la construcción del primer contador Geiger en los Estados Unidos en los años 1930.

Pero se enfrentó a un gran obstáculo al usar el instrumento para medir la radiación del isótopo ¹⁴C de los rayos cósmicos de fondo y de la Tierra que ocurren naturalmente, y la variabilidad asociada con la señal de fondo que podía inundar la pequeña señal del ¹⁴C que él esperaba detectar. En 1949, Libby informó sobre un método para deducir la señal de fondo y la variabilidad. Puso el ejemplar entero y el detector dentro de un tubo cubierto de 2 pulgadas de plomo y 4 pulgadas de hierro (W. F. Libby, Anderson, & Arnold, 1949). De esta manera, Libby y sus colegas redujeron la señal de fondo de 150 cpm a 10 cpm y minimizaron la variabilidad asociada a la señal a "alrededor de 5-10% de error", o menos de 1 cpm.

Libby y sus colegas no usan la palabra error como lo hacemos en el lenguaje común, donde se refiere a un error como el error tipográfico o de baseball. El origen latino de la palabra error (errorem) significa deambular o perdido, y el uso científico de la palabra está más cercano a su significado original. Libby calculó el error asociado a sus medidas al contar la cantidad de eventos de descomposición en el ejemplo, durante una cantidad de tiempo conocida, repitiendo las medidas durante múltiples periodos y usando técnicas estadísticas para cuantificar el error, después (vea nuestro módulo Data: Statistics).

En 1949, Libby, trabajando con su estudiante posdoctoral James Arnold, presentó el primer uso de la datación de radiocarbono para determinar la edad de los fragmentos de madera de sitios arqueológicos alrededor del mundo (Arnold & Libby, 1949). Debido a que el método era nuevo, Arnold y Libby tuvieron cuidado en replicar sus medidas para proveer un estimado detallado de diferentes tipos de error, y compararon los resultados de sus métodos con los ejemplares de una edad conocida como el control (Tabla 1).

En la tabla 1 se ven las actividades especificas para cinco duplicados diferentes de un ejemplar de madera de un abeto Douglas, excavado en el Valle Red Rock. Cada medida individual tiene un error a su derecha, indicado con el signo ±. Arnold y Libby describen estas medidas en su trabajo, planteando que "Los errores citados para una medida de una actividad específica son desviaciones estándares computadas de las estadísticas Poisson del conteo de eventos aleatorios". En otras palabras, el error individual está calculado sobre la base de incertidumbres esperadas, asociadas a la descomposición radioactiva para cada ejemplar.

Error estadístico frente a error sistemático

Tal como se ve en la Tabla 1, en la parte inferior se provee un error general de un valor promedio de una actividad específica (10.99). El error general (0.15) es menor al error individual presentado con cada medida. Esta es una importante característica del cálculo estadístico del error asociado con los datos científicos - a medida que aumentamos el número de medidas para un valor, disminuye la incertidumbre y aumenta la seguridad asociada con la aproximación del valor. El error presentado junto a la actividad específica provee una medida de la precisión del valor y es referido comúnmente como un error estadístico. El error estadístico es lo que Pearson describe como la incertidumbre inherente de la medida. Está causada por las fluctuaciones aleatorias de la descomposición radioactiva y a veces se lo conoce como error aleatorio, ya que el investigador tiene poco control sobre el mismo. El error estadístico no puede ser eliminado, como describió Pearson, pero si puede ser medido y reducido cuando se hacen repetidas observaciones de un evento específico.

En la columna 3 de la tabla 1, Arnold y Libby estiman la edad del ejemplar del abeto Douglas, basándose en la actividad del ¹⁴C como de 1100 años (datando su primera temporada de crecimiento en el año 849 de nuestra era). En la columna 4 de tabla 1, informan de la edad real del abeto Douglas, calculada al contar los tres anillos en el ejemplar como de 1372 años (datando su primera temporada en el año 577 de nuestra era). Al comparar la edad del ¹⁴C al valor teóricamente correcto determinado al contar los tres anillos, Arnold y Libby le permiten al lector evaluar la exactitud de su método, y esto provee la medida de un segundo tipo de error que se encuentra en la ciencia: el error sistemático.

Basándose en sus datos, Arnold y Libby plantean que el "acuerdo entre la predicción y la observación parece ser satisfactorio." Sin embargo, a medida que Libby continuó investigando para establecer el método de la datación por ¹⁴C, Libby empezó a reconocer que la discrepancia entre la datación del radiocarbono y otros métodos era aún mayor para los objetos más antiguos, especialmente aquellos de más de 4000 años (W.F. Libby, 1963). Mientras que las fechas teóricamente correctas en los objetos muy antiguos pueden establecerse por otros medios, como en los ejemplares de los templos de Egipto donde existía un sistema de calendario bien establecido, las edades obtenidas a través de la datación por radiocarbono eran constantemente mayores a las fechas registradas, frecuentemente, tanto como 500 años.

Libby sabía que habría errores estadísticos en estas medidas y había anticipado el uso de la datación por ¹⁴C para calcular una gama de fechas para los objetos. Pero el problema que encontró fue diferente: la datación por ¹⁴C calculaba sistemáticamente las edades que diferían tanto como 500 años de las edades reales de los objetos más antiguos. El error sistemático, como Libby encontró, se debía a una fluctuación desconocida pero no aleatoria, como el sesgo instrumental o una presunción fallida. El método de datación por radiocarbono ha logrado una buena precisión. Los análisis duplicados produjeron fechas separadas entre sí por 150 años, como se puede ver en la Tabla 1; pero inicialmente demostró una certeza mala - la fecha del abeto de Douglas por ¹⁴C era casi 300 años diferente que la edad real, y otros objetos estaban errados como por 500 años.

Al contrario del error estadístico, el error sistemático puede ser compensado, o algunas veces eliminado, si su fuente puede ser identificada. En el caso de la datación por ¹⁴C, se descubrió con posterioridad que la razón del error sistemático era una asunción fallida: Libby y muchos otros científicos habían asumido que el índice de producción del ¹⁴C en la atmósfera se mantenía constante en el tiempo, pero no es así. Al contrario, fluctúa con los cambios en el campo magnético terrestre, la toma de carbón por las plantas y otros factores. Adicionalmente, los niveles radioactivos de ¹⁴C aumentaron a lo largo del siglo XX, debido a que el ensayo de las armas nucleares despidió altos niveles de radiación a la atmósfera.

Desde que Libby publicó su método, los investigadores han recalibrado el método de datación por radiocarbono con la datación por los anillos de los árboles de pinos (Damon et al., 1974) y de corales (Fairbanks et al., 2005) para corregir las fluctuaciones en la producción de ¹⁴C en la atmósfera. Como consecuencia, la precisión y la exactitud de las fechas de radiocarbono han aumentado drásticamente. Por ejemplo, en el año 2000, Xiaohong Wung y sus colegas de la Universidad de Pekín en Beijing, usaron la datación por radiocarbono en los huesos de los marqueses de Jin rescatados de un cementerio en la provincia Shanxi en China (vea la Tabla 2) (Wu et al., 2000). Tal como se puede ver en la Tabla 2, no sólo la precisión de los estimados (que van de los 18 a los 44 años) es más justa que la gama de error de 150 años que Libby presentó sobre los ejemplares de abetos de Douglas, sino que las fechas de radiocarbono concuerdan precisamente con las fechas reportadas de la muerte de Jin (los valores teóricamente correctos) que están dentro de la gama del error estadístico en los tres casos.

La confiabilidad: la presentación de la incertidumbre y el error

Como consecuencia del error, las medidas científicas no se reportan como valores sencillos, sino como gamas o promedios con barras de errores en un gráfico o signos de ± en una tabla. Karl Pearson primero describió los métodos matemáticos para determinar la distribución de la probabilidad de las medidas científicas, y estos métodos forman la base de las aplicaciones estadísticas en la investigación científica (vea nuestro módulo Data: Statistics). Las técnicas estadísticas nos permiten estimar y reportar el error que rodea un valor, después de que se han repetido las medidas de ese valor. Por ejemplo, Libby y Wu reportaron sus estimados como registros de una desviación estándar, alrededor de la medida media, o promedio. La desviación estándar provee una medida del registro de variabilidad de medidas individuales y específicamente, define un registro que contiene un 34.1% de las medidas individuales por encima del valor medio y 34.1% de aquellos por debajo de la media. La desviación estándar de un registro de medidas puede ser usada para calcular un intervalo de confiabilidad alrededor del valor.

Las declaraciones de confiabilidad no proveen, como creen algunos, un cálculo de cuán correcta es una medida. Por el contrario, una declaración de confiabilidad describe la probabilidad por la cual un registro de medidas se superpondrá al valor medio de la medida cuando se repite un estudio. Esto puede sonar un poco confuso, pero considere un estudio de Yoshikata Morimoto y sus colegas, quienes examinaron el promedio de la velocidad del lanzamiento de ocho jugadores de baseball de la universidad (Morimoto et al., 2003). Cada uno de los pitchers tenía que hacer seis lanzamientos y el promedio de la velocidad fue de 34.6 m/s (77.4 mph) con un 95% de intervalo de confianza de 34.6 ± 0.2 m/s (34.4 m/s a 34.8 m/s). Más adelante, cuando repitió este estudio y cada uno de los 8 pitchers tenía que hacer 18 lanzamientos, el promedio de la velocidad fue de 34.7 m/s, exactamente dentro del intervalo de confianza obtenido durante el primer estudio.

En este caso, no hay un valor "teóricamente correcto", sino que el intervalo de confianza provee un estimado de la probabilidad de que se encontrará un resultado similar si se repite el estudio. Debido a que Morimoto determinó un intervalo de confianza de 95%, si repitiese su estudio 100 veces (sin agotar a sus pitchers), su intervalo de confianza se superpondría con la media de la velocidad del lanzamiento 95 veces, y los otros cinco estudios probablemente, producirían velocidades de lanzamiento que estarían fuera del intervalo de confianza.

En la ciencia, un indicador importante de la confiabilidad para la medida es la cantidad reportada de cifras significativas. Morimoto reportó sus medidas a una décima (34.6 m/s) ya que su instrumentación tenía este nivel de precisión. Pudo distinguir las diferencias en los lanzamientos de 34.6 m/s a 34.7 m/s. Si hubiese redondeado sus medidas a 35 m/s, hubiese perdido una cantidad de detalles contenidos en sus datos. Es más, su instrumentación no tenía la precisión necesaria para reportar figuras significativas adicionales (por ejemplo, 34.62 m/s).Cuando se reportan figuras significativas, se puede introducir errores substanciales en un conjunto de datos.

Las mediciones cientÃficas se informan como rangos o con el signo +/- en lugar de valores Ãºnicos porque

cada mediciÃ³n tiene algÃºn grado de error. Correct!

algunos cientÃficos no estÃ¡n seguros de que sus cÃ¡lculos sean correctos. Incorrect.

La propagación del error

Como reconoció Pearson, la incertidumbre en la investigación científica es inherente, y por esta razón es clave para los científicos reconocer y tomar en cuenta los errores dentro de un conjunto de datos. Ignorar la fuente de un error puede conducir a la propagación y magnificación de ese error. Por ejemplo, en 1960 el matemático y meteorólogo americano Edward Norton Lorenz estaba trabajando en un modelo matemático para predecir el clima (vea nuestro módulo Research Methods: Modeling) (Gleick, 1987; Lorenz, 1993). Lorenz estaba usando una computadora Royal McBee para resolver iterativamente 12 ecuaciones que expresaban relaciones como las que existen entre la presión atmosférica y la velocidad del viento. Lorenz introducía en la computadora valores de punto de partida para diferentes variables, como temperatura, velocidad del viento y presión atmosférica en cualquier día en varias ubicaciones. El modelo calculaba los cambios de temperatura durante un periodo definido de tiempo. El modelo recalculaba los cambios climáticos de un día en incrementos de cada minuto e imprimía nuevos parámetros.

En una ocasión, Lorenz decidió repetir un modelo de escenario particular. En vez de empezar al principio, lo que hubiese tomado muchas horas, decidió empezar a la mitad del proceso, consultando la impresión de los parámetros y reintroduciéndolos en su computadora. Después dejó su computadora durante la hora que le tomaría recalcular el modelo, esperando volver y encontrar un patrón climático similar al que se había predicho previamente.

Inesperadamente, Lorenz encontró que el resultado de las predicciones climáticas era completamente diferente de los patrones originales que había observado. De lo que no se dio cuenta Lorenz en ese momento, fue que mientras su computadora guardaba los valores numéricos de los parámetros modelo de seis cifras significativas (por ejemplo 0.639172), su impresión, y por consiguiente los números que el introducía cuando volvía a empezar su modelo, estaba redondeados a tres figuras significativas (0.639). La diferencia entre los dos números es mínima, representando un margen de error sistemático inferior a 0.1% - menor que una milésima del valor de cada parámetro. Sin embargo, con cada iteración de su modelo (y había miles de iteraciones), este error se acrecentaba, multiplicándose varias veces, haciendo que su resultado final fuese completamente diferente de la primera ejecución del modelo. Como se puede observar en la Figura 4, el error se mantiene aparentemente pequeño, pero después de unos cuantos cientos de iteraciones, crece exponencialmente hasta llegar a una magnitud equivalente al valor de la medida en sí (~0.6).

Figura 4: Representación de la propagación del error en un sistema iterativo dinámico. Después de ~1,000 iteraciones, el error equivale al valor de la medida en ^~sí (~0.6), haciendo que el cálculo fluctúe completamente. Adaptado de IMO (2007). — **Figura 4**: Representación de la propagación del error en un sistema iterativo dinámico. Después de ~1,000 iteraciones, el error equivale al valor de la medida en ^~sí (~0.6), haciendo que el cálculo fluctúe completamente. Adaptado de IMO (2007).

Lorenz publicó sus observaciones en el trabajo clásico Deterministic Nonperiodic Flow (Lorenz, 1963). Sus observaciones lo llevaron a concluir que las predicciones acertadas del clima en el curso de un periodo superior a unas cuantas semanas, era extremadamente difícil - tal vez imposible - debido a que hasta los pequeñísimos errores en la medida de las condiciones naturales se acrecentaban y alcanzaban rápidamente niveles equivalentes a las medidas en sí.

El trabajo motivó a otros investigadores a empezar a observar otros sistemas dinámicos que son similarmente sensibles a las iniciales condiciones del comienzo, como el flujo del agua en un río o la dinámica del cambio de población. En 1975, el matemático y físico americano James Yorke y su colaborador, el matemático nacido en China Tien-Yien Li, acuñaron el término "caos" para describir estos sistemas (Li & Yorke, 1975). De nuevo, al contrario del uso común del término caos, que implica aleatoriedad o un estado de confusión, la ciencia del caos no trata sobre lo aleatorio. Por el contrario, como Lorenz lo hizo primeramente, los investigadores del caos trabajan para entender los patrones subyacentes del compartimento en los sistemas complejos para entender y cuantificar esta incertidumbre.

Los cientÃficos deben buscar la fuente del error dentro de un conjunto de datos

<strong> solo cuando </strong> el error es muy grande. Incorrect.

<strong> incluso cuando </strong> el error es muy pequeÃ±o. Correct!

El reconocimiento y la reducción del error

La propagación del error no está limitada al modelado matemático. Siempre es una preocupación en la investigación científica, especialmente en los estudios que proceden en pasos de incrementación múltiple, debido a que el error en un paso puede incrementarse fácilmente en el siguiente paso. Como consecuencia, los científicos han desarrollado varias técnicas para ayudar en la cuantificación del error.

El uso de los controles en la experimentación científica (vea nuestro módulo Métodos de Investigación: Experimentación) ayuda a cuantificar el error en un experimento e identifica el error sistemático, ya sea para medirlo o eliminarlo.

En la investigación que implica el juicio humano, como en los estudios que tratan de cuantificar la percepción del alivio del dolor después de que se haya administrado un analgésico, los científicos trabajan frecuentemente para minimizar el error al usar "pruebas ciegas". En las pruebas ciegas, se compara el tratamiento (i.e. el medicamento) al control (i.e. otro medicamento o un placebo); ni el paciente ni el investigador saben si el paciente está recibiendo el tratamiento o el control. De esta manera, se evita el error sistemático, debido a las preconcepciones sobre la utilidad del tratamiento.

A veces se llama garantía de calidad, o control de calidad, a la reducción del error y los esfuerzos para medir en la investigación científica. La garantía de calidad generalmente se refiere a los planes del investigador para minimizar o medir el error en su investigación; el control de calidad se refiere a los procesos mismos implementados en la investigación. Los términos son comúnmente intercambiados y unidos, como "garantía de calidad/ control de calidad" (GC/CC). La GC y el CC incluyen pasos tales como el calibrado de instrumentos o medidas comparados a estándares conocidos, el reporte de todos los límites de detección de instrumentos, la implementación de procedimientos estándares para minimizar el error humano, la documentación completa de los métodos de investigación, la duplicación de las medidas para determinar la precisión y muchas otras técnicas, frecuentemente específicas al tipo de investigación que se está realizando, que se reportan en la sección Materiales y métodos de un trabajo científico (vea nuestro módulo Comunicación Científica: Entendiendo Revistas y Artículos Científicos).

La reducción del error estadístico es frecuentemente tan simple, como la repetición de una medida de investigación u observación variada para reducir la incertidumbre en el registro de valores obtenidos. El error sistemático puede ser más difícil de precisar, introduciéndose sigilosamente en la investigación, debido al sesgo instrumental, errores humanos, diseño pobre de investigación o presunciones erradas sobre el comportamiento de las variables en un sistema. Desde este punto de partida, la identificación y cuantificación de la fuente del error sistemático en una investigación, puede ayudarles a los científicos a entender mejor el comportamiento del sistema en sí.

La incertidumbre como un estado de la naturaleza

Mientras que Karl Pearson propuso que las medidas individuales podían no producir valores exactos, pensaba que la cuidadosa y repetida investigación científica unida al análisis estadístico podía permitir determinar el verdadero valor de una medida. Un contemporáneo más joven que Pearson, el estadístico inglés Ronald Aylmer Fisher, extendió y al mismo tiempo contradijo este concepto. Fisher pensaba que debido a que todas las medidas contenían error inherente, uno nunca podía identificar el valor exacto o "correcto" de la medida. De acuerdo a Fisher, la distribución verdadera de la medida es inalcanzable; las técnicas estadísticas por consiguiente no estiman el "verdadero" valor de una medida, sino que se usan para minimizar el error y desarrollar estimados que se aproximan al valor teóricamente correcto de la medida. Una consecuencia natural de esta idea es que ocasionalmente la aproximación puede ser incorrecta.

En la primera mitad del siglo XX, el concepto de incertidumbre alcanzó nuevas cotas con el descubrimiento de la mecánica quántica. En el mundo quántico, la incertidumbre no es un inconveniente; es un estado. Por ejemplo, la descomposición de un elemento radioactivo es un evento inherentemente incierto. Podemos predecir la probabilidad del perfil de descomposición de una masa de átomos radioactivos, pero nunca podemos predecir la hora exacta en la que un átomo individual radioactivo se descompondrá. O consideremos el Principio de incertidumbre de Heisenberg en la física quántica, que plantea que medir la posición de una partícula hace el momento de la partícula intrínsecamente incierto , y, a la inversa, medir el momento de la partícula hace su posición intrínsecamente incierta.

Una vez que entendemos este concepto de incertidumbre tal como se aplica a la ciencia, podemos empezar a ver que el propósito del análisis de datos científicos es la identificación y cuantificación del error y la variabilidad para descubrir las relaciones, los patrones y los comportamientos que ocurren en la naturaleza. El conocimiento científico en sí continúa evolucionando a medida que nuevos datos y estudios nos ayudan a entender y cuantificar la incertidumbre en el mundo natural.

Incertidumbre, Errores, y Confiabilidad: _{Caracterizando la variabilidad natural y el error humano}

Categorización de la incertidumbre: exactitud ^ ~ frente a precisión

La incertidumbre en la naturaleza

Punto de Comprensión

La incertidumbre y el error en la práctica: la datación por carbono 14

Error estadístico frente a error sistemático

Punto de Comprensión

La confiabilidad: la presentación de la incertidumbre y el error

Punto de Comprensión

La propagación del error

Punto de Comprensión

El reconocimiento y la reducción del error

La incertidumbre como un estado de la naturaleza

Utilizando Datos Gráficos y Visuales en la Ciencia: Lectura e interpretación de gráficos

Estadísticas en la Investigacion Científica: Orígenes de la estadística descriptiva e inferencial

Análisis e Interpretación de Datos: Revelar y explicar tendencias