Durante el ejercicio profesional en roles relacionados con el análisis estadístico, en diferentes sectores de actividad, los autores han notado que una gran cantidad de profesionales en las áreas de Calidad, Procesos, Ingeniería y Mejora Continua, con frecuencia presentan inconvenientes al momento de analizar las distribuciones de probabilidad de conjuntos de datos.
El origen de esta problemática radica principalmente en la enseñanza de la estadística inferencial durante los estudios de grado e incluso en ciertos niveles de postgrado. Y es que, la mayoría de los practicantes de la estadística inferencial aplicada a los procesos se han limitado al uso de la distribución normal o Curva de Campana de Gauss, como regla fundamental para determinar la validez y utilidad de los datos recolectados, así como los análisis que se han de realizar con dichos datos.
Las aplicaciones de la estadística inferencial abarcan un amplio espectro de actividades a nivel de las empresas manufactureras y de servicios, como son las validaciones de procesos de manufactura para dispositivos médicos y productos farmacéuticos, proyectos de mejora Lean Six Sigma, Diseño y Desarrollo de Productos, entre otras actividades.
Para estos practicantes, encontrarse con datos No Normales durante alguna de estas actividades, constituye ¡¡una verdadera pesadilla!!, pues esto suele atribuirse a problemas de desempeño del proceso y existe una idea generalizada de que estos datos no son útiles para el análisis. La realidad es que, encontrarse con datos No Normales no necesariamente implica un problema de desempeño o de recolección deficiente de datos, y en muchas ocasiones repetir los muestreos únicamente genera incrementos de costo y tiempo, sin la garantía de que obtendremos un set de datos que efectivamente siga una distribución normal. Esto se debe a que existen procesos que son inherentemente No Normales, y para estos casos existen métodos y técnicas específicas que pueden facilitar el análisis.
Así que, si tú también has vivido esta pesadilla, o más bien, te has encontrado con la realidad de enfrentarte a datos No Normales, aquí te compartimos dichas técnicas:
- Identificación de la Distribución.
La distribución de probabilidad más utilizada es la Distribución Normal. Esto se debe, principalmente a que con esta distribución resulta más sencillo realizar estimaciones e inferencias sobre la población ya que existe una gran cantidad de fenómenos que se distribuyen de acuerdo a la distribución normal. Además, la mayoría de las herramientas utilizada en el Control Estadístico de Procesos se basan en dicha distribución de probabilidad. Luego le siguen, en orden descendente, la Distribución Binomial y la Distribución de Poisson, las cuales tienen importantes aplicaciones en diferentes problemas de la Ingeniería y la Administración.
Sin embargo, existe una cantidad enorme de distribuciones de probabilidad que podrían resultar muy útiles al momento de realizar análisis estadísticos para datos No Normales, por lo que sería lo más apropiado, investigar la distribución de probabilidad a la que mejor se ajustan los datos antes de proceder de alguna otra manera.
Una vez determinada la distribución de probabilidad, podemos utilizar Estadística No Paramétrica para analizar los datos, siendo así posible obtener conclusiones muy precisas en base a la distribución de probabilidad individual para el conjunto de datos.
Existen softwares estadísticos que facilitan de manera impresionante la identificación de la distribución de probabilidad individual de un conjunto de datos, así como el Análisis No Paramétrico. Entre los softwares más utilizados se encuentran Minitab® y Sigma XL®.
Estos softwares se basan en el cálculo del P-Value para las distintas distribuciones de probabilidad, siendo la más adecuada, aquella distribución que tenga el mayor P-Value.
Mediante la identificación de la distribución de probabilidad a través del software Minitab®, también es posible determinar si una Transformación de Datos puede resultar más conveniente.
- Transformación de Datos.
Si durante la identificación de la distribución individual para un conjunto de datos, resulta que el mayor P-Value corresponde a alguna distribución de probabilidad basada en una variable transformada, nos encontramos en el escenario ideal para realizar una Transformación de Datos.
Una transformación de datos consiste en la aplicación de una función matemática (log, sen, cos, exp, etc) al conjunto de datos, de modo que estos “aparentan” seguir una distribución normal. Una vez realizada la transformación, podemos analizar los datos de la misma manera en que analizamos datos normales.
Los métodos más utilizados para Transformación de Datos son la Transformación de Box-Cox y la Transformación de Johnson.
Al igual que para la Identificación de la Distribución Individual, podemos transformar conjuntos de datos mediante el uso de softwares como Minitab® y Sigma XL®.
En algunos casos, muy poco comunes, algunos conjuntos de datos no pueden ajustarse a ninguna distribución en particular y no es posible normalizar los datos por medio de una transformación. Para estos casos, se pueden utilizar análisis No Paramétricos que no dependen de la forma de la distribución. Hablaremos de estos tema en una entrega posterior.
J.M.