Visualización de datos en gráficos de barra. Entorno CLI-PHP. Encuentra Outliers
Visualización de datos en gráficos de barra para ayudar en la búsqueda de Outliers
La limpieza de los datasets en los procesos anteriores al Deep Learning son esenciales. Encontrar los Outliers (o datos que están fuera de lo común), es primordial para rectificarlos y conseguir unos datos homogéneos. Si no los detectamos o no los regularizamos, nuestras redes neuronales tendrán serios problemas para aprender correctamente, ya que un solo dato de estos puede hacer 'volverse loco' a nuestro modelo y no servir de nada. Ya os comenté en un artículo anterior la importancia que tenía este paso, y es necesario de disponer las herramientas adecuadas. Existen algunas que son de pago y privativas. Yo me he decantado por creármela por mi mismo y liberar el código fuente para que alguien más la pueda aprovechar.
Se puede utilizar PHP para realizar Machine Learning. En PHP, cuando se realizan las tareas de búsqueda de errores en nuestros datasets, debemos emplear la Ingeniería de datos. Estos procesos se realizan normalmente en entornos CLI (o bajo comandos, por decirlo de alguna manera). Esto es así porque el PHP normalmente se utiliza en entornos servidores Web, pero estos entornos limitan la memoria, acceso a diferentes partes del sistema y tiempos de ejecución, pero existe la posibilidad de ejecutar las mismas aplicaciones desde el entorno de la consola, con lo que todas estas limitaciones desaparecen. El problema es que no podemos utilizar gráficos, solo texto. Entonces.... ¿Como podemos ver nuestros datos en gráficos para localizar los problemas? Una solución sería la de enseñar mediante un formato de tabla los contenidos de nuestros datasets, pero la mejor solución está en utilizar gráficos de barra en modo texto, o sea CLI-GRAPH-ML. También lo encontraréis en https://www.phpclasses.org/package/12231-PHP-Display-bar-charts-in-CLI-console-from-datasets.html
Esta librería que he desarrollado realiza exactamente eso. Dibuja en modo texto los gráficos de nuestros datos, pero va más allá. Además nos informa donde ha encontrado Outliers y los marca con una barra en ROJO para que podamos actuar sobre esos datos.
Esta clase realizada en puro PHP, está preparada para poder colocar diferentes gráficas una al lado de otra, tal y como se muestra en la imagen a continuación.
Vemos que además de la gráfica e indicarnos los datos que están fuera de los comunes mediante una barra en ROJO, nos ayuda indicando también el número máximo, mínimo, la suma de todos los valores, la media, la mediana, la varianza, la desviación estándard y también los límites superiores e inferiores de los Outliers.
Las gráficas se pueden crear a medida. Se puede cambiar el ancho de las barras, enseñar o esconder las líneas de fondo de guía, hacerlas más separadas, Mostrar/ocultar los títulos de los ejes X e Y, cambiar los colores de las barras, Crear gráficas más altas para poder verlas con más precisión. Toda una joya y muy muy fácil de utilizar.
La verdad es que a mi no me gustan las gráfícas con colorcitos en modo texto, pero como sobre gustos no hay nada escrito y no era muy difícil implementarlo, ahí está hecho.
En el repositorio de github está todo muy bien explicado y además hay un fichero de ejemplo, donde podréis ver las gráficas de la imagen anterior y de esta también..... sí, con colorcitos para que los podáis disfrutar.
Os dejo un artículo muy interesante donde encontraréis formas de uso de esta clase: https://towardsdatascience.com/a-practical-guide-to-linear-regression-3b1cb9e501a6
Comentarios