Manejo de ficheros .CSV en paralelo. Datasets Machine Learning

 

Manejo de ficheros .csv en paralelo en PHP

Gestión de ficheros .CSV en paralelo para procesos de machine learning

Cuando leemos datos de ficheros .CSV que van a ir a parar a modelos de Machine Learning, debemos de tener nuestro dataset bien preparado:
- Disponer de un dataset para Train (aprendizaje)
- Disponer de un dataset validación
- Disponer de un dataset para test.

Hay muchas veces que disponemos de dos datasets, uno para realizar os inputs y otro para los resutados 'desired', que són los datos deseados. Una de las tareas que debemos hacer es separar estos datasets en as partes anteriormente nombradas (train, validation & test).


Esta clase se encarga de realizar estas separaciones de datos automáticamente en los ficheros a modo paralelo, para que concuerden ordenadamente los datos train con los desired.

Además, normalmente se necesitan los datos ordenados aleatoriamente. Muchísimas veces, unos datos cortados y que no han sido desordenados, pueden hacer que nuestro modelo no aprenda correctamente, porque viene con unos valores ordenados y los valores que quedan cortados para realizar el test, no tienen nada que ver con los que han quedado para el entrenamiento.

Solo una nota. Esta clase es la primitiva parte de un gran modelo que estoy desarrollando junto a otras clases destinadas al ML, así que estad atentos a nuevas notícias.

Comentarios

Artículos más populares

Ingeniería de datos. Como saber qué características o features dar como Inputs a nuestras redes neuronales

¿Se puede utilizar Machine Learning en PHP?

Clase en PHP para encender/apagar LED en Raspberry pi