Manejo de ficheros .CSV en paralelo. Datasets Machine Learning
Gestión de ficheros .CSV en paralelo para procesos de machine learning
Cuando leemos datos de ficheros .CSV que van a ir a parar a modelos de Machine Learning, debemos de tener nuestro dataset bien preparado:
- Disponer de un dataset para Train (aprendizaje)
- Disponer de un dataset validación
- Disponer de un dataset para test.
Hay muchas veces que disponemos de dos datasets, uno para realizar os inputs y otro para los resutados 'desired', que són los datos deseados. Una de las tareas que debemos hacer es separar estos datasets en as partes anteriormente nombradas (train, validation & test).
He reaizado una clase en PHP lamada CSV PAIR FILE. La podéis descargar desde https://www.phpclasses.org/package/12166-PHP-Manage-values-for-training-machine-learning-system.html o desde https://github.com/vivesweb/csv_pair_file
Esta clase se encarga de realizar estas separaciones de datos automáticamente en los ficheros a modo paralelo, para que concuerden ordenadamente los datos train con los desired.
Además, normalmente se necesitan los datos ordenados aleatoriamente. Muchísimas veces, unos datos cortados y que no han sido desordenados, pueden hacer que nuestro modelo no aprenda correctamente, porque viene con unos valores ordenados y los valores que quedan cortados para realizar el test, no tienen nada que ver con los que han quedado para el entrenamiento.
Solo una nota. Esta clase es la primitiva parte de un gran modelo que estoy desarrollando junto a otras clases destinadas al ML, así que estad atentos a nuevas notícias.
Comentarios