Sesiones | - martes, 20 abr 2021
- jueves, 22 abr 2021
- martes, 27 abr 2021
- jueves, 29 abr 2021
- martes, 04 may 2021
- jueves, 06 may 2021
- martes, 11 may 2021
- jueves, 13 may 2021
- martes, 18 may 2021
- jueves, 20 may 2021
- martes, 25 may 2021
- jueves, 27 may 2021
|
Temario | Introducción
Este es un curso de nivel introductorio al aprendizaje automático, mejor conocido como machine learning (ML). El ML es un área de las ciencias computacionales que estudia el desarrollo de modelos estadísticos basados en datos para que pueden desempeñar una tarea básica, típicamente hacer una predicción, clasificar en categorías, agrupar elementos similares, recomendar un producto, etc.
Iniciaremos abordando los principales temas conceptuales del aprendizaje automatizado y más adelante nos enfocaremos en la parte práctica, donde veremos las técnicas de ML más utilizadas usando la librería scikit-learn de Python.
Consideramos importante presentar la fundamentación matemática de los modelos que usaremos para entender mejor el funcionamiento de los métodos. Aunque no nos extenderemos a detalle en esta parte, al menos presentaremos las fórmulas más importantes de cada técnica, describiremos los parámetros básicos de las ecuaciones y proporcionaremos referencias donde se puede consultar a profundidad.
Objetivo(s) de aprendizaje
El objetivo general del curso es aprender los elementos conceptuales básicos de ML y a implementar de forma práctica los algoritmos más populares para hacer regresión, clasificación, clusterización y reducción de dimensionalidad. En específico lo objetivos del curso son:
- Entender qué es ML y en qué área dentro del panorama de la ciencia de datos se inscribe.
- Comprender las diferencias entre ML y la estadística tradicional.
- Estudiar los pasos previos antes de estimar un modelo de ML.
- Aprender a usar las funciones para preprocesamiento de datos de Scikit-learn.
- Aprender a estimar modelos de regresión, clasificación, reducción de dimensionalidad y clusterización.
- Aprender a usar el proceso de validación cruzada para evaluar el desempeño de los modelos.
- Aprender a usar Pipelines para encadenar múltiples procedimientos en un proyecto de ML.
Dirigido a
Asumimos que los participantes cuentan con los conocimientos equivalentes a los de cursos universitarios de cálculo diferencial, álgebra lineal y estadística. Esperamos que tengan experiencia en manejo de datos y estimación de modelos estadísticos básicos (regresión lineal).
También asumimos que cuenta con los siguientes conocimientos básicos de Python:
- Conocimiento estructuras de datos: tuplas, listas, diccionarios, conjuntos.
- Manejo de datos con Pandas
- Visualización con Matplotlib
Se recomienda (aunque no es obligatorio) haber tomado previamente los siguientes cursos que también se ofrece dentro de la Escuela de Métodos del LNPP:
- Introducción a Python y Manejo de datos
- Visualización de datos con Python
Temario
El curso está dividido en 12 sesiones, cada una de 2 horas. A continuación: se enlistan los temas que cubriremos en el curso:
- Introducción a ML.
- Pasos en un proyecto de ML
- Ejemplo de un proyecto completo de ML usando regresión lineal
- Modelos básicos de regresión: regresión lineal, ridge regression, lasso, elastic net.
- Modelos de clasificación: logit, multinomial logit.
- Algoritmo de Support Vector Machines para regresión y clasificación.
- Métodos basados en Árboles de Clasificación y regresión.
- Método de los K vecinos más cercanos para clasificación y regresión.
- Métodos de reducción de dimensionalidad: PCA, SVD y tSNE.
- Métodos para clusterización: KMeans y DBSCAN.
- Algunos métodos de ML para texto: TF-IDF, clasificación, SVD.
Bibliografía
- Géron, A. (2017). Hands-on machine learning with Scikit-Learn and TensorFlow: concepts, tools, and techniques to build intelligent systems. " O'Reilly Media, Inc".*
- Müller, A. C., & Guido, S. (2016). Introduction to machine learning with Python: a guide for data scientists. " O'Reilly Media, Inc".
- Friedman, J., Hastie, T., & Tibshirani, R. (2009). The elements of statistical learning (2 ed). New York: Springer series in statistics.
Profesor(a)
Juan Javier Santos Ochoa
Científico de Datos, Unidad Ciencia de Datos
Ver el perfil completo
Juan Javier Santos Ochoa |