Capitulo 1 Una introducción breve a Machine Learning

El machine learning es una de las herramientas que más se aplica en diferentes partes de nuestra vida diaria. Por ejemplo, los mecanismos de predicción de palabras en su celular, detección de spam en el correo, predicciones de estado del tiempo, entre otros, estan cercanamente relacionados con procesos incluidos en machine learning. Sin embargo, muy pocas personas conocen cómo utilizar perspectivas de machine learning, ya sea por miedo o desconocimiento a la programación, o simplemente, porque mucha de la información se encuentra en otro idioma, usualmente, en inglés. Con este libro, buscamos dar una breve introducción al machine learning y su aplicación en el idioma español, con ejemplos en analisis de datos biologicos. Como aclaración, el que los ejemplos que se usaran a lo largo del libro estaran enfocados en investigaciones recientes en biológia no significa que no puedan ser aplicados a otras áreas de estudio. Este libro va dirigido a todas las personas interesadas en aprender a usar machine learning en su investigaciones, sin importar en que niveles de su formación académica se encuentren o que trabajen en la academio o en la indrustria. Este documento está pensado para lectores que tengan o no conocimiento previo en programación. El foco principal de este libro no es sólo enseñar cómo utilizar y entender qué es machine learning, si no hacer accesible su uso para personas de habla hispana.

Este libro inicia con una introducción a machine learning, pasa por regresiones lineales, aspectos de clasificación, y termina con introducciones cortas a modelos alternativos y más complejos de regresión y clasificación. Cada uno de los capítulos revisa tando el componente práctico como el teórico del tema principal a tratar. La discusión teórica incluye detalles generales sobre la fundamentación de algoritmos y su uso en diferentes contextos. La implementación práctica incluye estudios de casos basados en publicaciones recientes por autores latinoamericanos. En general, este libro pretende una exposición tanto a aspectos generales de machine learning en su teoría y práctica, así como también al uso directo en el análisis de datos biológicos.

Existe una variedad de lenguajes de programación que permiten implementar algoritmos de machine learning. En general, el componente práctico de este libro estará enfocado en ilustrar el uso de esta perspectiva analitica utilizando el lenguaje de programacion R. Esta herramientas es de código abierto, gratuita, y tiene asociada una amplia red de usuarios y desarrolladores que se encuentran en constante interacción y producción de conocimiento. Como alternativa R están python, julia, matlab, entre otros. Estos lenguages también permiten el análisis de datos en una aproximación de machine learning y son alternativas ideales para quienes tengan intenciones de explorar de forma práctica el componente teórico de este documento. Sin embargo, para quienes consultan el libro y no tienen experiencia en programación en R, el primer capitulo se enfoca en introducir R como el lenguaje para usos subsecuentes en los componentes prácticos del documento.

Además de nuestro libro, existen diferentes recursos en español que tratan diferentes aspectos de machine learning en R y otros languajes de programación. Por ejemplo, en su libro, Rafael A. Irizarry da una breve introduccion a R en el contexto de ciencia de datos. R Para ciencia de datos, traducido del inglés, también es un excelente recurso introductorio tanto a R como a machine learning. Aunque estos recursos (y otros) se enuentran en español, los documentos existentes son (1) traducciones literales a textos originalmente escritos en inglés, (2) tienen poco enfasis en machine learning por ser pensados en el contexto de data science, o (3) no tienen una aplicacion directa en biologia. Por lo tanto, con este documento propendemos a integrar aspectos básicos de machine learning en el contexto actual de biología latinoamericana, mientras resaltamos el trabajo investigativo en la región.