logo

Select Sidearea

Populate the sidearea with useful widgets. It’s simple to add images, categories, latest post, social media icon links, tag clouds, and more.
hello@youremail.com
+1234567890

DATA SCIENCE – ¿Qué es una regresión?

DATA SCIENCE – ¿Qué es una regresión?

¡Hola amigos! Como sabemos la necesidad de información que surgió hace muchos años nos ha llevado a que hoy en día tengamos almacenados trillones de datos, y que en un futuro esta cifra siga aumentando exponencialmente. Pero ahora lo que se requiere es explotar y analizar esa información dentro de un mar enorme y desolado. Es por ello, por lo que hoy en día toman fuerza los llamados científicos de datos. Quiero tomar algunos de los conceptos o habilidades básicas con las que se han enfrentado estos especialistas de los datos y platicar un poco de ella en este y los siguientes blogs.

 

El primero es la regresión

 

La regresión lineal se utiliza para predecir el valor de una variable según el valor de otra. La variable que desea predecir se denomina variable dependiente. La variable que está utilizando para predecir el valor de la otra variable se denomina variable independiente.

 

La regresión se ha convertido en el caballito de batalla de casi cualquier científico de datos. Para entender este concepto vamos a analizar el caso en el que comenzó el término. Gracias a Sir Francés Galton en 1886, cuya hipótesis fue el por qué padres altos no tienen hijos aún más altos, y que además esto es algo bueno. Para descubrir si esto es bueno o no, simplemente hay que hacer una pequeña regresión mental.

 

Imagina por un momento que cada hijo de una persona alta termina siendo aún mas alta que sus padres, sería cuestión de un milenio en el que la altura de la humanidad se convertiría en un problema de forma insostenible, y necesitaríamos nuevos muebles, aviones, autos. Cada variable se demuestra por medio de una regresión lineal.

 

Dicho de otra forma, una regresión, es la relación que existe entre una constante y el tiempo.

 

Si bien esto de primera instancia parece algo lógico y fácil de asumir, el valor que le da un científico de datos va mas allá de lo trivial. Ya que no se trata solamente de dar una respuesta burda y sin fundamentos más que la propia lógica. Sino sustentarla con todas las variables adecuadas. Para ejemplificarlo mejor les pongo el siguiente ejemplo.

 

“Las casas más grandes se venden a un precio mayor que las pequeñas”, aunque parezca una tomada de pelo, este es el ejemplo perfecto donde fuera de todo valor lógico del tamaño de la vivienda, la explicación que un científico de datos le da, es mucho más robusta. Ya que considerando que todas las otras variables fueran iguales, se puede descubrir que un cuarto de lavado adicional incrementa el valor de la vivienda más que un dormitorio adicional. Otro factor es la proximidad a la parada del metro, de igual forma incrementa el valor de la vivienda que si estuviera más lejano. Sin embargo, si se encuentra cerca de una vía rápida el precio es menor que si no lo está.

 

Como podrán ver en este ejemplo, la importancia en sí no está en la respuesta, sino en los detalles de todas las variables que pueden modificar el resultado final. Y es por ello que un científico de datos debe ser bueno para contar historias (storytelling) para que de esta forma encuentre nuevas variables que den información relevante que pueda ser utilizada y que muchas veces como lo vimos en el ejemplo sea mas valiosa que la pregunta original.

 

Ya en la práctica la regresión lineal puede ser simple, múltiple o polinómica, cada una con un procesamiento diferente.  La mejor forma de aplicarla es a través de métodos de machine learning y explotarlos por Python o R. Una gran forma de hacerlo es a través de Cloud Pak for data ya que tiene todo lo necesario para poder usar estas funciones como lo hemos visto en blogs anteriores.

 

La ciencia de datos puede proveer información crucial para que un negocio prospere o a veces subsista en un mundo tan cambiante como lo hemos vivido en los últimos años. Este tipo de soluciones nos brindan un mejor panorama de hacia dónde tenemos que mirar y sobretodo no quedarnos atrás y aprovechar las tendencias en el tiempo correcto.

 

Gracias por permitirme compartirte y nos vemos en la siguiente.