¿Cómo decide un árbol de decisión donde ramificarse?

¿Cómo decide un árbol de decisión donde ramificarse? La ramificación de un árbol de decisión es muy importante, la creación de sub nodos incrementa la homogeneidad de los sub nodos resultantes.

Es decir, la pureza del nodo se incrementa respecto a la variable objetivo.

Se prueba la división con todas las variables y se escoge la que produce sub nodos más homogéneos.

¿Cómo decide un árbol de decisión donde ramificarse?
¿Cómo decide un árbol de decisión donde ramificarse?

Índice GINI

Gini es una medida de impureza. Cuando Gini vale cero, significa que ese nodo es totalmente puro.

La impureza se refiere a cómo de mezcladas están las clases en cada nodo. Usa el método de Gini para la división binaria.

CHI CUADRADO

Es un algoritmo para encontrar la significancia estadística de las diferencias entre sub nodos y un nodo padre.

Se mide a partir de la suma de los cuadrados de las diferencia entre las frecuencias observadas y esperadas de la variable objetivo.

Ganancia de información

Un nodo menos impuro requiere menos información para ser descrito mientras un nodo más impuro necesita más información.

La teoría de la información es una medida para definir este grado de desorganización en un sistema denominado como Entropía.

Reducción en la varianza

Los algoritmos anteriores se aplicaban para problemas de clasificación con variables objetivo categóricas.

La reducción en la varianza es un algoritmo usado para variables objetivo continuas (problemas de regresión).

Este algoritmo usa la fórmula estándar de la varianza para escoger el criterio de división.

Ventajas y desventajas árboles de decisión

Ventajas

  • Fácil de entender
  • Útil en exploración de datos
  • Menos limpieza de datos
  • El tipo de datos no es una restricción
  • Es un método no paramétrico

Desventajas

  • Sobreajuste
  • Pérdida de información al categorizar variables continuas
  • Precisión
  • Inestabilidad
Ejemplo de árbol de decisión
Ejemplo de árbol de decisión

Algunos algoritmos para el aprendizaje de árboles de decisión

  1. Hoveland y Hunt: Concept Learning Systems (CLS)
  2. Breiman, Friendman, Olshen y Stone: Método CART
  3. J.R. Quinlan: Método ID3
  4. J.R. Quinlan: Método C4.5
  5. G.V. Kass: Método CHAID
  6. P. Utgoff : ID5 e ID5R

Deja un comentario