Random Forests

Random Forests es un método que combina una cantidad grande de árboles de decisión independientes probados sobre conjuntos de datos aleatorios con igual distribución.

Es un algoritmo predictivo que usa la técnica de Bagging para combinar diferentes arboles, donde cada árbol es construido con observaciones y variables aleatorias.

Bagging:

Disminuye la varianza de un data set al realizar re-muestreo con reemplazo.

Si no existe varianza en el dataset, la técnica de Bagging no mejora significativamente el modelo.

Una técnica mejorada del Bagging es el Random Forest, que además de elegir un grupo aleatorio de individuos, también elige un grupo aleatorio de variables.

Bagging
Bagging

Características de Random Forests

Esta técnica ha tenido mucho éxito debido a una serie de características:

  • Con esta técnica se puede realizar tanto clasificación como regresión.
  • Se puede trabajar con problemas de aprendizaje supervisado y no supervisado
  • Se obtiene gran precisión en los resultados gracias a la generalización, en el cual muchos árboles ligeramente diferentes aportan información para obtener una medida más fiables
  • Tanto el entrenamiento como el test pueden implementarse en paralelo fácilmente.

Algoritmo de Random Forests

  • Selecciona individuos al azar para crear diferentes set de datos.
  • Crea un árbol de decisión con cada set de datos, obteniendo diferentes arboles, ya que cada set contiene diferentes individuos y diferentes variables en cada nodo.
  • Al crear los arboles se eligen variables al azar en cada nodo del árbol, dejando crecer el árbol en profundidad (es decir, sin podar).
  • Predice los nuevos datos usando el «voto mayoritario», donde clasificará como «positivo» si la mayoría de los arboles predicen la observación como positiva.

Errores del ensamble depende de dos factores:

  • La correlación entre dos árboles cualesquiera en el bosque.
  • La fuerza de cada árbol individual en el bosque.

Se ha observado que Random forests sobre ajusta en ciertos grupos de datos con tareas de clasificación / regresión ruidosas.​

A diferencia de los árboles de decisión, la clasificación hecha por random forests es difícil de interpretar.

Deja un comentario