Clasificación no supervisada

Clustering y mapas autoorganizativos (Kohonen)


Recuperación y organización de la información

Clasificación

   Algunos de los dominios en los que la clasificación automática se emplea:

  • Visión artificial (reconocimiento de caras)
  • Reconocimiento de caracteres
  • Clasificación de documentos
  • Reconocimiento del habla

   Una de las principales características de la clasificación automática, que la hacen tan atractiva para la recuperación y organización de la información de los documentos, es su rapidez y su capacidad de síntesis de datos relevantes en la toma de decisiones.


División en las técnicas de clasificación

  • Clasificación
       - A partir del conocimiento de la existencia de un conjunto de clases, determinar la regla para asignar cada nueva observación (o ejemplo) a la clase que pertenece
       - Determina reglas de asignación a clases conocidas
       - Aprendizaje supervisado
  • Agrupamiento (clustering)
       - A partir de una serie de observaciones determina si existen clases en las que dichas observaciones puedan ser agrupadas
       - Determinar la existencia de clases en las que agrupar (número y características de las clases desconocidas a priori)
       - Aprendizaje no supervisado

Parámetros

   La elección del tipo de clasificador viene supeditada tanto al dominio del problema a tratar como a los parámetros que tengan más relevancia según dicho dominio. En el caso de la recuperación de la información se consideran primordiales los dos primeros.

  • Calidad (capacidad de acierto de la regla o del clasificador. Errores de clasificación: falso positivo y falso negativo)
  • Velocidad (velocidad de respuesta crítica aunque se pierda calidad)
  • Explicabilidad (información sobre qué está ocurriendo con el clasificador y el por qué de la aplicación de ciertas operaciones)
  • Tiempo de aprendizaje (en entornos cambiantes es necesario modificar las reglas de funcionamiento)

Tipos de clasificadores

  • Discriminantes lineales / no lineales
       - Dividen el espacio de estados en regiones (definidas por el corte de hiperplanos) teniendo cuidado de establecer una clase por región
       - Por ejemplo: Discriminantes lineales, discriminantes logísticos, discriminantes cuadráticos, redes de neuronas
  • Métodos basados en reglas
       - Dividen el espacio de estados de forma recursiva estableciendo dos bloques a partir de cada atributo
       - Cada bloque puede ser subdividido con la ayuda de otro atributo
       - Proceso repetido hasta que no mejora la clasificación estableciéndose una regla por atributo
       - La unión de reglas define el clasificador
       - Por ejemplo: ID3, AC2, Cal5, CN2, C4.5, CART, Árboles de Bayes, Regla IT
  • Métodos de estimación de densidades
       - Fijan para cada región del espacio la probabilidad de que un elemento situado en ella pertenezca a una clase
       - Clasificación por vecindad (ante un nuevo patrón se le asigna la clase más probable en función de la distancia que le separe de los prototipos designados). Por ejemplo: K-medias (no supervisada), K-vecinos (supervisada), LVQ (supervisada)
       - Funciones de base radial
       - Naive Bayes
       - Poliárboles
       - Mapas autoorganizativos de Kohonen