Clasificación no supervisada
Clustering y mapas autoorganizativos (Kohonen)
Recuperación y organización de la información
Clasificación
Algunos de los dominios en los que la clasificación automática se emplea:
- Visión artificial (reconocimiento de caras)
- Reconocimiento de caracteres
- Clasificación de documentos
- Reconocimiento del habla
Una de las principales características de la clasificación automática, que la hacen tan atractiva para la recuperación y organización de la información de los documentos, es su rapidez y su capacidad de síntesis de datos relevantes en la toma de decisiones.
División en las técnicas de clasificación
- Clasificación
- A partir del conocimiento de la existencia de un conjunto de clases, determinar la regla para asignar cada nueva observación (o ejemplo) a la clase que pertenece
- Determina reglas de asignación a clases conocidas
- Aprendizaje supervisado - Agrupamiento (clustering)
- A partir de una serie de observaciones determina si existen clases en las que dichas observaciones puedan ser agrupadas
- Determinar la existencia de clases en las que agrupar (número y características de las clases desconocidas a priori)
- Aprendizaje no supervisado
Parámetros
La elección del tipo de clasificador viene supeditada tanto al dominio del problema a tratar como a los parámetros que tengan más relevancia según dicho dominio. En el caso de la recuperación de la información se consideran primordiales los dos primeros.
- Calidad (capacidad de acierto de la regla o del clasificador. Errores de clasificación: falso positivo y falso negativo)
- Velocidad (velocidad de respuesta crítica aunque se pierda calidad)
- Explicabilidad (información sobre qué está ocurriendo con el clasificador y el por qué de la aplicación de ciertas operaciones)
- Tiempo de aprendizaje (en entornos cambiantes es necesario modificar las reglas de funcionamiento)
Tipos de clasificadores
- Discriminantes lineales / no lineales
- Dividen el espacio de estados en regiones (definidas por el corte de hiperplanos) teniendo cuidado de establecer una clase por región
- Por ejemplo: Discriminantes lineales, discriminantes logísticos, discriminantes cuadráticos, redes de neuronas - Métodos basados en reglas
- Dividen el espacio de estados de forma recursiva estableciendo dos bloques a partir de cada atributo
- Cada bloque puede ser subdividido con la ayuda de otro atributo
- Proceso repetido hasta que no mejora la clasificación estableciéndose una regla por atributo
- La unión de reglas define el clasificador
- Por ejemplo: ID3, AC2, Cal5, CN2, C4.5, CART, Árboles de Bayes, Regla IT - Métodos de estimación de densidades
- Fijan para cada región del espacio la probabilidad de que un elemento situado en ella pertenezca a una clase
- Clasificación por vecindad (ante un nuevo patrón se le asigna la clase más probable en función de la distancia que le separe de los prototipos designados). Por ejemplo: K-medias (no supervisada), K-vecinos (supervisada), LVQ (supervisada)
- Funciones de base radial
- Naive Bayes
- Poliárboles
- Mapas autoorganizativos de Kohonen
Más acerca de recuperación y acceso a la información
- Página principal del WIKI
- Evaluación de los principales buscadores web
- Sistemas de Question-Answering
- Metadatos y documentos XML/RDF para recuperación
- Lenguajes de recuperación: XML-Query, XQL y Tolog
- Lenguajes de recuperación: SeRQL y SPARQL
- Almacenamiento, consulta y razonamiento: Sesame y Jena
- Modelos de recuperación
- Motores de recuperación de documentos XML/RDF
- Procesamiento del Lenguaje Natural
- Usabilidad y accesibilidad en el posicionamiento
- Clasificación supervisada
- Clasificación no supervisada: clustering y Kohonen
- Fusión de ontologías de metadatos FCA, Onions y Prompt
- Minería de textos web