Clasificación no supervisada

Clustering y mapas autoorganizativos (Kohonen)


Recuperación y organización de la información

Buscadores

   Ahora vamos a centrarnos en el uso del clustering como técnica para, en base a la recuperación y organización de la información, obtener el máximo aprovechamiento de la información digital disponible.

Conceptos

  • Recuperación de información (dado un conjunto amplio de datos se obtienen aquellos que cumplan determinados criterios -palabras clave-)
  • Extracción de información (obtiene la información relevante de uno o varios documentos)
  • Clustering (crea, de forma automática, clasificaciones de documentos a partir de similitudes en su contenido)
  • Cluster (agrupación de elementos con características similares)
  • Resumen (términos más utilizados dentro de un documento y/o similitudes entre varios documentos)

Técnicas para resumen (empleadas en clustering)

   Técnicas utilizadas para obtener un resumen de uno o varios documentos ya sea por una búsqueda, aplicación de un filtro o simplemente la necesidad de clasificarlo.

Basadas en la superficie del texto

  • No se realiza análisis lingüístico
  • Trata el texto como una cadena de caracteres
  • Clásicamente selecciona los términos estadísticamente más frecuentes en el documento
  • Selecciona como resumen las oraciones con el mayor número de términos más frecuentes del documento
  • La posición de los elementos en el texto (títulos, párrafos...) también es relevante

Basadas en los términos del texto

  • Reconocimiento y clasificación del léxico utilizado
  • Permite reconocer unidades lingüísticas (nombre, verbo...)
  • Emplea analizadores morfológicos y desambiguadores léxicos
  • Establece relaciones entre términos (semánticas y temáticas)

Basadas en la estructura del discurso

  • Requieren algún tipo de tratamiento estructural del documento
  • Detecta los fragmentos del discurso más relevantes

   Para poder crear los clusters, los documentos se representan como vectores de términos (cuyo tamaño es igual al del vocabulario del conjunto recuperado tras el análisis del documento).


Clustering y buscadores

   Debido al gran volumen de información que hay que procesar, junto con la eficacia y eficiencia solicitadas a los buscadores, el uso de técnicas de clustering ha supuesto una gran mejora en los resultados proporcionados por los buscadores.
   Los tres primeros (Vivisimo, Clusty y iBoogie) usan exclusivamente agrupación para mostrar los documentos en categorías según la cantidad de términos que coinciden en sus textos.
   Kartoo en cambio no sólo se centra en la creación de clusters, a partir de la documentación disponible y en base a la búsqueda realizada, sino que también representa gráficamente los resultados obtenidos en forma de mapa.

   Para probar el funcionamiento de los 4 buscadores (cómo realizan y presentan los resultados) vamos a realizar una búsqueda guiada "clasificacion no supervisada".
   Como se puede apreciar todos los buscadores realizan agrupamientos de términos similares si bien es cierto que la representación de resultados de Kartoo resulta más espectacular.