Filtrado Basado en Contenido

IIC 3633 - Sistemas Recomendadores

Denis Parra
Profesor Asistente, DCC, PUC CHile

TOC

En esta clase

  1. Contenido en lugar de ratings
  2. Representación de Espacio Vectorial
  3. TF-IDF
  4. Buscando Items Similares
  5. Representación en Espacio Latente

Por Qué un Recomendador Basado en Contenido

  • El filtrado colaborativo tiene algunas desventajas: cold-start, sparcity, transparency.

PROS

  • A diferencia del Filtrado Colaborativo, si los items tienes descripciones suficientes, nos evitamos el "new-item problem""
  • Las representaciones del contenido son variadas y permiten utilizar diversas técnicas de procesamiento del texto, uso de información semántica, inferencias, etc.
  • Es sencillo hacer un sistema más transparente: usamos el mismo contenido para explicar las recomendaciones.

CONS

  • Tienden a la sobre-especialización: va a recomendar items similares a los ya consumidos, creando una tendencia al "filter bubble".
  • Los métodos basados en filtrado colaborativo han mostrado ser, empíricamente, más precisos al momento de generar recomendaciones.

Arquitectura de un Sistema de Recomendación CB

  • Los componentes principales son: (1) Analizador del Contenido, (2) Aprendizaje del Perfil de Usuario, (3) Filtrado de Contenido

Representación del Contenido: Bolsa de Palabras

  • Se suele representar a los documentos como "bolsas de palabras"; de esta forma es fácil pasar a representar cada documento como un vector (Vector Space Model)

Representación del Contenido: VSM

  • El corpus completo puede entonces representarse como una matriz donde las filas son términos y las columnas son documentos.

  • Luego, ¿Cúal es la mejor forma de representar los pesos de los términos?

Representación del Contenido: VSM II

Frecuencia de los términos

Cada documento se representa como un vector, el "peso" de cada palabra para ese documento puede darse en base a la frecuencia del término en el documento.

Podemos normalizar el valor en función de la frecuencia máxima de cualquier término en el documento.

Representación del Contenido: VSM III

Log de Frecuencia de los términos

Pero el hecho que un término \(x\) aparece 100 veces y otro término \(y\) sólo 10 veces, no hace a x 10 veces más relevantes; por lo tanto podemos usar un logaritmo.

Representación del Contenido: VSM IV

TF-IDF

Bajo la intuición de que un término que aparece en sólo unos poco documentos podría ser descriptivo, podemos considerar la "Inverse Document Frequency" y combinarla con la "Term Frequency":

Done \(t_k\) es el término \(k\), \(d_j\) es el documento \(j\).

Resumen de Componentes del TF-IDF

Representación Semántica del Contenido

  • No todo el contenido del documento corresponde a la misma categoría.
  • Autor, palabras clave, fechas, tópicos pueden dar una noción adicional de filtrado.
  • Opción 1: Representación semántica explícita (No lo veremos en detalle en esta clase)
    • Ontologías
    • WordNet
    • ConceptNet
  • Opción 2: Inferir representación semántica (LSI, LDA)
  • Opción 3: Word Vectors (Word2Vec, Glove)

Buscando Items Similares

Distancia Euclidiana

Distancia Coseno

Buscando Items Similares

Distancia Coseno

Fórmula

Buscando Items Similares II

Okapi BM25

Ref: Denis Parra and Peter Brusilovsky. 2009. Collaborative filtering for social tagging systems: an experiment with CiteULike. In Proceedings of the third ACM conference on Recommender systems (RecSys '09) http://doi.acm.org/10.1145/1639714.1639757

Buscando Items Similares III

Técnicas de Procesamiento adicionales

  • Pasar a mayúsculas/minúsculas
  • Tokenization
  • Stemming (Porter, Krovetz)
  • Lemmatization

Buscando Items Similares

Representación en espacio latente

  • Latent Semantic Indexing
  • Latent Dirichlet Allocation

LSI I

LSI II

LSI III

LSI IV

LSI IV

Proyección de documentos o términos nuevos

  • Folding in: Using Linear Algebra for Intelligent Information Retrieval

NMF

  • Non-Negative Matrix Factorization

LDA I

LDA II

LDA III

LDA IV

Referencias

  • Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval (Vol. 1, p. 6). Cambridge: Cambridge university press.

  • Steyvers, M., & Griffiths, T. (2007). Probabilistic topic models. Handbook of latent semantic analysis, 427(7), 424-440.

  • Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77-84.