Descripción del método

Mientras que la derivación ayuda a ampliar el alcance de la búsqueda simplificando las palabras flexionadas a su forma raíz, los sinónimos amplían el alcance relacionando conceptos e ideas. Como dijimos anteriormente, uno de los muchos problemas que pueden surgir es el uso de palabras no exactamente adecuadas en la consulta de búsqueda. Por ejemplo, podemos tener el nombre del campo igual a "blue jacket" en el documento y el nombre "cyan jacket" en la consulta de búsqueda. El uso del filtro de token de sinónimo permite manejar fácilmente los sinónimos durante el proceso de análisis. Los sinónimos se configuran mediante un archivo de configuración.

Descripción del proceso

1) En primer lugar, tenemos que definir un filtro de token de tipo sinónimo y agregar formatos de sinónimos en Sinónimos de formato. Primera forma de establecer un filtro:

Y una forma más con el uso de una ruta a synonym.txt:

"filter" : { "synonyms_filt" : {"tokenizer": "keyword", "type" : "synonym", "synonyms_path" : "analysis/synonym.txt" } } } }

SUGERENCIA: Este archivo analysis/synonym.txt debe estar en cada nodo del clúster. El formato de archivo debe ser el siguiente:

Descrito anteriormente configura un filtro de sinónimo con una ruta de acceso de analysis/synonym.txt (en relación con la ubicación de configuración).

Supergigante De Qbox: El primer sistema de control total del centro de datos que facilita el ahorro de hasta un 60% en su factura de AWS.

 "analyzer": { "filter_synonyms": { "filter": , "tokenizer": "keyword" } }

Puede ver que agregamos dos sinónimos para los colores azul y dorado. Cuando el usuario busca "cobalt dress", elastic devolverá el alcance con "cobalt" sinónimos de color "blue, Blue, blue-gold, dark blue/black/charcoal, duke blue, jade blue, scottsdale blue, blue/white/khaki, pacific blue". Por ejemplo, puede crear una consulta y probarla sin sinónimos y luego agregar nuestro analizador "filter_synonyms".

3) Probemos nuestro filtro de palabras de parada personalizado:

Como segundo:

"hits" : { "total" : 36165,"max_score" : 0.62592113}

Información adicional

Usar el mismo filtro de token de sinónimo tanto en tiempo de índice como en tiempo de búsqueda es redundante. Si reemplazamos oro en el tiempo de índice con los dos términos oro-azul y Oro, en el tiempo de búsqueda necesitamos buscar solo uno de esos términos. Alternativamente, si no usamos sinónimos en el momento del índice, necesitaríamos convertir una consulta para gold en una consulta para Gold o gold-blue en el momento de la búsqueda.

Categorías: Articles

0 comentarios

Deja una respuesta

Marcador de posición del avatar

Tu dirección de correo electrónico no será publicada.