descrierea metodei

în timp ce rezultă ajută la lărgirea domeniului de căutare prin simplificarea cuvintelor flexate la forma lor rădăcină, sinonimele lărgesc domeniul de aplicare prin relaționarea conceptelor și ideilor. Așa cum am spus mai sus, una dintre numeroasele probleme care ne pot întâmpina este utilizarea cuvintelor care nu sunt tocmai potrivite în interogarea de căutare. De exemplu, putem avea numele câmpului egal cu "blue jacket" în document și numele "cyan jacket" în interogarea de căutare. Utilizarea filtrului sinonim token permite manipularea cu ușurință a sinonimelor în timpul procesului de analiză. Sinonimele sunt configurate folosind un fișier de configurare.

descrierea procesului

1)În primul rând, trebuie să definim un filtru simbol de tip sinonim și să adăugăm formate sinonime în formatarea sinonimelor. Prima modalitate de a seta un filtru:

și încă o cale folosind o cale către synonym.txt:

"filter" : { "synonyms_filt" : {"tokenizer": "keyword", "type" : "synonym", "synonyms_path" : "analysis/synonym.txt" } } } }

sugestie: acest fișier analysis/synonym.txt trebuie să fie în fiecare nod al clusterului. Formatul fișierului trebuie să fie după cum urmează:

descris mai sus configurează un filtru sinonim cu o cale de analysis/synonym.txt (în raport cu locația de configurare).

Supergiant de Qbox: primul sistem de control total al Centrului de date care facilitează economisirea a până la 60% din factura AWS.

 "analyzer": { "filter_synonyms": { "filter": , "tokenizer": "keyword" } }

puteți vedea că am adăugat două sinonime pentru culorile albastru și auriu. Când utilizatorul caută "cobalt dress", elastic va returna domeniul de aplicare cu "cobalt"sinonime de culoare "blue, Blue, blue-gold, dark blue/black/charcoal, duke blue, jade blue, scottsdale blue, blue/white/khaki, pacific blue". De exemplu, puteți crea o interogare și o puteți testa fără sinonime și apoi adăugați analizorul nostru "filter_synonyms".

3) să testăm filtrul nostru stopwords personalizat:

ca al doilea:

"hits" : { "total" : 36165,"max_score" : 0.62592113}

informații suplimentare

utilizarea aceluiași filtru simbol sinonim atât la ora indexului, cât și la timpul de căutare este redundantă. Dacă înlocuim Aurul la momentul indexului cu cei doi termeni aur-albastru și aur, la momentul căutării trebuie să căutăm doar unul dintre acești Termeni. Alternativ, dacă nu folosim sinonime la momentul indexului, ar trebui să convertim o interogare pentru aur într-o interogare pentru aur sau albastru auriu la momentul căutării.

Categorii: Articles

0 comentarii

Lasă un răspuns

Avatar placeholder

Adresa ta de email nu va fi publicată.