Kaip patobulinti kinų kalbos žinučių paiešką „Telegram“
Išvada
Siekiant pagerinti kinų kalbos žinučių paieškos efektyvumą „Telegram“ programoje, tai galima pasiekti rankiniu būdu įterpiant nematomus skyriklius arba sukuriant individualų žodžių skaidyklį (Tokenizer). Be to, naudojant dirbtinio intelekto (DI) technologijas semantinei paieškai, taip pat galima žymiai padidinti paieškos tikslumą.
Pagrindiniai punktai
- „Telegram“ duomenų bazė: „Telegram“ naudoja „SQLite“ kaip savo duomenų bazę.
- Visateksčio paieškos mechanizmas: „Telegram“ visateksčio paieškos funkcija, naudodama žodžių skaidyklį (Tokenizer), suskaido eilutes į frazes, sugeneruoja maišos (hash) reikšmes, kurios paieškos metu lyginamos su maišos lentele.
- Žymeklių generatorius: Žymeklių generatorius, siekiant padalinti eilutes, priklauso nuo atskiriklių ir skyriklių.
- Žymeklių apibrėžimas: Turinys, esantis už atskiriklių ir skyriklių ribų, yra laikomas „žymekliu“ (token), įskaitant trijų tipų elementus: didžiąsias raides (*), skaičius (N) ir kitus simbolius (Co).
- CJK (kinų, japonų, korėjiečių) simbolių apdorojimas: Dauguma Unicode CJK simbolių atpažįstami kaip žymekliai.
Kadangi tarp kinų rašmenų nėra skyriklių, „Telegram“ visą kinų rašmenų eilutę maišo (hash), todėl paieškos rezultatai yra prasti. Šiame straipsnyje iš kodo perspektyvos išsamiai nagrinėjami „Telegram“ kinų kalbos žinučių paieškos apribojimai.
Patobulinimo pasiūlymai
- Rankinis skyriklių įterpimas: Rankiniu būdu pridėti nematomus skyriklius tarp kinų rašmenų, siekiant pagerinti paieškos efektyvumą.
- Individualaus „Tokenizer“ kūrimas: Sukurti individualų žodžių skaidyklį (Tokenizer) ir modifikuoti „Telegram“ kliento programą, siekiant sustiprinti paieškos funkciją.
DI semantinė paieška
Be tradicinių paieškos metodų, DI diegimas pasiūlė geresnius sprendimus semantinei paieškai. Projektas telegram-search naudojo įterpimo modelį, todėl vartotojai gali rasti norimą turinį net ir neturėdami tiksliai atitinkančių raktinių žodžių. Pavyzdžiui, įvedus „昨晚吃饭的那个人“ galima rasti „昨天晚上和我们一起吃饭的男的“.
Naudojant aukščiau nurodytus metodus, galima žymiai pagerinti kinų kalbos žinučių paieškos patirtį „Telegram“ programoje.