Bæta leit að kínverskum skilaboðum í Telegram
Niðurstaða
Til að bæta leitarniðurstöður að kínverskum skilaboðum í Telegram er hægt að nota ósýnilega skilgreiningar handvirkt eða þróa sérsniðinn „Tokenizer“. Auk þess getur notkun gervigreindar (AI) fyrir merkingarleit (semantic search
) einnig aukið leitarnákvæmni verulega.
Lykilatriði
- Telegram gagnagrunnur: Telegram notar SQLite sem gagnagrunn sinn.
- Heildartextaleitarvél: Leitaraðgerð Telegram í fullum texta skiptir strengjum upp í orðasambönd með „Tokenizer“, býr til „hash“ gildi og ber þau saman við „hash“ töflu við leit.
- „Token“ myndari: „Token“ myndari byggir á aðskiljara og skilgreinum til að skipta strengjum.
- „Token“ skilgreining: Efni utan aðskiljara og skilgreina er talið „token“, og inniheldur þrjár gerðir: hástafi (*), tölustafi (N) og aðra stafi (Co).
- Meðferð CJK-stafa: Kínverskir, japanskir og kóreskir stafir (CJK) eru í flestum tilfellum auðkenndir sem „token“ innan Unicode CJK.
Þar sem engir skilgreinar eru á milli kínverskra stafa, vinnur Telegram allan strenginn af stöfum sem einn „hash“, sem leiðir til slakrar leitargetu. Þessi grein skoðar ítarlega takmarkanir á leit í kínverskum skilaboðum í Telegram frá kóðasjónarmiði.
Tillögur að úrbótum
- Handvirk innsetning skilgreina: Bæta handvirkt við ósýnilegum skilgreinum á milli kínverskra stafa til að bæta leitarniðurstöður.
- Sérsniðinn „Tokenizer“: Þróa sérsniðinn „Tokenizer“ og breyta Telegram biðlaranum til að auka leitaraðgerðina.
AI merkingarleit
Auk hefðbundinna leitaraðferða, veitir innleiðing gervigreindar (AI) betri lausn fyrir merkingarleit. Verkefnið telegram-search notar innfellingarlíkan (embedding model
), sem gerir notendum kleift að finna það sem þeir leita að, jafnvel þótt ekki séu nákvæmlega samsvarandi leitarorð. Til dæmis, ef slegið er inn „sá sem borðaði í gærkvöldi“ er hægt að finna „maðurinn sem borðaði með okkur í gærkvöldi“.