IntentChat Logo
← Back to Norsk Blog
Language: Norsk

Forbedring av søk i kinesiske meldinger i Telegram

2025-06-24

Forbedring av søk i kinesiske meldinger i Telegram

Konklusjon

For å forbedre søkeresultatene for kinesiske meldinger i Telegram, kan man enten manuelt sette inn usynlige skilletegn eller utvikle en tilpasset "Tokenizer". I tillegg kan bruk av AI-teknologi for semantisk søk også betydelig øke søkenøyaktigheten.

Nøkkelpunkter

  • Telegram-database: Telegram bruker SQLite som sin database.
  • Fulltekstsøk-mekanisme: Telegrams fulltekstsøk-funksjon deler strenger opp i fraser ved hjelp av en Tokenizer, genererer hash-verdier, og sammenligner disse med en hashtabell under søk.
  • Token-generator: Token-generatoren er avhengig av separatorer og skilletegn for å dele opp strenger.
  • Token-definisjon: Innhold utenfor separatorer og skilletegn blir ansett som "tokens", og omfatter tre typer: store bokstaver (*), tall (N) og andre tegn (Co).
  • CJK-tegnbehandling: De fleste kinesiske, japanske og koreanske (CJK) tegn i Unicode blir gjenkjent som tokens.

Siden det ikke finnes skilletegn mellom kinesiske tegn, hasher Telegram hele strengen med kinesiske tegn, noe som fører til dårlige søkeresultater. Denne artikkelen har fra et kodeperspektiv dybdegående utforsket begrensningene ved søk i kinesiske meldinger i Telegram.

Forbedringsforslag

  1. Manuelt innsetting av skilletegn: Legg manuelt til usynlige skilletegn mellom kinesiske tegn for å forbedre søkeresultatene.
  2. Tilpasset Tokenizer: Utvikle en egendefinert Tokenizer og modifisere Telegram-klienten for å forbedre søkefunksjonen.

AI-semantisk søk

I tillegg til tradisjonelle søkemetoder tilbyr introduksjonen av AI bedre løsninger for semantisk søk. Prosjektet telegram-search bruker innebyggingsmodeller (embedding models), som gjør at brukere kan finne ønsket innhold selv uten nøyaktige søkeordstreff. For eksempel, hvis man skriver inn "Den personen som spiste middag i går kveld" (昨晚吃饭的那个人) kan systemet finne "Mannen som spiste middag med oss i går kveld" (昨天晚上和我们一起吃饭的男的).

Gjennom metodene beskrevet ovenfor kan søkeopplevelsen for kinesiske meldinger i Telegram forbedres betydelig.