IntentChat Logo
← Back to hu-HU Blog
Language: hu-HU

A Telegram kínai üzenetei keresési funkciójának javítása

2025-06-24

A Telegram kínai üzenetei keresési funkciójának javítása

Konklúzió

A Telegramban található kínai üzenetek keresési hatékonyságának javításához láthatatlan elválasztók kézi beszúrása vagy egyedi tokenizer fejlesztése szükséges. Ezenkívül a mesterséges intelligencia (MI) technológia használatával végzett szemantikus keresés is jelentősen növelheti a keresés pontosságát.

Főbb pontok

  • Telegram adatbázis: A Telegram SQLite-ot használ adatbázisaként.
  • Teljes szöveges keresési mechanizmus: A Telegram teljes szöveges keresési funkciója egy tokenizer segítségével vágja szavakra a stringeket, hash értékeket generál, és kereséskor a hash táblával hasonlítja össze azokat.
  • Token generátor: A token generátor elválasztóktól és határolóktól függ a stringek felosztásához.
  • Token definíció: Az elválasztókon és határolókon kívüli tartalom "tokennek" minősül, beleértve a nagybetűket (*), számokat (N) és egyéb karaktereket (Co) mint három típust.
  • CJK karakterek kezelése: A kínai, japán és koreai (CJK) karakterek nagyrészt tokenként kerülnek felismerésre a Unicode CJK tartományból.

Mivel a kínai karakterek között nincsenek elválasztók, a Telegram a teljes kínai karaktersorozatot hash-eli, ami gyenge keresési eredményekhez vezet. Jelen cikk a Telegram kínai üzenetkeresésének korlátait tárgyalja részletesen, technikai szemszögből.

Fejlesztési javaslatok

  1. Elválasztók kézi beszúrása: Láthatatlan elválasztók kézi hozzáadása a kínai karakterek közé a keresési hatékonyság javítása érdekében.
  2. Egyedi Tokenizer: Egyedi tokenizer fejlesztése és a Telegram kliens módosítása a keresési funkciók javítása érdekében.

MI alapú szemantikus keresés

A hagyományos keresési módszereken túl az MI bevezetése jobb megoldást kínál a szemantikus keresésre. A telegram-search projekt beágyazási modelleket használ, lehetővé téve, hogy a felhasználók akkor is megtalálják a kívánt tartalmat, ha nincs pontos kulcsszó egyezés. Például, ha beírjuk, hogy "aki tegnap este evett", megtalálhatjuk "azt a férfit, aki tegnap este velünk vacsorázott" kifejezést.

A fenti módszerekkel jelentősen javítható a Telegramban található kínai üzenetek keresési élménye.