Telegram'da Çince Mesaj Arama Yeteneğini Geliştirme
Sonuç
Telegram'da Çince mesaj arama performansını iyileştirmek için, görünmez ayraçları manuel olarak eklemek veya özel bir Tokenizer geliştirmek mümkündür. Ayrıca, yapay zeka (YZ) teknolojilerini kullanarak semantik arama yapmak da arama doğruluğunu önemli ölçüde artırabilir.
Kilit Noktalar
- Telegram Veritabanı: Telegram, veritabanı olarak SQLite kullanır.
- Tam Metin Arama Mekanizması: Telegram'ın tam metin arama özelliği, dizgileri Tokenizer aracılığıyla parçalara ayırır ve karma (hash) değerleri oluşturur; arama sırasında bu değerler bir karma tabloyla karşılaştırılır.
- Token Üretici: Token üretici, dizgileri kesmek için ayırıcılara ve sınırlayıcılara dayanır.
- Token Tanımı: Ayırıcılar ve sınırlayıcılar dışındaki içerik "token" olarak kabul edilir ve üç türe ayrılır: büyük harfler (*), sayılar (N) ve diğer karakterler (Co).
- CJK Karakter İşleme: Çince, Japonca ve Korece (CJK) karakterleri, Unicode CJK kategorisinin çoğu Token olarak tanınır.
Çince karakterler arasında ayraç bulunmadığı için Telegram, tüm Çince karakter dizgisini karma (hash) işlemine tabi tutar, bu da arama sonuçlarının yetersiz kalmasına yol açar. Bu makale, Telegram'da Çince mesaj aramasının sınırlılıklarını kod açısından derinlemesine incelemiştir.
Geliştirme Önerileri
- Manuel Olarak Ayraç Ekleme: Çince karakterler arasına görünmez ayraçlar manuel olarak ekleyerek arama performansını artırın.
- Özel Tokenizer: Arama işlevini güçlendirmek için Telegram istemcisini değiştirecek özel bir Tokenizer geliştirin.
YZ Semantik Arama
Geleneksel arama yöntemlerinin yanı sıra, YZ'nin kullanımı semantik arama için daha iyi çözümler sunar. telegram-search projesi, gömme modellerini (embedding models) kullanarak, anahtar kelimelerin tam eşleşmesi olmasa bile kullanıcıların istedikleri içeriği bulmasını sağlar. Örneğin, "昨晚吃饭的那个人" (dün gece yemek yiyen kişi) yazıldığında, "昨天晚上和我们一起吃饭的男的" (dün akşam bizimle birlikte yemek yiyen adam) şeklinde bir sonuç bulunabilir.
Bu yöntemlerle Telegram'da Çince mesaj arama deneyimi önemli ölçüde geliştirilebilir.