שיפור יכולות חיפוש הודעות בסינית בטלגרם

מסקנה

כדי לשפר את יעילות חיפוש ההודעות בסינית בטלגרם, ניתן להוסיף מפרידים בלתי נראים באופן ידני או לפתח מנתח אסימונים (Tokenizer) מותאם אישית. בנוסף, שימוש בטכנולוגיית בינה מלאכותית (AI) לחיפוש סמנטי יכול גם לשפר משמעותית את דיוק החיפוש.

נקודות מפתח

בסיס הנתונים של טלגרם: טלגרם משתמשת ב-SQLite כבסיס הנתונים שלה.
מנגנון חיפוש טקסט מלא: פונקציית חיפוש הטקסט המלא של טלגרם חותכת מחרוזות לביטויים באמצעות מנתח אסימונים (Tokenizer), ויוצרת ערכי גיבוב (hash values) שמושווים לטבלת גיבוב (hash table) במהלך החיפוש.
מחולל אסימונים (Token generator): מחולל האסימונים מסתמך על מפרידים ודלימיטרים כדי לחתוך מחרוזות.
הגדרת אסימונים (Tokens): תוכן שאינו מפרידים ודלימיטרים נחשב ל"אסימונים" (tokens), והוא כולל שלושה סוגים: אותיות רישיות (*), מספרים (N) ותווים אחרים (Co).
טיפול בתווי CJK: תווים סיניים, יפניים וקוריאניים (CJK) השייכים ליוניקוד CJK רובם מזוהים כאסימונים.

מכיוון שאין מפרידים בין תווי האנג'י (סינית), טלגרם מבצעת גיבוב למחרוזת שלמה של תווי האנג'י, מה שמוביל לתוצאות חיפוש לא מספקות. מאמר זה בוחן לעומק, מנקודת מבט קוד, את מגבלות חיפוש ההודעות בסינית בטלגרם.

הצעות לשיפור

הוספה ידנית של מפרידים: הוספה ידנית של מפרידים בלתי נראים בין תווי האנג'י, כדי לשפר את יעילות החיפוש.
מנתח אסימונים (Tokenizer) מותאם אישית: פיתוח מנתח אסימונים (Tokenizer) מותאם אישית, ושינוי לקוח הטלגרם כדי לשפר את פונקציונליות החיפוש.

חיפוש סמנטי באמצעות AI

בנוסף לשיטות חיפוש מסורתיות, הכנסת AI (בינה מלאכותית) מציעה פתרונות טובים יותר לחיפוש סמנטי. הפרויקט telegram-search משתמש במודלי הטמעה (embedding models), מה שמאפשר למשתמשים למצוא את התוכן הרצוי גם ללא התאמה מדויקת של מילות מפתח. לדוגמה, הקלדת "האדם שאכל אתמול בלילה" יכולה להוביל לתוצאות כמו "הגבר שאכל איתנו אתמול בלילה".

באמצעות השיטות הנ"ל, ניתן לשפר משמעותית את חווית חיפוש ההודעות בסינית בטלגרם.