டெலிகிராமில் சீன மொழி செய்திகளைத் தேடும் திறனை மேம்படுத்துதல்
முடிவுரை
டெலிகிராமில் சீன மொழிச் செய்திகளைத் தேடும் திறனை மேம்படுத்த, கண்ணுக்குத் தெரியாத பிரிப்பான்களை (delimiters) கைமுறையாகச் செருகுவதன் மூலமோ அல்லது தனிப்பயன் டோக்கனைசர்களை (Tokenizer) உருவாக்குவதன் மூலமோ அடையலாம். மேலும், AI தொழில்நுட்பத்தைப் பயன்படுத்திச் செய்யப்படும் பொருள் சார்ந்த தேடல் (semantic search) தேடலின் துல்லியத்தை கணிசமாக உயர்த்தும்.
முக்கிய அம்சங்கள்
- டெலிகிராம் தரவுத்தளம்: டெலிகிராம் தனது தரவுத்தளமாக SQLite ஐப் பயன்படுத்துகிறது.
- முழு உரைத் தேடல் பொறிமுறை: டெலிகிராமின் முழு உரைத் தேடல் செயல்பாடு, டோக்கனைசர் மூலம் சரம் (string) சிறு வார்த்தைகளாகப் பிரிக்கப்பட்டு, ஹாஷ் மதிப்புகளை (hash values) உருவாக்குகிறது. தேடும்போது இந்த மதிப்புகள் ஹாஷ் அட்டவணைகளுடன் (hash tables) ஒப்பிடப்படுகின்றன.
- டோக்கன் ஜெனரேட்டர்: டோக்கன் ஜெனரேட்டர்கள், சரங்களைப் பிரிக்க பிரிப்பான்கள் (separators) மற்றும் டிலிமிடர்களை (delimiters) சார்ந்திருக்கின்றன.
- டோக்கன் வரையறை: பிரிப்பான்கள் மற்றும் டிலிமிடர்கள் தவிர்த்த உள்ளடக்கங்கள் "டோக்கன்கள்" (tokens) எனக் கருதப்படுகின்றன. இதில் பெரிய எழுத்துக்கள் (*), எண்கள் (N) மற்றும் பிற எழுத்துக்கள் (Co) என மூன்று வகைகள் அடங்கும்.
- CJK எழுத்து கையாளுதல்: யூனிகோட் CJK எழுத்துக்களில் பெரும்பாலானவை டோக்கன்களாக அங்கீகரிக்கப்படுகின்றன.
சீன எழுத்துக்களுக்கு இடையே பிரிப்பான்கள் இல்லாததால், டெலிகிராம் ஒட்டுமொத்த சீன எழுத்து சரத்தையும் ஹாஷ் செய்து, தேடல் திறனைப் பாதிக்கிறது. இந்தக் கட்டுரை டெலிகிராமில் சீன மொழிச் செய்தித் தேடலின் வரம்புகளைக் குறியீட்டு (code) கண்ணோட்டத்தில் ஆழமாக ஆராய்கிறது.
மேம்பாட்டுப் பரிந்துரைகள்
- கைமுறையாக பிரிப்பான்களைச் செருகுதல்: சீன எழுத்துக்களுக்கு இடையே கண்ணுக்குத் தெரியாத பிரிப்பான்களை (delimiters) கைமுறையாகச் சேர்ப்பதன் மூலம் தேடல் திறனை மேம்படுத்தலாம்.
- தனிப்பயன் டோக்கனைசரை உருவாக்குதல்: தேடல் செயல்பாட்டை மேம்படுத்தும் வகையில் டெலிகிராம் கிளையண்டை மாற்றியமைக்க ஒரு தனிப்பயன் டோக்கனைசரை உருவாக்கலாம்.
AI பொருள் சார்ந்த தேடல்
பாரம்பரிய தேடல் முறைகள் தவிர, AI இன் அறிமுகம் பொருள் சார்ந்த தேடலுக்கு (semantic search) சிறந்த தீர்வுகளை வழங்குகிறது. telegram-search எனும் திட்டம் எம்படிங் மாதிரிகளைப் (embedding models) பயன்படுத்துகிறது, இது துல்லியமாகப் பொருந்தாத முக்கிய வார்த்தைகள் இல்லாவிட்டாலும் கூட, பயனர்கள் தங்களுக்குத் தேவையான உள்ளடக்கத்தைக் கண்டறிய உதவுகிறது. உதாரணமாக, "நேற்று இரவு சாப்பிட்டவர் யார்" என்று உள்ளிடும்போது, "நேற்று இரவு எங்களுடன் சாப்பிட்ட ஆண்" என்பதைக் கண்டறியலாம்.
மேலே குறிப்பிட்ட முறைகள் மூலம், டெலிகிராமில் சீன மொழிச் செய்திகளைத் தேடும் அனுபவத்தை கணிசமாக உயர்த்த முடியும்.