IntentChat Logo
← Back to தமிழ் Blog
Language: தமிழ்

டெலிகிராமில் சீன மொழி செய்திகளைத் தேடும் திறனை மேம்படுத்துதல்

2025-06-24

டெலிகிராமில் சீன மொழி செய்திகளைத் தேடும் திறனை மேம்படுத்துதல்

முடிவுரை

டெலிகிராமில் சீன மொழிச் செய்திகளைத் தேடும் திறனை மேம்படுத்த, கண்ணுக்குத் தெரியாத பிரிப்பான்களை (delimiters) கைமுறையாகச் செருகுவதன் மூலமோ அல்லது தனிப்பயன் டோக்கனைசர்களை (Tokenizer) உருவாக்குவதன் மூலமோ அடையலாம். மேலும், AI தொழில்நுட்பத்தைப் பயன்படுத்திச் செய்யப்படும் பொருள் சார்ந்த தேடல் (semantic search) தேடலின் துல்லியத்தை கணிசமாக உயர்த்தும்.

முக்கிய அம்சங்கள்

  • டெலிகிராம் தரவுத்தளம்: டெலிகிராம் தனது தரவுத்தளமாக SQLite ஐப் பயன்படுத்துகிறது.
  • முழு உரைத் தேடல் பொறிமுறை: டெலிகிராமின் முழு உரைத் தேடல் செயல்பாடு, டோக்கனைசர் மூலம் சரம் (string) சிறு வார்த்தைகளாகப் பிரிக்கப்பட்டு, ஹாஷ் மதிப்புகளை (hash values) உருவாக்குகிறது. தேடும்போது இந்த மதிப்புகள் ஹாஷ் அட்டவணைகளுடன் (hash tables) ஒப்பிடப்படுகின்றன.
  • டோக்கன் ஜெனரேட்டர்: டோக்கன் ஜெனரேட்டர்கள், சரங்களைப் பிரிக்க பிரிப்பான்கள் (separators) மற்றும் டிலிமிடர்களை (delimiters) சார்ந்திருக்கின்றன.
  • டோக்கன் வரையறை: பிரிப்பான்கள் மற்றும் டிலிமிடர்கள் தவிர்த்த உள்ளடக்கங்கள் "டோக்கன்கள்" (tokens) எனக் கருதப்படுகின்றன. இதில் பெரிய எழுத்துக்கள் (*), எண்கள் (N) மற்றும் பிற எழுத்துக்கள் (Co) என மூன்று வகைகள் அடங்கும்.
  • CJK எழுத்து கையாளுதல்: யூனிகோட் CJK எழுத்துக்களில் பெரும்பாலானவை டோக்கன்களாக அங்கீகரிக்கப்படுகின்றன.

சீன எழுத்துக்களுக்கு இடையே பிரிப்பான்கள் இல்லாததால், டெலிகிராம் ஒட்டுமொத்த சீன எழுத்து சரத்தையும் ஹாஷ் செய்து, தேடல் திறனைப் பாதிக்கிறது. இந்தக் கட்டுரை டெலிகிராமில் சீன மொழிச் செய்தித் தேடலின் வரம்புகளைக் குறியீட்டு (code) கண்ணோட்டத்தில் ஆழமாக ஆராய்கிறது.

மேம்பாட்டுப் பரிந்துரைகள்

  1. கைமுறையாக பிரிப்பான்களைச் செருகுதல்: சீன எழுத்துக்களுக்கு இடையே கண்ணுக்குத் தெரியாத பிரிப்பான்களை (delimiters) கைமுறையாகச் சேர்ப்பதன் மூலம் தேடல் திறனை மேம்படுத்தலாம்.
  2. தனிப்பயன் டோக்கனைசரை உருவாக்குதல்: தேடல் செயல்பாட்டை மேம்படுத்தும் வகையில் டெலிகிராம் கிளையண்டை மாற்றியமைக்க ஒரு தனிப்பயன் டோக்கனைசரை உருவாக்கலாம்.

AI பொருள் சார்ந்த தேடல்

பாரம்பரிய தேடல் முறைகள் தவிர, AI இன் அறிமுகம் பொருள் சார்ந்த தேடலுக்கு (semantic search) சிறந்த தீர்வுகளை வழங்குகிறது. telegram-search எனும் திட்டம் எம்படிங் மாதிரிகளைப் (embedding models) பயன்படுத்துகிறது, இது துல்லியமாகப் பொருந்தாத முக்கிய வார்த்தைகள் இல்லாவிட்டாலும் கூட, பயனர்கள் தங்களுக்குத் தேவையான உள்ளடக்கத்தைக் கண்டறிய உதவுகிறது. உதாரணமாக, "நேற்று இரவு சாப்பிட்டவர் யார்" என்று உள்ளிடும்போது, "நேற்று இரவு எங்களுடன் சாப்பிட்ட ஆண்" என்பதைக் கண்டறியலாம்.

மேலே குறிப்பிட்ட முறைகள் மூலம், டெலிகிராமில் சீன மொழிச் செய்திகளைத் தேடும் அனுபவத்தை கணிசமாக உயர்த்த முடியும்.