የቴሌግራም የቻይንኛ መልዕክቶች ፍለጋን ማሻሻል
ማጠቃለያ
በቴሌግራም ውስጥ ያለውን የቻይንኛ መልዕክቶች የፍለጋ ውጤታማነትን ለማሻሻል፣ የማይታዩ መለያዎችን (delimiters) በእጅ በማስገባት ወይም ብጁ ቶከናይዘር (Tokenizer) በማልማት ማሳካት ይቻላል። ከዚህም በተጨማሪ፣ የአርቴፊሻል ኢንተለጀንስ (AI) ቴክኖሎጂን በመጠቀም የትርጉም ፍለጋ (semantic search) ማድረግ የፍለጋን ትክክለኛነት በእጅጉ ማሻሻል ይችላል።
ቁልፍ ነጥቦች
- የቴሌግራም ዳታቤዝ፦ ቴሌግራም ዳታቤዙን ለመጠቀም SQLiteን ይጠቀማል።
- የሙሉ ጽሑፍ ፍለጋ ዘዴ፦ የቴሌግራም ሙሉ ጽሑፍ ፍለጋ ተግባር በቶከናይዘር (Tokenizer) አማካኝነት የጽሑፍ መስመሮችን (strings) ወደ አጫጭር ሀረጎች ይከፋፍላል፣ ሃሽ (hash) እሴቶችን ይፈጥራል እንዲሁም ሲፈልግም ከሃሽ ሠንጠረዥ (hash table) ጋር ያነጻጽራል።
- ቶከን (token) ፈጣሪ፦ ቶከን (token) ፈጣሪ የጽሑፍ መስመሮችን ለመከፋፈል በመለያዎች (separators) እና በመከፋፈያዎች (delimiters) ላይ የተመካ ነው።
- የቶከን (token) ትርጉም፦ ከመለያዎች እና ከመከፋፈያዎች ውጪ ያሉ ይዘቶች "ቶከን" (token) ተብለው ይታያሉ። እነዚህም ሦስት አይነቶችን ያካትታሉ፡- የካፒታል ፊደላት (*), ቁጥሮች (N) እና ሌሎች ቁምፊዎች (Co)።
- የCJK ቁምፊዎችን አያያዝ፦ የቻይንኛ፣ የጃፓን እና የኮሪያ ቁምፊዎች (CJK characters) የዩኒኮድ CJK አካል ሲሆኑ፣ አብዛኛዎቹ እንደ ቶከን (token) ተደርገው ይታወቃሉ።
በቻይንኛ ፊደላት መካከል መለያዎች ባለመኖራቸው ምክንያት ቴሌግራም ሙሉ የቻይንኛ ፊደላትን (strings) ሃሽ (hash) ያደርጋል፣ ይህም ደካማ የፍለጋ ውጤቶችን ያስከትላል። ይህ ጽሑፍ የቴሌግራም የቻይንኛ መልዕክቶች ፍለጋ ውስንነቶችን ከኮድ አንጻር በጥልቀት ይዳስሳል።
ማሻሻያ ሀሳቦች
- መለያዎችን በእጅ ማስገባት፦ የፍለጋ ውጤታማነትን ለማሻሻል በቻይንኛ ፊደላት መካከል የማይታዩ መለያዎችን በእጅ ያክሉ።
- ብጁ ቶከናይዘር (Tokenizer)፦ የፍለጋ ተግባርን ለማጠናከር ብጁ ቶከናይዘር (Tokenizer) ያልሙ እና የቴሌግራም ክላየንት (client) ያሻሽሉ።
የአርቴፊሻል ኢንተለጀንስ የትርጉም ፍለጋ (AI Semantic Search)
ከተለምዷዊ የፍለጋ ዘዴዎች በተጨማሪ፣ የAI (አርቴፊሻል ኢንተለጀንስ) መግቢያ ለትርጉም ፍለጋ የተሻለ መፍትሄ ይሰጣል። ፕሮጀክት telegram-search የኤምቤዲንግ ሞዴሎችን (embedding models) ይጠቀማል፣ ይህም ትክክለኛ ተዛማጅ ቁልፍ ቃላት ባይኖሩም ተጠቃሚዎች የሚፈልጉትን ይዘት እንዲያገኙ ያስችላቸዋል። ለምሳሌ፣ "ትናንትና ማታ የበላው ሰው" ብለው ካስገቡ፣ "ትናንትና ማታ ከኛ ጋር የበላው ወንድ" የሚለውን መፈለግ ይቻላል።
ከላይ በተጠቀሱት ዘዴዎች አማካኝነት፣ በቴሌግራም ውስጥ ያለውን የቻይንኛ መልዕክቶች የፍለጋ ልምድ በእጅጉ ማሳደግ ይቻላል።