கவணிக்கவேண்டியவை – 2024 திட்டங்கள்

இனிய புத்தாண்டு வாழ்த்துக்கள் – 2024. அனைவருக்கும் புத்துணர்ச்சியோடு மென்மேலும் ஒரு புதிய வாய்ப்பு கிடைத்ததாக உணர்கின்றோன்.

தமிழ் கணிமை சூழலில் இவை சிறப்பான நிகழ்வுகள் இந்த ஆண்டில் குறிப்பிடப்பட்டவை/த்தக்கவை

  • தமிழ் கணிமை மாநாடு (தமிழ் நாடு அரசு) பிப்ரவரி 2024
  • உத்தமம் (INFITT) டல்லஸ், டெக்சாசு மாநாடு, செப்டம்பர், 2024 (தோராயமான தேதி)

எனது ஆசைத்திட்டங்கள்:

  • ASpell தமிழ் சொற்பிழைத்திருத்தி தமிழ் சார் மேம்பாடுகள்:
    • புதிய தமிழ் சொல்பட்டியல்களை உருவாக்குவது
    • துறைசார் தமிழ் சொல்பட்டியல்களை இணைப்பது; இதற்கென தமிழ்பேசு தளத்தில் ஒரு செயலியை (எனது தனிப்பட்ட சொல்பட்டியல் தயார் செய்க) என்ற உத்தியை உருவாக்குவது
    • இதனைப்பற்றிய ஒரு கட்டுரை (2021-இல்) https://ezhillang.wordpress.com/2021/02/27/aspell-hunspell-for-tamil/
    • உரையாடல்களை ஒருங்கிணைப்பது;
      • Working with GNU Aspell today, and y’day morning. It has tools modes to generate your own wordlists in a special affix format.
      • Time to get all those wordlists and organize them into Tamil affix dictionaries.
      • Affix is general word for both suffix / prefix (முன்/பின் ஒற்று) and forms compressed representation of storing agglutinative words. Writing this format is not friendly for humans whereas aspell can generate same from straight wordlists.
      • இவற்றை Hunspell க்கும் பங்களிப்பது
  • TamilSpeller, Solthiruthi – update with new Levenshtein edit-distance algorithm:
    • Levenstein edit-distance can be calculated quickly using Rust implementation as shown in https://github.com/hisbaan/didyoumean/pull/33 – however by adding heuristic of triangle-inequality to this implementation we can rapidly speedup the edit distance of word across a large dictionary using prior compute.
    • Heuristic: over 80-90% of the words in Tamil text are not going to be erroneous
  • Tamil LLAMA based spell-checker using Llama.cpp (TBD)
    • We have a blank word completion as a suggestion using LLMs.
  • Revive Tamilpesu.us:
    • Sponsored by my organization at $10/mo for open-tamil project

பின்னூட்டமொன்றை இடுக

This site uses Akismet to reduce spam. Learn how your comment data is processed.