இனிய புத்தாண்டு வாழ்த்துக்கள் – 2024. அனைவருக்கும் புத்துணர்ச்சியோடு மென்மேலும் ஒரு புதிய வாய்ப்பு கிடைத்ததாக உணர்கின்றோன்.
தமிழ் கணிமை சூழலில் இவை சிறப்பான நிகழ்வுகள் இந்த ஆண்டில் குறிப்பிடப்பட்டவை/த்தக்கவை
- தமிழ் கணிமை மாநாடு (தமிழ் நாடு அரசு) பிப்ரவரி 2024
- உத்தமம் (INFITT) டல்லஸ், டெக்சாசு மாநாடு, செப்டம்பர், 2024 (தோராயமான தேதி)
எனது ஆசைத்திட்டங்கள்:
- ASpell தமிழ் சொற்பிழைத்திருத்தி தமிழ் சார் மேம்பாடுகள்:
- புதிய தமிழ் சொல்பட்டியல்களை உருவாக்குவது
- துறைசார் தமிழ் சொல்பட்டியல்களை இணைப்பது; இதற்கென தமிழ்பேசு தளத்தில் ஒரு செயலியை (எனது தனிப்பட்ட சொல்பட்டியல் தயார் செய்க) என்ற உத்தியை உருவாக்குவது
- இதனைப்பற்றிய ஒரு கட்டுரை (2021-இல்) https://ezhillang.wordpress.com/2021/02/27/aspell-hunspell-for-tamil/
- உரையாடல்களை ஒருங்கிணைப்பது;
- Working with GNU Aspell today, and y’day morning. It has tools modes to generate your own wordlists in a special affix format.
- Time to get all those wordlists and organize them into Tamil affix dictionaries.
- Affix is general word for both suffix / prefix (முன்/பின் ஒற்று) and forms compressed representation of storing agglutinative words. Writing this format is not friendly for humans whereas aspell can generate same from straight wordlists.
- இவற்றை Hunspell க்கும் பங்களிப்பது
- இரா. அசோகன்: “Here is my Hunspell affix rule list for Tamil verbs and nouns. I think it is compatible with Aspell” https://github.com/AshokR/TamilNLP/blob/master/tamilnlp/Resources/ta_IN.aff
- TamilSpeller, Solthiruthi – update with new Levenshtein edit-distance algorithm:
- Levenstein edit-distance can be calculated quickly using Rust implementation as shown in https://github.com/hisbaan/didyoumean/pull/33 – however by adding heuristic of triangle-inequality to this implementation we can rapidly speedup the edit distance of word across a large dictionary using prior compute.
- Heuristic: over 80-90% of the words in Tamil text are not going to be erroneous
- Tamil LLAMA based spell-checker using Llama.cpp (TBD)
- We have a blank word completion as a suggestion using LLMs.
- Revive Tamilpesu.us:
- Sponsored by my organization at $10/mo for open-tamil project