எழில் – சில அம்சங்கள் – மீள்பார்வை

சமிபத்தில் எழில் முக்கிய அம்சங்கள் பற்றி பேச நேர்ந்தது. அதன் காட்சிவில்லை.

Lemonade

“கிடைப்பதெல்லாம் புளிப்பான எலுமிச்சைதான் என்றால் அதில் சிறப்பான எலுமிச்சைசாறு குளிர்பானத்தை செய்யும்,” என்பது அமெரிக்க நடைமுறை. இதனை மிகையாகக் கொண்டு பிரபல இசைபாடகி பியான்சே ஒரு முழு பாடல் தொகுப்பையே, Lemonade என 2016-இல் வெளியிட்டாள். அதில் கருப்பினத்தின் மீது போலிசார் வழி நடத்தும் அமெரிக்க அடக்குமுறையை கடுமையாக விமர்சித்தும் பாடினாள் பியான்சே – அவள் மால்கம்-எக்ஸ், கருப்பு சிருத்தைகள் என்றெல்லாம் அவர்களது வரிகளில் பூந்து ஒரு ஆதங்கத்தை கலைவடிவு படுத்தினாள்.

லெமனேட் – (C) 2016 Beyoncé

அதெல்லாம் சரி. தமிழில் சிறப்பாக livestream/videoconference வழி (இயங்கு + அலை = இயங்கலை) வழி ஒரு மாநாட்டை இந்த பேரிடர் காலத்தில் நடத்துவது என்பது இங்கு நமக்கு நடந்த ஒரு லெமனேட் என்று காணலாம். என்னதான் கொரோனா நுண்கிருமி தொற்று நோய் பரந்தாலும் நாம் சோர்வடையாமல் நமது affirmations-ஐ நினைத்தபடி முன்னெடுத்துச்செல்வது முக்கியமாக அமைகிறது.

மாநாடு மலர் வெளிவரயிருக்கிறது. மாநாடு சிறப்பாக நடைபெற பலரும் அயராது உழைத்தனர் – முதன்மையாக இருவர்: இளந்தமிழ், மற்றும் சீனி. இதில் பங்கேற்றுதும், அருகாமையில் இருந்து சிறிய குழுவின் சாதூரியமான செயல்பாடு, அடுத்த தலைமுறையினரின் அதீத ஈடுபாடு என்பதையும் சிறப்பாக தமிழ் கணிமைக்கு விளங்கும் என்பது புலப்படுகிறது. இனி தமிழ் மெல்ல வாழும் என்பதும் புரிகிரது.

மாநாடு காணொளிகள் இங்கு youtube-இல் காணலாம்: (கீழ் உள்ள வீடியோ வேலைசெய்யவில்லை எனில் இங்கு காண்க)

2020 கட்டற்ற தமிழ் மென்பொருள் மாநாடு

“மலேசிய உத்தமம், ஓம்தமிழ் ஏற்பாட்டில், கணியம் அறக்கட்டளை, தித்தியான் டிஜிட்டல், மொசில்லா தமிழ் குழுமம், உபுண்டு தமிழ் குழுமம், தமிழ் லிப்ரெஓபிஸ் இணை ஏற்பாட்டில் 4 – 5 ஜூலை 2020 அன்று, உலகின் முதலாவது கட்டற்ற தொழில்நுட்பத் தமிழ் மாநாடு” இணையம்வழி ஏற்பாடு செய்யப்பட்டது.

ஆன்டிராய்டு, பைதான், மொசில்லா, இணையப் பாதுகாப்பு, கணினி மொழியியல், கணினி அறிவியல், செயற்கை நுண்ணறிவு, பொருட்களின் கணினி போன்ற தலைப்புகளில் கணிஞர்கள் படைப்பினை வழங்கினர். சில படைப்புகள் பட்டறைகளாக நடத்தப்பட்டது.

INFITT MALAYSIA & OMTAMIL with KANIYAM FOUNDATION, PROGRAM TITIAN DIGITAL, MOZILLA TAMIL GROUP, UBUNTU TAMIL GROUP, TAMIL LIBREOFFICE organised World’s First in Tamil “Open Source Technology Conference” via online on the 4th & 5th of July 2020.”

2020 – Tamil Open Source conference

இன்று தமிழ் மாநாட்டில் “Open-Tamil – திறமூல தமிழ் நிரல் தொகுப்பு,” என்ற தலைப்பில் பேசுவேன்.

Open-Tamil – திறமூல தமிழ் நிரல் தொகுப்பு

    அருளாளன், சையது அபுதாகிர், பரதன் தியாகலிங்கம், சீனிவாசன், சத்தியா மகாதேவன், அருண்ராம், மற்றும் முத்து அண்ணாமலை.

அனுகும் மின்னஞ்சல்: ezhillang@gmail.com, நாள்: ஜீலை 1, 2020.

1. அறிமுகம்

ஒப்பன் தமிழ் என்பது ஒரு திற்மூல் நிரல் தொகுப்பு திட்டம். இது எழில் கணினி மொழியில் ஆக்கத்தை தொடர்ந்து தமிழில் பலரும் எளிதாக கணினி செயலிகளை பைத்தான் மொழியில் உருவாகவேண்டும் என்ற நோக்கில் எழிலின் ஒரு கீற்றாகப் பிறப்பெருத்தது. இந்த நிரல் திட்டம் முதலில் பைத்தான் மொழியில் வெளிவந்தது – பின்னர் சில சேவைகள் மட்டும் ஜாவா, ரூபி மொழிகளில் வழ்ங்கப்பட்டன் – எனினும் பெரும்பாலான வசதிகள் பைத்தான் மொழியின் வாயிலாகவே பெறமுடியும்.

படம். 1: தமிழ் பேசு திட்டத்தின் சின்னம்.

2. கட்டமைப்புகள்

இந்த நிரல்தொகுப்பிலுள்ள மொட்யூல்களாவன கீழோ. இவற்றின் முழு விவரங்களையும் காண http://tamilpesu.us/static/sphinx_doc/_build/html/sphinx_doc/ இங்கு செல்லலாம்.

Moduleபயன்பாடுகள்/சார்புகள்
1tamilTamil tokenization, word ordering, encoding converters, numerals, text summarizer.
2ngramcorpus modeling classes
3solthiruthiTamil spelling checker algorithms
4spellTamil spelling checker application
5tamilmorseMorse code generation, decoding for Tamil
6tamilsandhiTamil sandhi-checker – packaged with Open-Tamil but developed independently by Nithya and Shrinivasan.
7transliterateTamil transliteration tools
8tamilstemmerThis module is new in version 0.96 and provides access to simple stemmer functions originally created by Damodharan Rajalingam
9tabrailleTamil Braille generation following Barathia Braille standard
10kuralThirukkural source text and English translation

.

Open-Tamil source code examples like numeral to audio generation, ngram generation, corpus analysis etc. see link here.

3. வெளியீடு, உரிமம், நிறுவுதல்

2015-இல் முதல் வெளியீடு (வரிசை எண் 0.4) கண்டு பின்னர் இந்த ஆண்டு ஜூன் 12-இல் சமீபத்திய (ஒன்பதாம்) வெளியீடு (வரிசை எண் 0.97) கண்டது. இந்த நிரல் தொகுப்பு MIT உரிமம் வழியாக நீட்சி செய்தும், பகிர்ந்து மறுசெயல்பாட்டிலும் உபயோகிக்கலாம்.

சமீபத்திய வரிசை எண் 0.97-இல் வெளிவந்த புதிய அம்சங்களானவையாவன:

  1. மாத்திரை கணித்தல் – தமிழ் உரையில் உள்ள சொற்களின் மாத்திரை அளவை கணிக்க புதியசார்பு ‘tamil.utf8.total_maaththirai()’ என்று திரு. பரதன் தியாகலிங்கம் அவரால் பங்களிக்கப்பட்டது.
  2. வடமொழி சொல்பட்டியல் மோனியர்-வில்லியம்ஸ் அவரது அகராதியில் இருந்து திரிக்கப்பட்டு இங்கு சேர்க்கப்பட்டது
  3. ‘tabraille’ என்ற module-இல் கண்பார்வை குறை உள்ளவர்களினால் தமிழ் பாரத பிரெயில் என்ற தரத்தை கையாளும் வகை சில உத்திகள் உள்ளன.
  4. ‘kural’ என்ற module-இல் திருக்குறளை நேரடியாக கையாள சில உத்திகள் உள்ளன. இது 2013-இல் வெளிவந்த ‘libkural’ என்பதன் மீள்பதிவாகும்.

இதனை நிறுவ இப்படி கட்டளை கொடுக்கலாம்,

$ pip install open-tamil

ஏற்கனவே நிறுவியிருப்பின் புதிய அத்யாயத்தில் நிறுவ, என்றும் கொடுக்கலாம்.

$ pip install –upgrade open-tamil

4. வளர்ச்சி

ஓப்பன்-தமிழ் திட்டம் இதனைக்கொண்டு பல மென்பொருடகள் இன்று இயங்கிவருகின்றன – இவற்றில் முக்கியமானவை http://tamilpesu.us என்ற வலைத்தளம். இந்த நிரல்தொகுப்பில் இருந்து செயல்பாடுகளை மொத்தமாக வலைவழியாக தமிழ் ஆர்வலர்கள் கணிமை செய்யாமல் பயன்படுத்த இது உதவும்.

       படம் 2: ஒப்பன்-தமிழ் வழி உருவாக்கப்பட்ட தமிழ்பேசு வலைதளத்தில் உள்ள பெருக்கல் அட்டவனை செயலி.

ஒப்பன் தமிழ் கொண்டு பல தமிழ்இயல்மொழி ஆய்வுகள் (உதாரணமாக Tamil NLP, PyTamil) என்ற திட்டங்களும் செயல்படுகின்றன. இது எங்களுக்கு தெறித்தவை மட்டுமே!

5. பங்களிப்பாளார்கள்

மற்ற திற மூல மென்பொருட்களைப்போலவே ஒப்பன்-தமிழ் இதன் உருவாக்கம், மற்றும் வளர்ச்சி கிட் வலைத்தளத்தில் வழியாக நிர்வாகிக்கப்படுகிறது. இதன் சுட்டி – 

https://github.com/Ezhil-Language-Foundation/open-tamil

எழில் மொழி அறக்கட்டளையின் பார்வையில் இது மேம்படுத்தப்பட்டாலும், இதன்வழியாக பத்துக்கும் மேற்பட்ட பங்களிப்பாளர்கள் உள்ளனர்.இந்த திட்டம் ஏரக்குறைய 800 பங்களிப்புகளை பெற்றும், 114 வழு/திறணாம்சங்களையும் முடிவுபடித்தியும், மேலும் 82 திறணாம்சங்களை ஒழுங்கு செய்தும் வடிவமைப்புக்காக குறிக்கப்பட்டுள்ளன. 

இந்த திட்டத்தை அனைவரும் தொடர்ந்து பயன்படுத்தியும், ஆதரிக்குமாரும் கேட்டுககொள்கிறோம்.