மொழிவெளியில் எண்ணிம செயல்பாடும், பங்களிப்புகளும்

தமிழில் ஏன் நாம் செயல்படுகிறோம் என்று பலருக்கும் குறிப்பிட்டவரைப்பற்றி ஒரு கருத்து இருக்கும்பொழுது செயல்படும் நம்மவர்க்கு என்ன புரிதல் இருக்கிறது? ஒரு கண்ணாடியில் பார்த்தால் போதுமே – புலப்படும் அந்த பிம்பத்தின் உரிமையாளர். அவர்களது மனதில் நினைவோட்டத்தில் எண்ண ஓடுகிறது என்று எளிதில் சொல்லமுடியுமா என்ன – ஒட்டு மொத்த உளவியல், மனோதத்துவியல் துறைகளே இதனை சுற்றி கட்டமைக்கப்பட்டவை. அவர்கள் கண்டதைவிட புதிதாக நாம் எதுவும் இந்த வலைப்பதிவின் நீளத்தில் புரிந்துவிடலாமா என்ன? விளையாடாதீங்க.

சரி அப்பொழுது பொதுவான தனிமனித பொழுதுபோக்கு நேரங்களில் பங்களிப்புகள் நடத்தும் நமக்கு என்ன தேவைகள் இருக்கிறது? இவை எவ்வாராவது உறுமாறி தமிழ் பங்களிப்புகளாக மாற்றமடைகின்றன என்பதுதான் பலருக்கும் உள்ள செயல்பாட்டு நோக்கமாக அமைகிறது.

“தமிழ் சற்று தேக்கம் அடைந்த மொழி, தமிழில் செயல்படுவது ஒரு அடாவிசம் (atavism),” என்றெல்லாம் மற்ற இந்திய மொழியினர்கள் குற்றம் சாட்டினாலோ அல்லது மனதிற்குள் செறுக்காக எடைபோட்டு மதிப்பிட்டாலோ அவர்களுக்கு தமிழில் நடந்த, நடக்கும் விவாதங்கள், புரட்சி, போராட்டங்கள், அழகியல், முரண் போன்ற அறிவுசார்விவாதங்கள் பற்றியும் ஒன்றுமோ அறியாமையை மட்டும் சுட்டுகிறது.

ஆகட்டும் அவர்கள் கண்களுக்கு அரைப்பழங்குடியினராக மட்டும் தென்பட்டதால் அவர்களது (ஆங்கிலமல்லாத) மொழி வளர்ச்சியடைந்ததாக நான்கண்டதில்லை. எனினும் தமிழில் செயல்படும் பலரும் நெருக்கடிக்கிடையில் ஒரு பெரும்பாலான ஆங்கில சூழலில் பணியாற்றிக்கொண்டும், அல்லது மாணவரான சூழலில் தொடங்கி திறம்பட 30இல் இருந்து 60ஆண்டுகள் வரை பின்னடைந்த தமிழ் தகவல் ஆராய்ச்சிகளை தாமாகவே முன்னெடுத்து செய்கின்றனர். இவர்களை atavist, neanderthal என்றெல்லாம் பழிப்பது வெகுவான liberal/libertarian அரசியல் பார்வைக்குள் அடங்காதது. இதற்கு முன்சான்றே தமிழர்களை தற்குறைவாக பார்ப்பதாக மட்டுமே, “ஏய் மடராசி” என்றேல்லாம் சொல்வது போலவே அமைகிறது.

தமிழில் செயல்படுபவர்கள் பணத்திற்காகவும், ஆன்மீகம், பதவி, அரசியல், மொழி, இனம், தத்துவம், அழகியல், தொன்மை, தொடர்ச்சி, புதுமை என்றும் தனித்தனியாகவோ அல்லது பலவற்றினையும் கருத்தில்கொண்டும் செயல்படுவதனால் மொழி மேம்பாடு அடைகிறது.

இந்த எண்ணிம உலகில் 1-0 தவிர யார் மொழி கணினியில் செலுத்தப்பட வேண்டும் என்பது ஒரு அரசியல் – அதில் பிழைக்காதவர்கள் மொழிகள் தேக்கத்தை அல்லது ஒதுக்கப்படும் நிலைக்க தள்ளப்படுவதே ஒரு பின்னடைவு. மொழியையும் அதில் உள்ள கருத்துக்களையும் நாம் மனதில் அடைந்த முன்னேற்றத்திற்கும் வாழ்க்கை வழிக்கும் இசைவாக முன்னெடுத்துசெல்வது பெருமை – பன்மைத்துவத்தின் ஒரு உச்ச கட்டமாகவும் பார்க்கலாம். தமிழில் செயல்படுவது ஒரு புரிதல் – “நீ யார்,” என்ற தேடலின் ஒரு மிகப்பெரிய அடையாள கேள்வியின் பயணத்தில் உள்ள காட்டுப்பாதை. தாங்கள் பேசிய மொழிகள் பழுதடையப்பார்ப்பது ஒரு அடாவடி அடாவிசம்.

சாஸா எபலிங்

தமிழில் பெண்ணியம், பெண்ணிய எழுத்தாளர்கள் பற்றி சமிபத்தில் எழுதியுள்ள சாஸா எபலிங் 19-ஆம் நூற்றாண்டின் தமிழ் இலக்கியங்களை பற்றி ஆய்வு செய்து செருமனியின் கலோன் பல்களையில்இருந்து முதுகலை/முனைவர்பட்டம் பெற்றார் – பின்னர் அவர் சிக்காகோ பல்கலைக்கழகத்தில் துணை பேராசிரியராக பணியாற்றுகிறார். இவரைப்பற்றிய 2010 செய்தி கட்டுரை இங்கு தாய்வீடு 2010-ஆகஸ்டு :

தாய்வீடு 2010-ஆகஸ்டு அறிக்கை ebeling-article Download

சிந்திக்கவைக்கும் ஆய்வுகள்

தமிழ் கணிமையில் பல கட்டுரைகள் வருகின்றன – அவற்றில் சில கட்டுரைகள் ஒரு முற்றிலும் வேறுபட்ட சிந்தனைகளை முன்வைக்கும்; பல கட்டுரைகள் முன்னோர் சென்றவழியில் எளிதாகவும், சிறப்பாகவும், சிக்கனமாகவும் (கணினியளவில்) மற்றும் பொருளாதார, நுகர்வோர் அணுகுமுறை என்றபடியாக உள்ள புதுமைகளை விளக்கும்.

இந்த சில கட்டுரைகள் செல்லாத இடத்திற்கு, முற்றிலும் வேறுபட்ட சிந்தனைகளை முன்வைப்பவைகளில் சிலவற்றைப்பற்றி இன்று பார்க்கலாம்.

படம் 1: எழில் மொழி திருத்தியில் உள்ள தமிழ்-99 விசைப்பலகை.

தமிழ்-99 விசைபலகைக்கு ஒரு மேம்பாடு என்ற படியாக 2004-இல் நடந்த தமிழ் கணிமை மாநாட்டில் இந்த (clj-thamil படைத்த இளங்கோ சேரன் குழுவினரால்) கட்டுரை “Optimization of Thamil Phonetic Keyboard.” இதில் ஆசிரியர்கள் கூறியதாவது, தமிழ்-99 விசையில் மெய்களுக்கு பதில் அகர-மெய்களை விசைப்பலகையில் பொருத்தினால் சிக்கனமாக (விசை தட்டச்சு செய்யும் எண்ணிக்கையில் குறைவாக) ஒரு குறிப்பிட்ட உரையை இந்த மாற்று விசைப்பலகையில் உள்ளீடு செய்யலாம் என்று கண்டெடுத்தார்கள். ஆனால் இதை உள்வாங்கி எதுவும் செய்யவில்லை.

new vistas:The iTamil project aims to make the Tamil script easy to learn, print and display, among other things —Photo: Special Arrangement — படம் 2: iTamil – என்ற தமிழ் எழுத்துரு மாற்றம் பற்றிய தடைசெய்யப்பட்ட 2016 கட்டுரை. படம்: இந்து நாளிதழ்

அடுத்த கட்டுரைக்கு மேர்கோள் என்க்கு கிடைக்கவில்லை, KaReFo-குழுவினரால் “iTamil,” (2016) ; ஆனால் அதன் சாராம்சமாவது தமிழின் உயிமெய் எழுத்து வடிவத்தை முற்றிலுமாக மாற்றியமைக்க ஒரு ஆய்வு பரிந்துரை சமர்ப்பிக்கப்பட்டது. ஆனால் இந்த கட்டுரை 2016-ஆம் ஆண்டு நடந்த தமிழ் கணிமை மா நாட்டில் வாசிப்பு பெற்றாலும் அது பின்னர் நீக்கம் ஆயிற்று – காரணம் இதனை ஆய்வளவில் கூட தமிழ் சமுகம் ஏற்கக்கூடாது என்றோரு தரப்பின் வாதம் வெற்றி பெற்றதன் காரணம். இந்த சர்ச்சைக்கும் அப்பால் அவர்கள் சொன்ன கோரிக்கை, ஆய்வுகளை பார்க்க இந்த செய்தி உபயோகரமாக வரலாற்று சின்னமாக அமைகிறது.

ஆய்வுக்களத்தில் சிந்திக்கலாம்தானே! அதை நடைமுறைப்படுத்தவேண்டுமானால்தானே மேலும்/கூடுதல் விவாதங்கள் தேவை? சிந்தனையே தடைசெய்யப்படவேண்டுமெனில் தமிழருக்கும் தலிபனார்களுக்கும் வித்தியசமென்ன?

ஓப்பன்-தமிழ் வெளியீடு – வரிசை எண் 0.97

வணக்கம் தமிழ் கணிமை ஆர்வலர்களே,
இன்று ஓப்பன்-தமிழ் நிரல் தொகுப்பு வரிசை எண் 0.97 வெளியீடு அறிவிக்கிறோம். இதில் புதியன, சென்ற 2019-நவம்பர் மாதம் கழித்து வந்த மேம்பாடுகளாகியன, கீழ்வருமாறு.இதனை பெற

$ pip install –upgrade open-tamil==0.97
என்று கட்டளை கொடுக்கலாம்.

1 புதிய மேம்பாடுகள்:

மாத்திரை கணித்தல் – தமிழ் உரையில் உள்ள சொற்களின் மாத்திரை அளவை கணிக்க புதியசார்பு ‘tamil.utf8.total_maaththirai()’ என்று திரு. பரதன் தியாகலிங்கம் அவரால் பங்களிக்கப்பட்டது.
வடமொழி சொல்பட்டியல் மோனியர்-வில்லியம்ஸ் அவரது அகராதியில் இருந்து திரிக்கப்பட்டு இங்கு சேர்க்கப்பட்டது
‘tabraille’ என்ற module-இல் கண்பார்வை குறை உள்ளவர்களினால் தமிழ் பாரத பிரெயில் என்ற தரத்தை கையாளும் வகை சில உத்திகள் உள்ளன.
‘kural’ என்ற module-இல் திருக்குறளை நேரடியாக கையாள சில உத்திகள் உள்ளன. இது 2013-இல் வெளிவந்த ‘libkural’ என்பதன் மீள்பதிவாகும்.
‘solthiruthi’ என்ற module-இல் எளிதான சில மேம்பாடுகள் செய்யப்பட்டுள்ளன – இவற்றினால் வரும் மாற்றுச்சொற்கள் சற்று மேன்மை அடையும்.6. தமிழ் எழுத்துவழி எண்களை பகுப்பாய்வு செய்து எண்களாக மாற்ற ஒரு சார்பு #221
olini.py supports natual language arithmetic evaluation in Tamil for
all numbers based on this work.7. ‘tamiltts’ என்ற ஒரு module-இல் normalize numbers to numeral text என்றும் வேறு பல சொல்/உரை நெறிப்படுத்தும் பயன்பாடுகள் உள்ளன. இதுவும் ஒரு பழைய நிரலில் மீள் பதிப்பு.
‘tamil.tace16’ – என்ற நிரல் தொகுப்பில் தமிழ் TACE16 என்ற குறியீட்டிற்க்கு உதவும்வழி சில நிரல் சார்புகள் உண்டு.
‘transliterate.ITRANS’ – என்ற நிரல் தொகுப்பில் ITRANS transliteration – ஒலிவழி தட்டச்சு செய்தல் உருவாக்கப்பட்டது

2 வழு நீக்கம்:

பாமிணி எழுத்துருவில் இருந்து ஒறுங்குறியில் மாற்றத்தில் வழு நீக்கம் சரிபார்க்கப்பட்டது
நெடில் பட்டியலை சரிபார்த்தல்
Python3-இல் உகந்தவாறு sorting, ‘tamil.utf8.tamil_sorted’ என்ற சார்பு சேர்க்கப்பட்டது
நாள், நேரம் – tamil.date நிரல் தொகுப்பில் உள்ள சில வழு நீக்கம் செய்யப்பட்டது

3 புரவலர்களுக்கு நன்றி தெறிவித்தல்

We thank @pycharm for donation of 1 seat professional license towards Open-Tamil development. __/|\__. Thanks to @infitt and Prof. @crselvakumar1 for their support toward 1-way airfare cost of attending 2017-Tamil Internet Conference in Toronto, Canada. https://github.com/Ezhil-Language

வாய்ப்பிற்கு நன்றி.

-முத்து (கலிபோர்னியா).

மேற்கோள் – இந்த வலைப்பதிவு முதலில் ஒரு மின்னஞ்சல் அறிக்கையாக, திறமூலதமிழ் கணிமை அளவலாவள் குழுவில் இங்கு வெளியானது.

சில ஆய்வுகள்

“Tamil Vowel Recognition With Augmented MNIST-like Data Set,” https://arxiv.org/abs/2006.08367

சமிபத்தில், கவிஞர் சல்மா வரிகள் போல, எல்லாரும் வௌவால்களா இந்த கொரொனாவினால் நிலைகுலைந்தனர். அவர்களின் நீண்ட பட்டியலில் நானும் ஒருவன் – ஆனால் அதிகளவு பாதிப்பு ஏதுமில்லை – வீடு, வாசல், சோறு, தண்ணி இதுக்கெல்லாம் திண்டாட்டம் இல்லை என்றாலும், இங்கு அமெரிக்க மண்ணில் 20% வேலையிழந்த பலரையும் போல் வேலைக்கு மட்டும் காவுவாங்கிட்டேன்.

சரி. இந்த நேரத்தில் மற்ற சிலபல செயல்கள் முடிவில்லாமல் தொடங்கியதை முடித்துவைக்க சில படிகள் எடுக்க நேரம் கிடைத்தது. மேலோகத்தில் இருப்பவன், என்றும் அதை நப்புபவர்கள், ஒரு கதவை மூடினால் மற்றொரு கதவை திறப்பார் என்றபடியாக இது தமிழ் வெளியில் எப்போதும் நம்மளை கொண்டு சேர்த்தது.

மொத்தம் 3-ஆய்வுகள், பெரும்பாலும், முடிவு பெற்ற நிலையில் இருந்தன; அவையாவன,

	கட்டுரை தலைப்பு – PDF கோப்புகள்
1	Tamil Vowel Recognition With Augmented MNIST-like Data Set
2	Generation and Parsing of Number to Words in Tamil
3	Algorithm to Correct Missing Pulli-Signs in Printed Tamil Text

கொரோனா காலத்தில் உண்டாக்கிய ஆய்வுக்கட்டுரைகள்

தமிழ் உயிரெழுத்துக்கள் செயற்கைப்பின்னல் வழியாக திறன்கண்டுகொள்வது. இதை, ஜூன் 2019-இல் தொடங்கிய ஒரு ஆய்வு என்றாலும் இந்த மூன்று கால இடைவெளியில் தான் இன்று முடிவடைந்தது. இதனை ArXiV-இல் கற்பூரம் மீது சத்தியமிட்டாமல் ஏழு நாள் தாமதத்துடன் வெளியானது. தலைப்பு: “Tamil Vowel Recognition With Augmented MNIST-like Data Set,” https://arxiv.org/abs/2006.08367
அடுத்த கட்டுரை “Generation and Parsing of Number to Words in Tamil”, இதை ArXiV ஏற்க மறுத்தது – காரணம் எங்கள் வாசகர்களுக்கு இது சுவாரசியமானதல்ல என்ற சாக்கைச்சொல்லி மழுப்பினார்கள். இதை நான் மற்றொறு மொழியியல் மாநாட்டிற்கு அனுப்பியுள்ளேன் – என்ன விளைவு என்று பார்க்கலாம்.
அடுத்த கட்டுரை “Algorithm to correct missing pulli signs in printed Tamil text,” என்பது [2] போல் அதே கதி. பார்க்கலாம்.
கடைசியாக எழுத நினைத்தது ஆனால் நேரம் கிடைக்கவில்லாமல் போனது என்றால் “தமிழில் சொற்களை ஒலி எண்களாக பிரிப்பது” (Syllable identification) என்பதை bigram/unigram என்ற எழுத்தளவான புள்ளியியல் வடிவில் கொண்டு இவற்றை செயல்படுத்துவது. இதற்கு உங்களுக்கு ஆர்வம் இருந்தால் என்னுடன் இணைந்து செயல்படலாம் வாங்க.

இந்த பேரிடர் காலகட்டத்தில் என்னை அடைக்கலம் கொடுப்பதில் ஒன்று மொழி, மொழியியல் அதில் வசிக்கும், செயல்படும் அஞ்சா நெஞ்சர்கள். இதையும் காலம் கடந்து செல்வோம். உருதுணையாக இருந்தவர்கள் அனைவருக்கும் நன்றி.

-முத்து