ஒரு உப்பு

சமையல் என்பது கணினி நிரலாக்கத்துடன் ஒப்பிட்டு கருத்துக்களையும், திற மூல இயக்கம் மற்றும் பொதுவெளி கணினி நிரலாக்கம்/கற்பித்தல்/செயல்பாடு அரசியல் போன்ற தகவல்களை முன்வைத்தவர் திரு. ரிச்சர்டு ஸ்டால்மன்.

இதன்படி நாம் எப்படி வீட்டில் முருங்கை கொழம்பு சமைக்க வேண்டுமென்றால் சமயல் குறிப்பை பயன்படுத்தி நமக்கேற்ப அதனை வீட்டார் உடல் நலம், நாவின் சுவை, விருப்பங்களுக்கு ஏற்ப குறிப்புகளை திருத்தியும், மேம்படுத்தியும் புளியைகரைத்து கொழம்பை அடுப்பில் இருந்து இரக்குகிரோமோ, அதே போல் கணினி நிரல்களும் – சமையல் குறிப்புகளுக்கு இனையாக – நமது பயன்பாட்டிற்கு ஏற்ப மாற்றி அமைத்தல் தலை.

ஒரு உப்பு கூடினாலும் பிடித்தமாதிரி உணவுகளை சமைத்து உண்ணும் வகையில் நாம் கணினி செயலிகளை நுகர்வேராக மாருவோமாக. எப்படி பெளக்சு பேனர் வைத்து வாழ்வின் முக்கியதருனங்களில் ஊரரிய செய்தி சொல்கின்றோமோ அந்த பொருமையை மென்பொருளிலும் கொள்வோம்.

AI techniques for spelling checker – some articles

It seems to me, to build a Tamil spelling checker or NLP with AI/Machine Learning one may start by reading this works,

1. http://www.diva-portal.org/smash/get/diva2:1232482/FULLTEXT01.pdf … word representations for LSTM NN

2. Automatic Spelling Correction for Resource-Scarce Languages using Deep Learning

3. Attention-based encoder-decoder networks for spelling and grammatical error correction

$upporting Tamil Chair in Toronto UTSC

Toronto, Canada is one of the largest cities in North America. Specifically, the Tamil population of Canada has a distinctive presence and shapes the culture and society of this diverse, vibrant city. After the successful completion of Harvard Tamil Chair, the Tamil Chair, Inc. organization has initiated a effort to incorporate a Tamil Chair at University of Toronto, Scarborough (UTSC).

UTSC Tamil Chair

Learn more on project and contribution modalities at following links,

  1. Full blog post at Solvanam blog,
  2. UTSC Toronto Tamil Chair

Blog readers are requested to contribute to support this cause to further understanding of Tamil language, Tamil literacy and archival/research into people, culture and milieu.

-MA

 

 

அமிக்டலா – நினைவுகளின் மணம்

இந்த வாசனைப்பொருட்கள் யாவை என்று கண்டடைய முடியுமா ? அமிக்டலா பற்றியும் சற்று படியுங்கள் நேரம் கிடைக்குமளவில்.

 

 

உதவிக்குறிப்புகள்:

  • special kind of Tamarind
  • not usual Dates you eat
  • another kind of Orange
  • பச்சையாக உண்ணும் மாங்காய்வகை
  • Fruit of Palm tree – not coconut
  • Jamun variety ?
  • தேங்காய்க்கும் முன்.
  • Chickoo fruit
  • மணம்வீசும் கிளங்கில் இருந்து வரும் வெண் மலர்
  • பாரிசு நகர் மாலையிலும் உள்ள மண் வாசனை

    அமிக்டலா - நினைவுகளின் மணம்
    ஆமிக்டலாவில் நினைவுகளின் மணம் உள்ளது என்று மூளை விஞ்ஞானிகள்/நரம்பு தத்துவியாளர்கள் சொல்வது

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

விடைகள்:

அமிக்டலா - விடைகள்

 

எண்ணிம ‘டிஜிட்டல்’ தரவாக்கமும் தமிழ் எழுத்துரு குறியீடுகளும்

சமிபத்தில் Yahoo குழுமங்கள் சேவை நிறுத்தப்படுவதாலும் அங்கு உள்ள பல வரலாற்று  நோக்கில் சுவாரசியமான உரையாடல்கள், முக்கியமான கருத்துக்கள், அனைத்தையும் ஆவணப்படுத்தி செய்வது முக்கியமாக அமைந்ததுள்ளது.

இதை அணுகுவதில் 1980-90-களில் இருந்த தமிழ் எழுத்துரு வழி உள்ள குறியீடுகளும் [font-based encoding] அதன்பால் உள்ள சிக்கல்களும் நிற்கின்றன. இவற்றை தரப்படுத்தி தமிழில் ஒருங்குறி [unicode] வழியில் சேமித்தால் இந்த தரவுகளை முறைப்படி சேமித்தும், பரிசோதித்தும் பார்க்கலாம் என்பது இலக்கு.

முதலில் இதனை நண்பர் ஒருவரிடம் வழி இந்த செய்தி வந்தது- அதில் உள்ள இந்த மாதிரி உரையை டுவிட்டரில் இட்டேன். மேலும் சற்று சிறிய பரிசோதனையில்சட்டென்று குறியீடை அடையாளம் காண முடிந்தது.இது ஒரு ஓப்பன் தமிழ் மற்றும் எங்களது பங்களிபாளர்களின் மொத்த ஒரு வெற்றி என்றும் தோன்றுகிறது.
ஓப்பன்-தமிழ் தொகுப்பில் இந்த வேலையை பரிசோதித்து பார்த்தால் கீழ்கண்டபடி நிரல் இடலாம்:


# This code is in Public Domain.
# It requires installation of Open-Tamil module from Python Package Index.
# Currently Tamil text is saved in Unicode format but it wasn't always like this.
# If you have some of the old encoding formats like TAM, TAB, ISCII etc. you can
# use the encoding converters from Open-Tamil (inspired by ones from Suratha, and late Gopi of HiGopi.com)
# The following code demonstrates the decoding process
# using an intensive search algorithm written by Arulalan, T.
import tamil
data="""¸¡Äõ ºïº¢¨¸Â¢ý Å¡Øõ ¾Á¢ú: ¾Á¢úôÒò¾¸í¸Ç¢ý Å¢üÀ¨ÉÔõ ¸ñ¸¡ðº¢Ôõ
ãýÈ¡õ ¬ñÎ ÌÁ¡÷ ã÷ò¾¢ ¿¢¨É×ô§ÀÕ¨Ã: ¦¾Ç¢Åò¨¾ §Â¡ºô"""
print(tamil.txt2unicode.auto2unicode(data))

மேலும் தமிழில் இயங்கும் பலர் தங்களது வேலைகளில் உள்ள தமிழ் செயலிகளும், அதன் திறன்களில் இதே போன்ற சிக்கல்களை தீர்வடையலாம் என்று தகவல் தெறிவித்தனர்; அவையாவன:

  1. சுரதா அவரது தமிழ் உரை மாற்றி
  2. நீச்சல் அவரது தமிழ் எழுத்து எழுத்துசீராக்கி
  3. nhm-ரைட்டரில் 2007-இல் இருந்து இந்த சேவை இருப்பதாக அவர்கள் தெரிவித்தார்கள்.

ஆனால் இன்று எளிதாக பொதுவில் இதனை உங்கது ஆவணமாக்கம் தேவைகளுக்கு ஓப்பன்-தமிழிலும் பயன்படுத்தலாம்.

நன்றி.

 

 

 

மென்பொருள் வெளியீட்டில் உள்ள சிக்கல்கள்

சமிபத்தில் ஓப்பன் தமிழ் வரிசை எண் 0.95-ஐ பதிவாக்கி வெளியிட்டோம். ஆனால் ஒரு பெரிய சிக்கல் – இது பொது பயன்பாட்டில் வேலை செய்யவில்லை.

ஏன் என்று பார்த்தால் :

1. PyPi – தளம் மேம்பாட்டின்/மாற்றத்தின் காரணமாக reST என்ற படிவத்தில் மற்றுமே நிரல் தொகுப்புகளின் குறிப்புகளை ஏற்றுக்கொண்டவகை ஆனது. நாங்கள் எப்போதுமே MD படிவத்தில் மட்டும் தான் இந்த குறிப்புகளை எழுதுவது வழக்கமானது. ஆனால் reST குறிப்புகளுக்கு கட்டாயப்படுத்தபட்டோம்.

2. PyPi தளத்தில் நிரல்களை வினியோகல் செய்ய setup.py என்ற நிரல் வழி செயல்படுகின்றது. இந்த நிரல் சரிவர இருந்தாலொளிய பயனரிகளின் நிறுவுதல் கட்டளைகள் வேலைசெய்யாது. ஆகவே, ஓப்பன் தமிழ் நிரல் தொகுப்பு.

 

இதன் காரணத்தை இங்கு பார்க்கலாம்:

bug-pypi

அடுத்த கட்டமாக இதனை நிவரத்தி செய்ய, MANIFEST.in கோப்பில் சரியான தகவல்களை மேம்படுத்தியபின் முதலில் எனது கணினியில் பரிசோதித்தபின், 0.96 வரிசை எண்னை PyPi-இல் பதிவு செய்தேன்.

$ python3 setup.py sdist build

$ python3 -m twine upload dist/*

இதனை, நண்பர்கள் சரிவர உள்ளதாவென்று சரிபார்த்தபின் வழு நீக்கமானதை உணர முடிந்தது.

ஆகவே காரணங்கள் என்னவென்றும், சிக்கல்களை உணர்ந்தபின்னும் பல வழிகளில் இவற்றை மறுமுறை தவிர்க்க வழிகளை கண்டிட நேர்கின்றேன்.

1. அடிக்கடி நிரல்களை வெளியிடுவது. (ஏப்ரல் 2019-இல் உள்ள வெளியீட்டிற்கும், இந்த நவம்பர் மாத வெளியீட்டிற்கும் நடுவில் PyPi தளம் மாற்றம் பெற்றது – இதனை சரிவர கண்டிடலாம்)

2. வெளியீட்டின் பொழுது உடணடியாக பரிசோதிப்பது

3. மற்ற பங்களிப்பாளர்களை உடனடியாக பரிசோதிக்க வேண்டிவது.

நன்றி.