உளியருவி – Tamil tools for AI/ML

Motivation

In 2022 we are reaching a point where more Tamil datasets are available than Tamil tools – arunthamizh அருந்தமிழ். However the accessibility of fully-trained models and capability of providing pre-trained models are much harder and still require domain expertise in hardware and software. Personally I have published some small Jupyter notebooks (see here), and some simple articles, but they still remain inadequate to scale the breadth of Tamil computing needs in AI world among:

NLP – Text Classification, Recommendation, Spell Checking, Correction tasks
TTS – speech synthesis tasks
ASR – speech recognition

While sufficient data exist for 1, the private corpora for speech tasks (அருந்தமிழ் பட்டியல்), the public corpora of a 300hr voice dataset recently published from Mozilla Common Voice (University of Toronto, Scarborough, Canada leading Tamil effort here) have enabled data completion to a large degree for tasks 2 and 3.

Ultimately the tooling provides capability to quickly compose AI services based on open-source tools and existing compute environment to host services and devices in Tamil space.

Proposal

My proposal is the following:

Develop a open-source toolbox for pre-training and task training specialization
Identify good components to base effort
Contribute engineering effort, testing, and validation
1. R&D – DataScience, Infra, AI framework
2. Engineering Validation – DataScience, Tamil language expertise
3. Engineering – packaging, documentation, distribution
4. Project management
Library to be liberally licensed MIT/BSD
Open-Source license for developed models
Find hardware resources for AI model pre-training etc.
Managed by a steering committee / nominated BDFL
Scope – decade time frame
TBD – மேலும் பல.

Summary

Let’s build a pytorch-lightning like API for Tamil tasks across NLP, TTS, ASR via AI.

Leave your thoughts by email ezhillang -at- gmail -dot- com, or in comments section.

ஓப்பன் தமிழ் வரிசைஎண்0.98 வெளியீடு

open-tamil v0.9 release. — ஓப்பன் தமிழ் வரிசை எண்: 0.98

வணக்கம் நண்பர்களே!

சென்ற வாரம் நவம்பர் மாதம் 13ஆம் நாள் அன்று open-tamil வரிசை எண் 0.98 வெளியீடு ஆனது; இந்த நிரல் தொகுப்பை பைத்தான் மொழியில் பெற,

$ pip install –upgrade open-tamil >=0.98

என்ற கட்டளைகள கொடுக்கலாம்.

இதில் புதிதாக சிறு வழு நீக்கங்கள் உள்ளன,

தமிழ் மாத்திரை கணக்கிடும் சேவை திருத்தம் செய்யப்பட்டது; (tamil.utf8.total_maaththirai)
tamil.regexp மோட்யூல் சீர்செய்து வழு நீக்கம் செய்யப்பட்டது; (வழு 228)

அன்புடன்,

(ஓப்பன் தமிழ் குழுவிற்காக) முத்து

கலிபோர்னியா

மாத்திரை பார்வையில் குறள்

ஆசிரியர்: பரதன் தியாகலிங்கம், முத்து அண்ணாமலை

திருக்குறள் 1330 குறட்பாக்களை மாத்திரை பார்வையில் கணினிவழியாக இயல்மொழி ஆய்வு செய்தால் என்ன கிடைக்கும்? திருக்குறளை மாத்திரை மதிப்பின் வாயிலாக வரிசைப்படுத்திப் பார்த்தால் என்ன கிடைக்கும் ? ஏதேனும் புதிய புரிதல் உண்டாகிறதா? பார்க்கலாம் வாருங்கள்.

செய்முறை – அல்கோரிதம்

குறளின் மாத்திரை அளவு என்பது குறளின் உள்ள அனைத்து சீர்பிரிக்காத சொற்களின் தனி மாத்திரை அளவுகளின் சமன்பாடு என்று கொள்ளலாம். இது நமது ஆய்வின் முன்கூட்டிய புரிதல்.

முதலில் இதற்கு ஒரு தமிழில் உள்ள மாத்திரை விதிகளை கணிக்கும் சார்பு தேவைப்படுகிறது. இதனை open-tamil 0.97 தொகுப்பில் ‘tamil.utf8.total_maththirai’ என்ற நிரல்துண்டு வழுங்குகிறது. மேலும் குறட்பக்களை ‘kural.Thirukkural().get_kural_no()’ என்பதிலிருந்து பெரலாம். இரண்டினையும் சேர்த்து ஒரு சிரிய கோவ்சியன் வளையம் பொருத்தலுடன் இணைத்துப்பார்த்தால் இப்படி தெரிகிறது; இதன் மூல நிரல் kural_mathirai.py என்பதில் காணலாம்.

#!/usr/bin/env python3
# This Python file uses the following encoding: utf-8
from kural import Thirukkural
from tamil.utf8 import get_letters, get_tamil_words, total_maaththirai
from collections import Counter, OrderedDict
from pprint import pprint
import matplotlib.pyplot as plt
import matplotlib
import numpy as np
from scipy.optimize import curve_fit

# Define model function to be used to fit to the data above:
def gauss(x, *p):
    A, mu, sigma = p
    return A*np.exp(-(x-mu)**2/(2.*sigma**2))

def main():
    eq = Counter()
    eqd = {}
    kural = Thirukkural()
    for kural_no in range(1330):
        kural_words = get_tamil_words(get_letters(kural.get_kural_no(kural_no+1).ta))
        mathirai = sum([total_maaththirai(word) for word in kural_words])
        if eq[mathirai] == 0:
                eqd[mathirai] = [kural_no+1]
        else:
            eqd[mathirai].append(kural_no+1)
        eq[mathirai] += 1
    eq_sorted=OrderedDict(sorted(eq.items(),key=lambda x: x))
    print("total = ",sum(eq.values()))
    plt.scatter(eq_sorted.keys(),eq_sorted.values())
    plt.ylabel(u'குறட்பாக்கள் எண்ணிக்கை',{'fontname':'Catamaran'})
    plt.xlabel(u'மாத்திரை அளவு',{'fontname':'Catamaran'}) #Arial Unicode MS'})

    # p0 is the initial guess for the fitting coefficients (A, mu and sigma above)
    p0 = [75., 20., 5.]
    coeff, var_matrix = curve_fit(gauss, list(eq_sorted.keys()), list(eq_sorted.values()), p0=p0)

    # Get the fitted curve
    hist_fit = gauss(list(eq_sorted.keys()), *coeff)
    plt.plot(eq_sorted.keys(), hist_fit, label='Gaussian Fitted data (mean=%g, std=%g)'%(coeff[1],coeff[2]))
    plt.title(r'குறள் மாத்திரை வரிசை (Gauss \mu=%g, \sigma=%g)'%(coeff[1],coeff[2]),{'fontname':'Catamaran'})

    # Finally, lets get the fitting parameters, i.e. the mean and standard deviation:
    print ('Fitted mean = ', coeff[1])
    print('Fitted standard deviation = ', coeff[2])

    plt.show()


if __name__ == "__main__":
    main()

திருக்குறள் மாத்திரை வரிசை ஒத்திய குறட்பா எண்ணிக்கை

விடைகள்

திருக்குறளில் உள்ள சராசரி குறட்பாவின் மாத்திரை அளவு μ ~ 29.5. இதன் மாற்றமளவு σ ~ 2.5
மாத்திரை பார்வையில் திருக்குறள் ஏரக்குறைய கௌசியன் பரப்பை போல் அமைந்துள்ளது
திருக்குறள் மாத்திரை வடிவிலும் கூட அழகிய சீர்மை கொண்டதாக மிகவும் கோர்வையுடன் அமைந்தது.
குறைந்த அளவு நமாத்திரை நீளம் (23) கொண்ட குறளானவை குறள் எண்கள், 391, 426, 483, 786

“கற்க கசடறக் கற்பவை கற்றபின்
நிற்க அதற்குத் தக.” குறள் 391.

அதிக அளவு நீளமான மாத்திரை (37.5) கொண்ட குறளானது குறள் வரிகள்,

”காணாதான் காட்டுவான் தான்காணான் காணாதான்
கண்டானாம் தான்கண்ட வாறு.” குறள் 849.

மத்திரை அளவு	குறள் எண்ணிக்கை	குறள் எண்(கள்)
23	4	391, 426, 483, 786
23.5	5	67, 77, 366, 637, 979
24	8	108, 485, 961, 965, 1042, 1048, 1277, 1304
24.5	7	304, 467, 602, 652, 1118, 1322, 1324
25	20	133, 193, 331, 360, 412, 477, 546, 559, 576, 592, 616, 771, 796, 846, 947, 1052, 1116, 1239, 1240, 1289
25.5	29	96, 339, 347, 350, 373, 400, 405, 439, 444, 569, 625, 669, 742, 764, 841, 937, 944, 978, 980, 1045, 1072, 1085, 1102, 1108, 1176, 1203, 1258, 1318, 1329
26	37	1, 28, 40, 90, 152, 229, 308, 314, 340, 454, 466, 480, 488, 594, 622, 639, 666, 668, 687, 692, 715, 774, 824, 847, 856, 934, 964, 975, 988, 1008, 1028, 1168, 1238, 1242, 1256, 1279, 1309
26.5	46	45, 54, 107, 168, 175, 196, 236, 296, 364, 451, 484, 516, 518, 531, 540, 571, 572, 598, 608, 611, 623, 628, 700, 706, 708, 738, 769, 838, 854, 877, 935, 954, 1010, 1066, 1071, 1131, 1132, 1134, 1222, 1224, 1227, 1229, 1232, 1233, 1296, 1302
27	73	80, 105, 109, 119, 120, 121, 172, 173, 174, 202, 224, 231, 283, 284, 292, 321, 337, 341, 349, 374, 380, 399, 411, 428, 429, 438, 447, 489, 505, 508, 512, 520, 552, 562, 570, 578, 599, 604, 651, 654, 661, 693, 698, 729, 747, 770, 772, 778, 790, 803, 805, 807, 817, 818, 822, 832, 851, 863, 887, 889, 963, 994, 1019, 1041, 1069, 1107, 1120, 1122, 1159, 1173, 1300, 1321, 1326
27.5	88	21, 34, 39, 64, 73, 87, 95, 98, 111, 115, 124, 131, 140, 157, 205, 207, 208, 210, 215, 239, 261, 270, 272, 280, 293, 309, 315, 336, 388, 394, 419, 431, 457, 465, 468, 469, 482, 491, 494, 495, 542, 543, 545, 554, 558, 574, 575, 581, 629, 653, 657, 679, 690, 705, 739, 759, 788, 811, 821, 823, 835, 876, 878, 882, 883, 904, 918, 949, 1004, 1023, 1039, 1063, 1091, 1105, 1109, 1117, 1138, 1144, 1156, 1165, 1166, 1226, 1257, 1266, 1273, 1281, 1283, 1301
28	104	13, 14, 60, 63, 75, 85, 89, 101, 103, 123, 145, 158, 167, 186, 191, 195, 213, 218, 230, 234, 302, 327, 369, 408, 410, 416, 425, 434, 463, 464, 472, 475, 478, 500, 504, 521, 522, 535, 549, 563, 580, 595, 596, 609, 618, 620, 621, 636, 664, 677, 703, 741, 748, 752, 767, 793, 797, 802, 816, 844, 873, 880, 884, 917, 925, 943, 984, 1003, 1011, 1013, 1031, 1040, 1043, 1051, 1080, 1086, 1088, 1092, 1096, 1099, 1100, 1114, 1135, 1137, 1141, 1146, 1153, 1157, 1177, 1178, 1184, 1199, 1201, 1208, 1210, 1216, 1221, 1259, 1264, 1295, 1306, 1307, 1327, 1330
28.5	95	29, 68, 102, 104, 112, 114, 116, 132, 137, 153, 203, 223, 227, 238, 244, 255, 265, 267, 268, 274, 277, 295, 303, 316, 333, 342, 372, 381, 385, 392, 393, 398, 401, 403, 407, 437, 493, 506, 511, 517, 553, 577, 591, 601, 605, 631, 655, 671, 674, 696, 710, 723, 727, 740, 744, 749, 757, 763, 781, 809, 819, 829, 839, 852, 871, 941, 986, 996, 1025, 1050, 1061, 1062, 1073, 1093, 1098, 1119, 1142, 1152, 1164, 1170, 1196, 1209, 1213, 1223, 1249, 1250, 1268, 1280, 1287, 1290, 1298, 1308, 1310, 1315, 1328
29	91	23, 26, 59, 76, 99, 113, 169, 181, 184, 197, 214, 233, 237, 254, 262, 264, 289, 313, 329, 334, 335, 338, 384, 427, 503, 539, 544, 547, 588, 590, 597, 607, 619, 630, 634, 638, 672, 707, 709, 712, 728, 754, 779, 785, 787, 791, 810, 812, 813, 826, 830, 837, 848, 853, 879, 888, 898, 905, 920, 942, 955, 971, 1014, 1021, 1034, 1068, 1084, 1089, 1110, 1121, 1126, 1139, 1143, 1147, 1149, 1151, 1172, 1193, 1200, 1211, 1231, 1237, 1245, 1247, 1251, 1253, 1271, 1276, 1292, 1299, 1305
29.5	106	9, 33, 53, 55, 61, 66, 71, 79, 100, 136, 150, 154, 171, 177, 182, 192, 216, 226, 259, 279, 288, 290, 306, 310, 323, 344, 352, 363, 371, 375, 376, 377, 378, 404, 414, 418, 440, 448, 449, 455, 486, 497, 501, 527, 532, 585, 589, 593, 603, 641, 644, 650, 688, 697, 704, 726, 731, 734, 736, 743, 746, 751, 761, 765, 782, 801, 814, 815, 831, 836, 842, 850, 870, 872, 899, 922, 933, 945, 953, 958, 970, 974, 982, 997, 1000, 1038, 1053, 1065, 1067, 1095, 1111, 1113, 1128, 1161, 1171, 1219, 1228, 1234, 1235, 1236, 1244, 1252, 1254, 1261, 1284, 1297
30	116	19, 22, 48, 49, 57, 78, 97, 117, 122, 125, 129, 142, 151, 178, 180, 201, 217, 220, 241, 245, 250, 257, 260, 269, 273, 276, 286, 300, 332, 348, 353, 362, 365, 370, 420, 421, 432, 435, 436, 443, 470, 474, 479, 490, 498, 499, 507, 509, 524, 529, 534, 556, 565, 568, 610, 613, 626, 633, 640, 647, 659, 663, 676, 684, 714, 725, 750, 775, 776, 784, 798, 799, 800, 828, 864, 869, 885, 886, 890, 891, 892, 893, 902, 907, 916, 946, 948, 951, 962, 999, 1015, 1016, 1044, 1047, 1049, 1055, 1056, 1074, 1076, 1082, 1124, 1125, 1127, 1155, 1175, 1179, 1180, 1183, 1204, 1207, 1217, 1230, 1243, 1263, 1282, 1319
30.5	85	10, 32, 58, 62, 83, 84, 88, 92, 139, 179, 200, 209, 235, 243, 251, 287, 291, 294, 297, 299, 320, 322, 346, 356, 367, 386, 396, 415, 430, 441, 442, 458, 459, 519, 525, 537, 557, 567, 624, 645, 656, 665, 678, 701, 717, 724, 773, 783, 789, 855, 859, 895, 906, 912, 915, 977, 992, 995, 1012, 1024, 1029, 1059, 1078, 1087, 1090, 1094, 1103, 1106, 1115, 1129, 1140, 1145, 1163, 1214, 1225, 1262, 1265, 1274, 1275, 1291, 1293, 1303, 1313, 1320, 1323
31	92	16, 17, 18, 30, 37, 46, 50, 70, 72, 74, 93, 106, 135, 138, 144, 146, 160, 161, 190, 198, 204, 211, 222, 307, 319, 351, 358, 382, 383, 390, 406, 422, 460, 471, 473, 496, 523, 528, 538, 555, 561, 566, 587, 600, 612, 615, 648, 670, 702, 716, 721, 737, 753, 760, 768, 795, 820, 843, 857, 862, 866, 874, 903, 909, 985, 987, 989, 991, 1018, 1020, 1030, 1037, 1054, 1060, 1077, 1123, 1130, 1136, 1154, 1158, 1162, 1169, 1185, 1188, 1189, 1198, 1206, 1218, 1260, 1278, 1288, 1314
31.5	70	3, 4, 11, 36, 41, 65, 69, 81, 110, 189, 242, 258, 263, 275, 278, 324, 354, 355, 359, 361, 379, 413, 417, 476, 481, 510, 536, 541, 573, 579, 586, 614, 617, 649, 658, 680, 694, 718, 722, 755, 766, 794, 804, 845, 858, 860, 867, 913, 914, 923, 926, 928, 936, 952, 956, 957, 976, 990, 998, 1022, 1026, 1027, 1033, 1035, 1075, 1104, 1167, 1182, 1248, 1255
32	59	12, 44, 52, 128, 143, 156, 164, 165, 185, 188, 228, 253, 298, 311, 312, 345, 357, 389, 395, 433, 445, 450, 513, 530, 560, 564, 606, 642, 673, 686, 711, 730, 732, 735, 758, 762, 777, 792, 825, 833, 840, 881, 919, 968, 1036, 1057, 1058, 1081, 1112, 1160, 1174, 1197, 1212, 1215, 1272, 1294, 1311, 1316, 1325
32.5	51	2, 20, 24, 31, 35, 47, 82, 86, 118, 147, 148, 159, 162, 176, 187, 271, 281, 282, 328, 446, 502, 514, 526, 533, 550, 582, 583, 662, 683, 699, 719, 720, 827, 861, 865, 908, 921, 927, 969, 981, 1097, 1150, 1181, 1186, 1187, 1191, 1194, 1195, 1241, 1286, 1312
33	37	8, 155, 170, 183, 206, 212, 225, 248, 249, 318, 325, 368, 402, 462, 492, 548, 627, 646, 675, 685, 756, 780, 808, 834, 911, 939, 1046, 1070, 1083, 1101, 1148, 1190, 1192, 1269, 1270, 1285, 1317
33.5	30	27, 194, 219, 221, 305, 317, 343, 456, 461, 632, 643, 667, 689, 806, 896, 900, 901, 930, 932, 959, 966, 972, 993, 1001, 1005, 1009, 1133, 1205, 1220, 1267
34	23	38, 51, 56, 126, 134, 166, 252, 266, 330, 453, 487, 660, 681, 682, 695, 897, 910, 938, 950, 960, 967, 1007, 1032
34.5	12	5, 42, 130, 149, 232, 387, 424, 733, 931, 983, 1006, 1079
35	16	91,94,141,199,246,247,423,452,635,691,875,924, 973,1002,1017,1064
35.5	9	25, 163, 285, 301, 515, 584, 868, 894, 929
36	4	7, 409, 713, 745
36.5	6	127, 240, 326, 551, 1202, 1246
37	2	15, 940
37.5	2	43, 397
38	2	6, 256
39.5	1	849

ஓப்பன்-தமிழ் வெளியீடு – வரிசை எண் 0.97

வணக்கம் தமிழ் கணிமை ஆர்வலர்களே,
இன்று ஓப்பன்-தமிழ் நிரல் தொகுப்பு வரிசை எண் 0.97 வெளியீடு அறிவிக்கிறோம். இதில் புதியன, சென்ற 2019-நவம்பர் மாதம் கழித்து வந்த மேம்பாடுகளாகியன, கீழ்வருமாறு.இதனை பெற

$ pip install –upgrade open-tamil==0.97
என்று கட்டளை கொடுக்கலாம்.

1 புதிய மேம்பாடுகள்:

மாத்திரை கணித்தல் – தமிழ் உரையில் உள்ள சொற்களின் மாத்திரை அளவை கணிக்க புதியசார்பு ‘tamil.utf8.total_maaththirai()’ என்று திரு. பரதன் தியாகலிங்கம் அவரால் பங்களிக்கப்பட்டது.
வடமொழி சொல்பட்டியல் மோனியர்-வில்லியம்ஸ் அவரது அகராதியில் இருந்து திரிக்கப்பட்டு இங்கு சேர்க்கப்பட்டது
‘tabraille’ என்ற module-இல் கண்பார்வை குறை உள்ளவர்களினால் தமிழ் பாரத பிரெயில் என்ற தரத்தை கையாளும் வகை சில உத்திகள் உள்ளன.
‘kural’ என்ற module-இல் திருக்குறளை நேரடியாக கையாள சில உத்திகள் உள்ளன. இது 2013-இல் வெளிவந்த ‘libkural’ என்பதன் மீள்பதிவாகும்.
‘solthiruthi’ என்ற module-இல் எளிதான சில மேம்பாடுகள் செய்யப்பட்டுள்ளன – இவற்றினால் வரும் மாற்றுச்சொற்கள் சற்று மேன்மை அடையும்.6. தமிழ் எழுத்துவழி எண்களை பகுப்பாய்வு செய்து எண்களாக மாற்ற ஒரு சார்பு #221
olini.py supports natual language arithmetic evaluation in Tamil for
all numbers based on this work.7. ‘tamiltts’ என்ற ஒரு module-இல் normalize numbers to numeral text என்றும் வேறு பல சொல்/உரை நெறிப்படுத்தும் பயன்பாடுகள் உள்ளன. இதுவும் ஒரு பழைய நிரலில் மீள் பதிப்பு.
‘tamil.tace16’ – என்ற நிரல் தொகுப்பில் தமிழ் TACE16 என்ற குறியீட்டிற்க்கு உதவும்வழி சில நிரல் சார்புகள் உண்டு.
‘transliterate.ITRANS’ – என்ற நிரல் தொகுப்பில் ITRANS transliteration – ஒலிவழி தட்டச்சு செய்தல் உருவாக்கப்பட்டது

2 வழு நீக்கம்:

பாமிணி எழுத்துருவில் இருந்து ஒறுங்குறியில் மாற்றத்தில் வழு நீக்கம் சரிபார்க்கப்பட்டது
நெடில் பட்டியலை சரிபார்த்தல்
Python3-இல் உகந்தவாறு sorting, ‘tamil.utf8.tamil_sorted’ என்ற சார்பு சேர்க்கப்பட்டது
நாள், நேரம் – tamil.date நிரல் தொகுப்பில் உள்ள சில வழு நீக்கம் செய்யப்பட்டது

3 புரவலர்களுக்கு நன்றி தெறிவித்தல்

We thank @pycharm for donation of 1 seat professional license towards Open-Tamil development. __/|\__. Thanks to @infitt and Prof. @crselvakumar1 for their support toward 1-way airfare cost of attending 2017-Tamil Internet Conference in Toronto, Canada. https://github.com/Ezhil-Language

வாய்ப்பிற்கு நன்றி.

-முத்து (கலிபோர்னியா).

மேற்கோள் – இந்த வலைப்பதிவு முதலில் ஒரு மின்னஞ்சல் அறிக்கையாக, திறமூலதமிழ் கணிமை அளவலாவள் குழுவில் இங்கு வெளியானது.

சில ஆய்வுகள்

“Tamil Vowel Recognition With Augmented MNIST-like Data Set,” https://arxiv.org/abs/2006.08367

சமிபத்தில், கவிஞர் சல்மா வரிகள் போல, எல்லாரும் வௌவால்களா இந்த கொரொனாவினால் நிலைகுலைந்தனர். அவர்களின் நீண்ட பட்டியலில் நானும் ஒருவன் – ஆனால் அதிகளவு பாதிப்பு ஏதுமில்லை – வீடு, வாசல், சோறு, தண்ணி இதுக்கெல்லாம் திண்டாட்டம் இல்லை என்றாலும், இங்கு அமெரிக்க மண்ணில் 20% வேலையிழந்த பலரையும் போல் வேலைக்கு மட்டும் காவுவாங்கிட்டேன்.

சரி. இந்த நேரத்தில் மற்ற சிலபல செயல்கள் முடிவில்லாமல் தொடங்கியதை முடித்துவைக்க சில படிகள் எடுக்க நேரம் கிடைத்தது. மேலோகத்தில் இருப்பவன், என்றும் அதை நப்புபவர்கள், ஒரு கதவை மூடினால் மற்றொரு கதவை திறப்பார் என்றபடியாக இது தமிழ் வெளியில் எப்போதும் நம்மளை கொண்டு சேர்த்தது.

மொத்தம் 3-ஆய்வுகள், பெரும்பாலும், முடிவு பெற்ற நிலையில் இருந்தன; அவையாவன,

	கட்டுரை தலைப்பு – PDF கோப்புகள்
1	Tamil Vowel Recognition With Augmented MNIST-like Data Set
2	Generation and Parsing of Number to Words in Tamil
3	Algorithm to Correct Missing Pulli-Signs in Printed Tamil Text

கொரோனா காலத்தில் உண்டாக்கிய ஆய்வுக்கட்டுரைகள்

தமிழ் உயிரெழுத்துக்கள் செயற்கைப்பின்னல் வழியாக திறன்கண்டுகொள்வது. இதை, ஜூன் 2019-இல் தொடங்கிய ஒரு ஆய்வு என்றாலும் இந்த மூன்று கால இடைவெளியில் தான் இன்று முடிவடைந்தது. இதனை ArXiV-இல் கற்பூரம் மீது சத்தியமிட்டாமல் ஏழு நாள் தாமதத்துடன் வெளியானது. தலைப்பு: “Tamil Vowel Recognition With Augmented MNIST-like Data Set,” https://arxiv.org/abs/2006.08367
அடுத்த கட்டுரை “Generation and Parsing of Number to Words in Tamil”, இதை ArXiV ஏற்க மறுத்தது – காரணம் எங்கள் வாசகர்களுக்கு இது சுவாரசியமானதல்ல என்ற சாக்கைச்சொல்லி மழுப்பினார்கள். இதை நான் மற்றொறு மொழியியல் மாநாட்டிற்கு அனுப்பியுள்ளேன் – என்ன விளைவு என்று பார்க்கலாம்.
அடுத்த கட்டுரை “Algorithm to correct missing pulli signs in printed Tamil text,” என்பது [2] போல் அதே கதி. பார்க்கலாம்.
கடைசியாக எழுத நினைத்தது ஆனால் நேரம் கிடைக்கவில்லாமல் போனது என்றால் “தமிழில் சொற்களை ஒலி எண்களாக பிரிப்பது” (Syllable identification) என்பதை bigram/unigram என்ற எழுத்தளவான புள்ளியியல் வடிவில் கொண்டு இவற்றை செயல்படுத்துவது. இதற்கு உங்களுக்கு ஆர்வம் இருந்தால் என்னுடன் இணைந்து செயல்படலாம் வாங்க.

இந்த பேரிடர் காலகட்டத்தில் என்னை அடைக்கலம் கொடுப்பதில் ஒன்று மொழி, மொழியியல் அதில் வசிக்கும், செயல்படும் அஞ்சா நெஞ்சர்கள். இதையும் காலம் கடந்து செல்வோம். உருதுணையாக இருந்தவர்கள் அனைவருக்கும் நன்றி.

-முத்து

Tamil Text Processing with Open-Tamil

Introduction

“”ஓர் ஆயிரம் கழித்தல் ஐந்து பெருக்கல் (ஒன்பது கூட்டல் ஒன்று)” என்பதை எப்படி 950 என்று கணினி புரிந்து கொள்ளும் ? Open-Tamil வழியாகத்தான் – வாங்க இதை பார்க்கலாம்.

Open-Tamil is a free and open-source Tamil Text / Natural Language Processing library (NLP) written in Python, and developed since early 2010s. This blog post is cover our gaps in marketing (on our part, ofcourse) Open-Tamil regarding the capabilities and features presented by Open-Tamil python library. Open-Tamil Python package is distributed under MIT license.

Documentation

Open-Tamil project is currently in the release v0.96 – the Python package can be found here. Documentation from Sphinx for Open-Tamil package can be found on Tamilpesu.us site at this URL.

Installation

Open-Tamil can be installed by running the following command from your terminal with root privileges on Python3. You cannot use current/later versions of Open-Tamil with v2.x – please refer to older releases on pypi page which are still available to you.

$ pip install –upgrade open-tamil>=0.96

If you want to install locally, you can run this command instead,

$ pip install –upgrade open-tamil>=0.96 –user

Python Modules

Open-Tamil provides the following Python modules with various classess and functionalities. You can learn more about them from browsing our documentation.

In summary we can list them as follows,

	Module	Functionality
1	tamil Tamil tokenization, word ordering, encoding converters, numerals, text summarizer	Subpackages tamil.txt2ipa package Submodules tamil.txt2ipa.ipaconvert module tamil.txt2ipa.transliteration module tamil.txt2ipa.unicode2ipa module Module contents tamil.txt2unicode package Submodules tamil.txt2unicode.encode2unicode module tamil.txt2unicode.encode2utf8 module tamil.txt2unicode.orddic module tamil.txt2unicode.unicode2encode module Module contents tamil.utils package Submodules tamil.utils.TextSummaryExtractor module tamil.utils.santhirules module Module contents Submodules tamil.date module tamil.iscii module tamil.numeral module tamil.regexp module tamil.tscii module tamil.tscii2utf8 module tamil.tweetparser module tamil.utf8 module tamil.wordutils module Module contents
2	ngram corpus modeling classes	ngram.Corpus module ngram.Distance module ngram.LetterModels module ngram.WordModels module
3	solthiruthi Tamil spelling checker algorithms	solthiruthi package Submodules solthiruthi.Ezhimai module solthiruthi.WordSpeller module solthiruthi.data_parser module solthiruthi.datastore module solthiruthi.dictionary module solthiruthi.dom module solthiruthi.heuristics module solthiruthi.morphology module solthiruthi.resources module solthiruthi.scoring module solthiruthi.solthiruthi module solthiruthi.suggestions module solthiruthi.vinaisorkal module Module contents
4	spell Tamil spelling checker application	spell package
5	tamilmorse Morse code utilities for Tamil; இந்த தொகுப்பில் தமிழுக்கான மோர்சு குறிகளை உருவாக்கவும், குறியீடுகளை பிரித்துப்பார்கவும் முடியும்.	tamilmorse package Submodules tamilmorse.morse_encode module tamilmorse.morse_decode module
6	tamilsandhi Tamil sandhi rules checker	tamilsandhi package தமிழில் சந்திப்பிழை திருத்தி உருவாக்கவும் பிழைக திருத்தவும் உதவியாகஇந்த நிரல் தொகுப்பு வழிவகுக்கும். ஏரக்குறைய 40-விதிகளை கொண்டது இந்த நிரல் தொகுப்பை உருவாக்கியவர் திருமதி. நித்யா. மேலும் விவரங்களுக்க https://github.com/nithyadurai87/tamil-sandhi-checker
7	transliterate Transliteration tables for Jaffna, University of Madras, Bamini schemes; both forward/backward transliteration algorithms	transliterate package Submodules transliterate.UOM module transliterate.algorithm module transliterate.azhagi module transliterate.combinational module transliterate.jaffna module Module contents
8	tamilstemmer This module is new in version 0.96 and provides access to simple stemmer functions originally created by Damodharan Rajalingam.	Tamil Stemmer source code
9	examples Various examples and utilities in Open-Tamil package; nifty code tips and tricks	Open-Tamil source code examples like numeral to audio generation, ngram generation, corpus analysis etc. see link here.

Calculator Example

One fun use of the API is to build interactive websites like tamilpesu.us but a more interesting use is to build a text based calculator taking inputs in form of Tamil numerals with Tamil words for arithmetic operations like add, subtract, multiply and divide.

“”ஓர் ஆயிரம் கழித்தல் ஐந்து பெருக்கல் (ஒன்பது கூட்டல் ஒன்று)” என்பதை எப்படி 950 என்று கணினி புரிந்து கொள்ளும் ?

Using Open-Tamil we can parse the numerals back to numbers and form a simple mathematical infix expression;

1000 – 5 * ( 9 + 1 )

then use Python eval() we can use Python parser and evaluator to build the expression tree and compute the post-order traversal and execute the expression to receive the result, which in our case is not surprisingly,

950.

Well, all this can be done in less than 30 lines of code using Open-Tamil; if you don’t believe me check-out the code here.

Credits

A large number of individuals have contributed their time and effort over the years in many capacities to the project; should you wish to acknowledge this project in your research, products you can choose to cite any of our published works of relevance to you; our publications are listed here.

As always if you wish to report bugs, or share your comments please write an email to me ezhillang AT gmail DOT com or file an issue at github.

குட்டி story … ஒரு அலசல்

சமிபத்திய வெளியாகவுள்ள, லோக்கோஷ் கனகராசு இயக்கத்தில், “Master” திரைப்பட பாடல் ஆல்பத்தில் ஒரு வித்தியாசமான, மனதைக்கவரக்கூடிய தமிழ்/தங்கிலிசு பாடல், “குட்டி story,” இடம் பெற்றது. இதை பிரபல திரைப்பட நடிகர் விஜ்ய் பாடி இசைவாக அமைந்தது. இதை அனுராஜா காமராஜ் பாடல்வரிகள் எழுதி, அநிருத்ரவிசந்தர் இசைஅமைத்துள்ளார்.

Screen Shot 2020-04-18 at 12.47.56 PM

இந்த பாடல் வரிகளை அலசிப்பார்த்தால் என்ன தெறிகின்றது நமக்கு ? இதில் முதலில் நிறைய ஆங்கில சொற்கள் படத்தின் ஏதோ ஒரு சூழலில் இயற்கையாக வரும் தருணத்தை குறிக்க இப்படி பாடல் எழுதியிருக்காங்க என்று கொள்ளலாம். காப்புரிமம் காரணமாக பாடல்வரிகளை இங்கு முழுதாக இடமுடியாவிட்டாலும், நாம் ஓப்பன் தமிழ் கொண்டு இந்த பாடல்களை அலசினால், சுமார் இருபது சதம் சொற்கள் மட்டுமே தமிழ் வரிகளை கொண்டதாக அமைந்திருக்கிறது.

எதுகை மோனையில் {“happy”,”crappy”} – “மாப்பி” என்று தமிழ்-ஆங்கிலம் தங்கிலிஷில் பூந்து விளையாடுகிறார் பாடலாசிரியர்.

பாடல் சற்று கட்டமைப்பில் (rhyme-scheme) எளிமையாக இருந்தாலும்கூட பாட்டில் ஏதோ ஒரு வாழ்க்கையில் சமரசத்தையும், ஒரு நம்பிக்கையூட்டும் நோக்கில் கருத்துக்கள் வெளிவந்திருக்கின்றன. போராட்ட மனப்பாங்கில் இருந்து வெளிவந்தும், மன அவதிகளில் இருந்தும் ஒரு ஓய்வெடுக்க பாடகர் வலியுருத்துகிறார்.

முழு நிரல் இங்கு பார்க்கலாம்:

	#!/bin/env python3
	from codecs import open
	from tamil import utf8
	import re

	with open('kuttistory.txt','r','utf-8') as fp:
	data = fp.readlines()

	class Stats:
	__fields__ = ('total_words','tamil_words')
	stats = Stats()
	stats.total_words=0.0
	stats.tamil_words=0.0

	for line in data:
	all_words = re.split('\s+',line.strip())
	ta_words = list(utf8.get_tamil_words(utf8.get_letters(line)))
	print(all_words,len(ta_words))
	stats.tamil_words += len( ta_words )
	stats.total_words += len(all_words)
	#tamil fraction
	taf = float(stats.tamil_words)/stats.total_words
	print('English = {0}%, Tamil = {1}%'.format(100.0(1-taf),100.0(taf)))

view raw kutty-story-analysis.py hosted with ❤ by GitHub

தமிழ் உரை சம்பந்தமான சில புதிர்கள் (3) – மறைந்த மெய் புள்ளிகள்

இந்த வார பகுதியில் ஒரு வித்தியாசமான சிக்கலைப்பற்றி பேசலாம், முன்னரே எழுதிய பகுதிகளை இங்கு காண்க; அதாவது ஒரு எழுத்துணரியின் வழியாக தயாரிக்கப்பட்ட தமிழ் சொற்றொடரில் சில சமயம் மெய் புள்ளிகள் மறைந்துவிடுகின்றன. இது சற்றி இயந்திர கால சிக்கல் என்றால் அப்போது கல்வெட்டுக்களிலும் நூற்றாண்டின் நாளடைவில் இப்படிப்பட்ட சிக்கல்கள் தோன்றுகின்றன; ஆகவே இது தனிப்பட்ட ஒரு சிக்கல் இல்லை என்பதும் புலப்படுகின்றது. இந்த வலைப்பதிவில் உள்ள அல்கோரிதத்தை இங்கு ஓப்பன் தமிழ் நிரலாக காணலாம்.

1. அறிமுகம்

எனக்கு இந்த சிக்கல் இருப்பதன் காரணம், 1910-இல் ஆர்டன் பாதரியார் இயற்றிய “A progressive grammar of common Tamil,” என்ற நூலின் மறுபதிப்பு பிரதியில் சில/பல சொற்கள் விட்டுப்போயிருந்தன. மறுபதிப்பு செய்யும் நிறுவனமோ, கலிபோர்னியா லாசு ஏஞ்சலஸ் பல்கலைக்கழகத்தில் உள்ள பிரதியினில் இருந்து எப்படியோ (கூகிள் புத்தகங்கள் வழியாகவா?) ஒரு புத்தகத்தின் மின்வடிவத்தை சரிபார்க்காமல் அப்படியே அச்சு செய்து அமேசான் சந்தையில் விற்று அதுவும் என் கைக்கு கிடைத்தது. பல இடங்களில் மெய் புள்ளிகளின் மறைவு – சொற்பிழைப்போல் பாவிக்கும் இந்த பிழைகள் இந்திர வழி செயல்திருத்தத்தால் நுழைக்கப்பட்டவை. நுழககபபடடவை!

மெய் புள்ளிகளின்றி செம்புலப்பொயல்நீரார் கூற்றி சங்க இலக்கியத்தில் இருந்து இப்படியே தோன்றும்,

யாயும ஞாயும யாராகியரோ

எநதையும நுநதையும எமமுறைக கேளிர

…

இதனை எப்படி நாம் சீர் செய்வது? இதுதான் நமது இன்றைய சிக்கல்.

2. அல்கோரிதம்

உள்ளீடு

சொல் என்பதை எழுத்துச் சரமாக தறப்படுகிறது. இதனை சொ என்ற மாறியில் குறிக்கின்றோம்.

வெளியீடுகள்

மறைந்த மெய்கள் இருந்தால் அவற்றை மற்றும் திருத்தி புதிய சொல் வெளியீடு செய்வதற்கு.

அல்கோரிதம் முன்-நிபந்தனைகள்

உள்ளீட்டு சரம் என்பதில் வேறு எந்த சொற்பிழைகளும் இல்லை
சரம் என்பதின் இடம் ‘இ‘ என்பதில், சரம் எழுத்து சொ[இ] என்ற நிரலாக்கல் குறியீட்டில் சொல்கின்றோம்.
சரம் எழுத்து சொ[இ], தமிழ் எழுத்தாக இல்லாவிட்டால் அதனை நாம் பொருட்படுத்துவதில்லை
சரம் எழுத்து சொ[இ], உயிர், மெய், உயிர்மெய் (அகர வரிசை தவிர்த்து), ஆய்த எழுத்து என்றாலும் அவற்றில் எவ்வித செயல்பாடுகளையும் செய்யப்போவதில்லை
ஆகவே, சரம் எழுத்து சொ[இ] என்பது உயிர்மெய் எழுத்தாக அதுவும் அகரவரிசையில் {க, ச, ட, த, ப, ர, .. } இருந்தால் மட்டும் இதனை செயல்படுத்துகின்றோம்.

அல்கோரிதம் செயல்பாடு

மேல் சொன்னபடி, நாம் கண்டெடுக்க வேண்டியது உள்ளீட்டு சரத்தில் அகரவரிசை உயிர்மெய்களில் சரியான உயிர்மெய் எழுத்து வருகிறதா அல்லது மெய் புள்ளி மறைந்து வருகிறதா என்பது மட்டுமே!
இதனை சறியாக செய்தால் அடுத்த கட்டமாக பிழைஉள்ள இடங்களில் புள்ளிகளை சேற்றுக்கொள்ளலாம்
மேல் உள்ள 1-2 படிகளை அனைத்து சொல்லின் அகரவரிசை உயிமெய்களிலும் சயல்படுத்தினால் நமது தீர்வு கிடைக்கின்றது.

இதன் மேலோட்டமான ஒரு முதற்கண் தீற்வை பார்க்கலாம் (இதனை மேலும் சீர்மை செய்ய வேண்டும்),

அல்கோரிதம் – இதற்கு ஒத்தாசை செய்ய மேலும் கூடிய அல்கோரித செயல்முறைகளான “அகரவரிசை_மெய்”, “புள்ளிகள்_தேவையா” மற்றும் “புள்ளிகள்_சேர்” என்றவற்றையும் நாம் சேரக்க்வேண்டும்.

நிரல்பாகம் மறைந்த_மெய்_புள்ளியிடல்( சொல் )

திருத்தம்_சொல் = ""

@(சொல் இல் எழுத்து) ஒவ்வொன்றாக
   விடை = 0
   @( அகரவரிசை_உயிர்மெய்( எழுத்து ) ) ஆனால்  
      விடை = புள்ளிகள்_தேவையா( சொல், எழுத்து )
   முடி
   @( விடை ) ஆனால்
      திருத்தம்_சொல் += புள்ளிகள்_சேர்( எழுத்து )
   இல்லை
      திருத்தம்_சொல் += எழுத்து
   முடி
முடி
பின்கொடு திருத்தம்_சொல்
முடி

நிரல்பாகம் அகரவரிசை_உயிர்மெய்( எழுத்து )
   அகரவரிசை_உயிர்மெய்கள் = 'கசடதபறயரலவழளஞஙனநமண'
   பின்கொடு அகரவரிசை_உயிர்மெய்கள்.இடம்(எழுத்து) != -1
முடி

நிரல்பாகம் புள்ளிகள்_சேர் ( எழுத்து )
   அகரவரிசை_உயிர்மெய்கள் = 'கசடதபறயரலவழளஞஙனநமண'
   அகரவரிசைக்குள்ள_மெய் = ['க்','ச்','ட்','த்','ப்','ற்',
                         'ய்', 'ர்','ல்','வ்','ழ்','ள்',
                         'ஞ்', 'ங்', 'ன்','ந்','ம்','ண்']
   இடம் = அகரவரிசை_உயிர்மெய்கள்.இடம்( எழுத்து )
   பின்க்கொடு அகரவரிசைக்குள்ள_மெய்[ இடம் ]
முடி

பொதுவாக நம்மால் புள்ளிகள்_தேவையா என்ற செயல்பாட்டை சரிவர முழு விவரங்களுடன் எழுதமுடயாது. இது கணினிவழி உரைபகுப்பாய்வுக்கு ஒரு தனி கேடு. அதனால் நாம் புள்ளியியல் வழி செயல்படுவது சிறப்பானது/சராசரியாக சரிவர விடையளிக்கக்கூடிய செயல்முறை.

3. மாற்று அல்கோரிதம்

மேல் சொன்னபடி உள்ள கட்டமைப்பில் புள்ளிகள் தேவையா என்பதன் ஓட்ட நேரம் (runtime), கணிமை சிக்கலளவு (computational complexity) பற்றி பார்க்கலாம்.

உதாரணமாக, “கண்னன்” என்று எடுத்துக்கொண்டால் அது அச்சாகுமபொழுது “கணனன” என்று அச்சாகிறது என்றும் கொள்ளலாம். நமது அல்கோரிதத்தின்படி இதில் நான்று இடங்களில், அதாவது அத்துனை எழுத்துக்களுமே அகரவரிசை உயிமெயகளாக அமைகின்றன. இவற்றில் எந்த ஒது எழுத்தும் உயிர்மெய்யாக இருக்கலாம் (அச்சிட்டபடியே), அல்லது மாறியும் புள்ளி மறைந்த மெய்யாகவும் இருக்கலாம்.

அதாவது, “கணனன” என்ற சொல்லை மொத்தம் உள்ள வழிகளாவது இவற்றின் பெருக்கல்:

க என்ற எழுத்தில் இரண்டு வழிகள்

ண என்ற எழுத்தில் இரண்டு வழிகள்

ன என்ற எழுத்தில் இரண்டு வழிகள்

மொத்தம் 2 x 2 x 2 x 2 = 2⁴ = 16 வழிகள் உள்ளன.

இதனை பொதுப்படுத்தி சொன்னால்,

நீ என்ற எண் நீளம் உள்ள சொல்லில் (அதாவது, நீ = |சொல்|) என்ன நடக்கின்றது என்றால்,
நீ1 என்ற எண் சொல்லின் உள்ள அகரவரிசை உயிர்மெய்களை குறிக்கும் என்றால்,
நீ1 ⩽ நீ,
மொத்தம் நாம் பரிசோதிக்க வேண்டிய வழிகள், 2^நீ1

இது விரைவில் பொறிய அளவு வளரும் ஒரு தொகை, இதனை exponentially fast, அதிவேகமாக வளரும் கணிமை என்றும் சொல்லாம். இதற்கு என்ன செய்ய வேண்டும் என்றால் இதனை எளிதாக வழிகள் தோன்றும் படி மட்டும் விடைகள் தேடினால் நமது செயல்பாடு விரைவில் முடியவே முடியாது – இதற்காக branch and bound என்ற செயல்முறைகளை பயன்படுத்தவேண்டும்.

#இந்த நிரல்பாகம், 2^நீ1என்ற ஓட்ட நேரத்தில் இயங்கும்
நிரல்பாகம் புள்ளிகள்_தேவையா_உதவியாளர்( முதல்_ஒட்டு, சந்தித்காதவை )
   @( நீளம்( சந்தித்காதவை ) == 0 )
         பின்கொடு [முதல்_ஒட்டு]
   முடி
   விடைகள் = []
   எழுத்து = சந்தித்காதவை[0]
   @( அகரவரிசை_உயிர்மெய்( எழுத்து ) ) ஆனால்
         #உள்ளபடியே இந்த இடத்தில் மெய் இல்லை என்றவழியில் யுகிக்க
         விடைகள்1 = புள்ளிகள்_தேவையா_உதவியாளர்(முதல்_ஒட்டு + எழுத்து, சந்தித்காதவை[1:])
         விடைகள்.நீட்டிக்க( விடைகள்1 )

         #உள்ளபடியே இந்த இடத்தில் மெய் வந்தால் எப்படி இருக்கும் என்ற்வழியில் யுகிக்க
         மெய்எழுத்து = புள்ளிகள்_சேர்( எழுத்து )
         விடைகள்2 = புள்ளிகள்_தேவையா_உதவியாளர்(முதல்_ஒட்டு + மெய்எழுத்து, சந்தித்காதவை[1:])
         விடைகள்.நீட்டிக்க( விடைகள்2 )
   இல்லை
         விடைகள்3 = புள்ளிகள்_தேவையா_உதவியாளர்(முதல்_ஒட்டு + எழுத்து, சந்தித்காதவை[1:])
         விடைகள்.நீட்டிக்க( விடைகள்3 )
   முடி
   பின்கொடு விடைகள் 
முடி

நிரல்பாகம் மறைந்த_மெய்_புள்ளியிடல்(சொல்)
    #யுகிப்பு சார்பு என்பது n-gram புள்ளியியல் கொண்டு 
    #சொல்லின் புள்ளிகள் சோர்க்கப்பட்ட மாற்றங்களை மதிப்பிடும்.
    மாற்று_சொற்கள் = புள்ளிகள்_தேவையா_உதவியாளர்( '', list(சொல்) )
    மதிப்பீடுகள் = யுகிப்பு_சார்பு( மாற்று_சொற்கள் )
    இடம் = அதிக_மதிப்பெண்_இடம்( மதிப்பீடுகள் )
    சரியான_மாற்று_சொல் = மாற்று_சொற்கள்[ இடம் ]
    பின்கொடு சரியான_மாற்று_சொல்
முடி

மேல் சொல்லப்பட்டபடி கணினி அல்கோரிதப்படுத்திப்பார்த்தால் ‘கணனன’ என்ற சொல்லிற்கு, 16 மாற்றுகள் கிடைக்கும். அவையாவன,

['கணனன',
 'கணனன்',
 'கணன்ன',
 'கணன்ன்',
 'கண்னன',
 'கண்னன்',
 'கண்ன்ன',
 'கண்ன்ன்',
 'க்ணனன',
 'க்ணனன்',
 'க்ணன்ன',
 'க்ணன்ன்',
 'க்ண்னன',
 'க்ண்னன்',
 'க்ண்ன்ன',
 'க்ண்ன்ன்']

இந்த விடையின் மாற்று சொற்களை unigram அல்லது bigram யுகிப்பு சார்புகளின்படி மதிப்பிட்டால் கீழ்கண்டவாறு கிடைக்கின்றது,

[(‘க்ண்ன்ன்‘, 28.0),
(‘க்ணன்ன்’, 24.83912971793407),
(‘க்ண்னன்’, 24.39197168659185),
(‘க்ண்ன்ன’, 24.0),
(‘கண்ன்ன்’, 23.60384297446045),
(‘க்ணனன்’, 21.231101404525926),
(‘க்ணன்ன’, 20.83912971793407),
(‘கணன்ன்’, 20.44297269239452),
(‘க்ண்னன’, 20.39197168659185),
(‘கண்னன்‘, 19.9958146610523),
(‘கண்ன்ன’, 19.60384297446045),
(‘க்ணனன’, 17.231101404525926),
(‘கணனன்’, 16.834944378986375),
(‘கணன்ன’, 16.44297269239452),
(‘கண்னன’, 15.995814661052302),
(‘கணனன’, 12.834944378986375)]
(‘க்ண்ன்ன்’, -11.553147747485053)]

இந்த சமயம் நமக்கு சரியான விடைகிடைக்கவில்லை; இதனுடன் அகராதிபெயர்கள் அல்லது classification செயற்கைப்பின்னல்களை பயன்படுத்திப்பார்க்கலாம் என்றும் தோன்றுகிறது.

இந்த அல்கோரிதத்தை ஓப்பன்-தமிழ் பைத்தான் நிரலாக எழுதினால் இப்படி:

	# -- coding: utf-8 --
	# (C) 2020, முத்து அண்ணாமலை.
	# இந்த நிரல் துண்டு MIT உரிமத்தில் வெளியிடப்பட்டது
	import tamil
	from pprint import pprint
	import operator
	from solthiruthi.scoring import bigram_scores, unigram_score

	chol = tamil.utf8.get_letters("கணனன")

	def mean(x):
	return sum(x)/float(len(x))

	def pulligal_helper(prefix,letters):
	if len(letters) == 0: return [prefix]
	letter = letters[0]
	result = []
	if letter in tamil.utf8.agaram_letters:
	result1 = pulligal_helper( prefix + letter, letters[1:])
	mei_letter = letter + tamil.utf8.pulli_symbols[0]
	result2 = pulligal_helper( prefix + mei_letter, letters[1:])
	result.extend(result1)
	result.extend(result2)
	else:
	result1 = pulligal_helper( prefix + letter, letters[1:])
	result.extend(result1)
	return result

	def pulligal_branch_bound(prefix,letters,அகராதி):
	""" we restrict options if its not a prefix in dictionary """
	if len(letters) == 0: return [prefix]
	letter = letters[0]
	result = []
	prefer = அகராதி.starts_with(prefix)
	if letter in tamil.utf8.agaram_letters:
	alternate2 = prefix + mei_letter
	if அகராதி.starts_with(alternate2) or prefer:
	mei_letter = letter + tamil.utf8.pulli_symbols[0]
	result2 = pulligal_branch_bound( alternate2, letters[1:])
	result.extend(result2)
	alternate1 = prefix + letter
	if அகராதி.starts_with(alternate1) or prefer:
	result1 = pulligal_branch_bound( alternate1, letters[1:])
	result.extend(result1)
	return result

	#sort in descending order
	result_tpl = [("".join(sol),(-1.0*unigram_score(sol))) for sol in pulligal_helper("",chol)]
	result_tpl = sorted(result_tpl,key=operator.itemgetter(1),reverse=True)
	pprint(result_tpl)

	"""
	['கணனன',
	'கணனன்',
	'கணன்ன',
	'கணன்ன்',
	'கண்னன',
	'கண்னன்',
	'கண்ன்ன',
	'கண்ன்ன்',
	'க்ணனன',
	'க்ணனன்',
	'க்ணன்ன',
	'க்ணன்ன்',
	'க்ண்னன',
	'க்ண்னன்',
	'க்ண்ன்ன',
	'க்ண்ன்ன்']
	#bigram score
	[('கணனன', -12.834944378986375),
	('கணனன்', -16.834944378986375),
	('கணன்ன', -16.44297269239452),
	('கணன்ன்', -20.44297269239452),
	('கண்னன', -15.995814661052302),
	('கண்னன்', -19.9958146610523),
	('கண்ன்ன', -19.60384297446045),
	('கண்ன்ன்', -23.60384297446045),
	('க்ணனன', -17.231101404525926),
	('க்ணனன்', -21.231101404525926),
	('க்ணன்ன', -20.83912971793407),
	('க்ணன்ன்', -24.83912971793407),
	('க்ண்னன', -20.39197168659185),
	('க்ண்னன்', -24.39197168659185),
	('க்ண்ன்ன', -24.0),
	('க்ண்ன்ன்', -28.0)]
	# unigram score
	[('கணனன', -7.5531477474850535),
	('கணனன்', -8.553147747485053),
	('கணன்ன', -8.553147747485053),
	('கணன்ன்', -9.553147747485053),
	('கண்னன', -8.553147747485053),
	('கண்னன்', -9.553147747485053),
	('கண்ன்ன', -9.553147747485053),
	('கண்ன்ன்', -10.553147747485053),
	('க்ணனன', -8.553147747485053),
	('க்ணனன்', -9.553147747485053),
	('க்ணன்ன', -9.553147747485053),
	('க்ணன்ன்', -10.553147747485053),
	('க்ண்னன', -9.553147747485053),
	('க்ண்னன்', -10.553147747485053),
	('க்ண்ன்ன', -10.553147747485053),
	('க்ண்ன்ன்', -11.553147747485053)]
	"""

view raw fix_erased_mei.py hosted with ❤ by GitHub

மேலும், செம்புலப்பெயல்நீரார் கூற்றை மெய்கள் சேர்த்தால், இப்படி வருகின்றது. இதில் 7-இல் ஆறு சொற்கள் சரியாவருகிறது.

[(‘யாயும்‘, 20.0), (‘யாயும’, 16.0)]
[(‘ஞாயும்‘, 20.0), (‘ஞாயும’, 16.0)]
[(‘யாராகிய்ரோ‘, 36.0), (‘யாராகியரோ‘, 31.94703511524359)]
[(‘எந்தையும்‘, 32.0),(‘எநதையும்’, 28.83912971793407),(‘எந்தையும’, 28.0),(‘எநதையும’, 24.83912971793407)]
[(‘நுந்தையும்‘, 36.0),
(‘நுநதையும்’, 32.83912971793407),
(‘நுந்தையும’, 32.0),
(‘நுநதையும’, 28.83912971793407)]
[(‘எம்முறைக்‘, 32.181004231607204),
(‘எமமுறைக்’, 28.543012694821613),
(‘எம்முறைக’, 28.181004231607204),
(‘எமமுறைக’, 24.543012694821613)]
[(‘கேளிர்‘, 20.0), (‘கேளிர’, 16.0)]

மேலும் தொடர்புக்கு உங்கள் விவரங்களை இங்கு சேர்க்கவும்.

தமிழ் உரை சம்பந்தமான சில புதிர்கள் (2) – இரட்டைக்கிளவி, ஜதி

1 கேள்வி

ஏற்கணவே எழுதிய கட்டுரை கீற்றில் தமிழ் கட்டுரைகளில் எப்படி பால் ஓற்றுமை படுத்துவது என்ற கேள்வியைப்பற்றி கண்டோம். இன்று, தமிழில் எப்படி இரட்டைக்கிளவி சொற்கள், பரத நாட்டிய/கருநாடக இசையில் ஜதி சொற்கள், என்பதை கணினியால் சுயமாக அறியமுடியும் என்ற கேள்வியைப்பற்றி பார்க்கலாம். விடைகள் என்னிடம் இருந்தால் INFITTக்கு முதல் ஆளாக கட்டுரை எழுதிருபேன் இல்லையா ஹஹா ;).

முதன்மையில் இவ்வை சொற்கள், இரட்டைக்கிளவி மற்றும் ஜதி சொற்கள், ஒருவகையான இசைவுத்தன்மையை சொல்பவை. இதனை, மற்ற மொழிகளிலும் காணலாம் – முதன்மையாக ஆங்கிலத்தில் இதனை Onomatopoeia என்றும் சொல்கின்றனர்.

தமிழ் சினிமா இசை பாடல்களில், செய்யுள்களில், என பல இடங்களில் சீசீ இங்தப்பழம் புளிக்குது என்று சொல்லும் சுடசுட கிசுகிசு பத்திரிகைகளிலும் எல்லாஇடத்திலும் பரவலாக உள்ள தமிழ் சொல்லாடல் அம்சமாக விளங்குகின்றது இந்த இரட்டைக்கிளவி.

உதாரணம், இந்த 1998-இல் வெளிவந்த ஜீன்ஸ் படப் பாடலான “கண்ணோடு காண்பதெல்லாம்…” பாடலில் இரட்டைக்கிளவி, மற்றும் ஜதி சொற்கள் இடம் பெருகின்றன:

தக்ரதக்ரதக்ரதிம் தக்ரதக்ரதக்ரதிம் தக்ரதக்ரதக்ரதிம் தக்ரதக்ரதகஜம் (2)

சலசல சலசல இரட்டைக் கிளவி தகதக தகதக இரட்டைக் கிளவி
உண்டல்லோ தமிழில் உண்டல்லோ

தமிழில் சராசரி சொல்லாடல்களை சற்று விக்கிப்பீடியாவில் கண்டால் அவர்கள் பட்டியலில் வருவதாவது,

கிடுகிடு பள்ளம் பார்த்தேன்
கிளுகிளு படம் பார்த்தாராம்
கிறுகிறு என்று தலை சுற்றியது
கீசுகீசு என குருவிகள் கத்தின
குசுகுசு என்று அதை சொன்னார்
குடுகுடு கிழவர் வந்தார்
குபுகுபு என குருதி கொட்டியது
கும்கும் என்றும் குத்தினார்
குளுகுளு உதகை சென்றேன்

சில கேள்விகள்

இவற்றில் எப்படி இந்த சொற்களின் திரும்பத்திரும்ப வரும் தன்மையை ஒரு விதிகளால் அல்லது ஒரு சூத்திரத்தினால் குறிக்கமுடியும் ?
இப்படி குறிக்கமுடியுமா, இல்லையா ?
இவாறு எழுதப்பட்ட சூத்திரம் அல்லது நிரல் சார்புகளினால் இந்த பட்டியல்கள் தானியங்கியால் குறிக்கப்படும் இரட்டைக்கிளவி, குறிக்கப்படாத இரட்டைக்கிளவி என்று இருவகைபடுத்தப்படுமா ?

2 சில் விடைக்கான எண்ணங்கள்

2.1 Regular Expression

எனது அனுபவத்தில், இதன் தானியங்கி விதிகள் regular expression என்ற சார்ககத்தினால் எந்த ஒரு உரையிலும் கண்டெடுக்கலாம் என்றும் எண்ணுகின்றேன் – (தமிழில் regular expression-களை ஓப்பன் தமிழ் நிரல் திரட்டில் நீங்கள் பார்க்கலாம்) – எனினும் இது எளிதான செயல் அல்ல – அதுவும் கணினி நினைவகம்/இயக்கும் நேரம் big-O சிக்கல் அளவுகளில் சிக்கனமாகவும் துரிதமாகவும் இந்தவகைச்சேவைகளைச்செய்வது ஒரு கடினமான காரியம்.

pattern = u"^[க-ள].+[க்-ள்]$"

data = [u"இந்த",u"தமிழ்",
        u"ரெகேஸ்புல்",
        u"\"^[க-ள].+[க்-ள்]$\"",u"இத்தொடரில்", u"எதை", u"பொருந்தும்"]
output = match(data, pattern)
expected = [1,2,6] # i.e.தமிழ்

2.2 செயற்கையறிவு பின்னல்கள் / எந்திரவழி கற்றல்.

மற்ற ஒரு தீர்வு செயற்கையறிவு, ஆழக்கற்றலினால் வரும் என்றும் சொல்லலாம். இந்த கேள்வியை ஒரு classification பகுப்பாய்வு எந்திரவழிகற்றலாக கணினியிடம் நியமித்து, விக்கி மற்றும் பல இடங்களில் இருந்து தரவுகளை தயாரித்து இந்த செயற்கைப்பின்னலை பயிற்சிஅளித்தால் அது நேரம் போகையில் அது திறன்களைப்பொரும்.

மேலும் – ஒரு நல்ல sequence-to-sequence வழியாக கட்டமைக்கப்பட்ட செயற்கையறிவு மாதிரி பின்னல் நாம் சொல்லிக்கொடுத்ததைவிட அதிகமாகவே கற்றிருக்கும் தன்மையையும் நாம் பார்க்கக்கூடும் என்று யுகிக்கக் தோன்றுகிறது.

இது இன்றைக்கு உள்ள சிக்கல்.

தமிழ் உரை சம்பந்தமான சில புதிர்கள்

தமிழ் செயற்கையறிவு மற்றும் எந்திர வழி உரை பகுப்பாய்வு போன்ற செயல்பாடுகளின் திறன் தினமும் வளர்ந்து கொண்டே போகின்ற சமயத்தில் (செயற்கையறிவு என்ற பேரலையின் முதுகில் பயணிக்கின்றது என்றபடியாக) இவற்றினால் கடக்கவேண்டிய சில புதிர்கள் என்ன (என்பார்வையில்) என்று இந்த பதிவில் அலசலாம்.

இருபால் சமநிலைப்பாடுத்தல் (gender balanced text)
- அரசாங்கம், வணிக கார்ப்ரேட் நிறுவனங்கள் தினசரி புழக்கத்தில் பல செய்திகள் விளம்பரப்படுத்தலுக்கும், உள்நிறுவன செயல்பாட்டிற்கும் பகிர்ந்துகொள்ள வேண்டியிருக்கும். இத்தகைய செய்திகளில் சில் கேள்விகள் எழுகின்றன:
  - இந்த செய்திகள் முழுவதும் இருபாலினருக்கும் சரிசமமாக பாரபட்சமின்றி எழுதப்பட்டுள்ளதா?
  - இப்படி இல்லாவிட்டால் செயற்கையாக உரைதிருத்தம் செய்து இருபால் சம நிலைப்படுத்தல் செய்யலாம ?
- உதாரணம்: “பணியாளர் வேலைக்கு வந்தால் அவர் மனைவியிடம் ஒப்புதல் பெற வேண்டும்..” என்ற படி ஒரு உரை இருந்தால் அது சமனிலைப்படுத்தப்பட்டபின் “பணியாளர் வேலைக்கு வந்தால் அவர் மனைவியிடம் (அல்லது அவள் கணவனிடம், [துனைவன்/வியிடம்]) ஒப்புதல் பெறவேண்டும்” என்று வரவேண்டும்.
- இத்தகைய ஒரு செயற்கையறிவு அல்லது தானியங்கியிடம் திருக்குறள் மற்றும் சம்காலத்தில் உருவாகாத பழங்கால உரைகளைக்கொடுத்தால் என்ன ஆகும் ?

மேலும் சில திறன்களை தமிழ் இயல்மொழிபகுப்பாய்வு பெரும் என்றும் நம்பலாம்; அடுத்தகட்ட கேள்விகள் / புதிர்கள் அடுத்த பதிவில்.

நன்றி

-முத்து