வணக்கம் தமிழ் கணிமை ஆர்வலர்களே, இன்று ஓப்பன்-தமிழ் நிரல் தொகுப்பு வரிசை எண் 0.97 வெளியீடு அறிவிக்கிறோம். இதில் புதியன, சென்ற 2019-நவம்பர் மாதம் கழித்து வந்த மேம்பாடுகளாகியன, கீழ்வருமாறு.இதனை பெற
$ pip install –upgrade open-tamil==0.97
என்று கட்டளை கொடுக்கலாம்.
1 புதிய மேம்பாடுகள்:
மாத்திரை கணித்தல் – தமிழ் உரையில் உள்ள சொற்களின் மாத்திரை அளவை கணிக்க புதியசார்பு ‘tamil.utf8.total_maaththirai()’ என்று திரு. பரதன் தியாகலிங்கம் அவரால் பங்களிக்கப்பட்டது.
வடமொழி சொல்பட்டியல் மோனியர்-வில்லியம்ஸ் அவரது அகராதியில் இருந்து திரிக்கப்பட்டு இங்கு சேர்க்கப்பட்டது
‘tabraille’ என்ற module-இல் கண்பார்வை குறை உள்ளவர்களினால் தமிழ் பாரத பிரெயில் என்ற தரத்தை கையாளும் வகை சில உத்திகள் உள்ளன.
‘kural’ என்ற module-இல் திருக்குறளை நேரடியாக கையாள சில உத்திகள் உள்ளன. இது 2013-இல் வெளிவந்த ‘libkural’ என்பதன் மீள்பதிவாகும்.
‘solthiruthi’ என்ற module-இல் எளிதான சில மேம்பாடுகள் செய்யப்பட்டுள்ளன – இவற்றினால் வரும் மாற்றுச்சொற்கள் சற்று மேன்மை அடையும்.6. தமிழ் எழுத்துவழி எண்களை பகுப்பாய்வு செய்து எண்களாக மாற்ற ஒரு சார்பு #221
olini.py supports natual language arithmetic evaluation in Tamil for
all numbers based on this work.7. ‘tamiltts’ என்ற ஒரு module-இல் normalize numbers to numeral text என்றும் வேறு பல சொல்/உரை நெறிப்படுத்தும் பயன்பாடுகள் உள்ளன. இதுவும் ஒரு பழைய நிரலில் மீள் பதிப்பு.
‘tamil.tace16’ – என்ற நிரல் தொகுப்பில் தமிழ் TACE16 என்ற குறியீட்டிற்க்கு உதவும்வழி சில நிரல் சார்புகள் உண்டு.
‘transliterate.ITRANS’ – என்ற நிரல் தொகுப்பில் ITRANS transliteration – ஒலிவழி தட்டச்சு செய்தல் உருவாக்கப்பட்டது
2 வழு நீக்கம்:
பாமிணி எழுத்துருவில் இருந்து ஒறுங்குறியில் மாற்றத்தில் வழு நீக்கம் சரிபார்க்கப்பட்டது
நெடில் பட்டியலை சரிபார்த்தல்
Python3-இல் உகந்தவாறு sorting, ‘tamil.utf8.tamil_sorted’ என்ற சார்பு சேர்க்கப்பட்டது
நாள், நேரம் – tamil.date நிரல் தொகுப்பில் உள்ள சில வழு நீக்கம் செய்யப்பட்டது
3 புரவலர்களுக்கு நன்றி தெறிவித்தல்
We thank @pycharm for donation of 1 seat professional license towards Open-Tamil development. __/|\__. Thanks to @infitt and Prof. @crselvakumar1 for their support toward 1-way airfare cost of attending 2017-Tamil Internet Conference in Toronto, Canada. https://github.com/Ezhil-Language
வாய்ப்பிற்கு நன்றி.
-முத்து (கலிபோர்னியா).
மேற்கோள் – இந்த வலைப்பதிவு முதலில் ஒரு மின்னஞ்சல் அறிக்கையாக, திறமூலதமிழ் கணிமை அளவலாவள் குழுவில் இங்கு வெளியானது.
சமிபத்தில் Yahoo குழுமங்கள் சேவை நிறுத்தப்படுவதாலும் அங்கு உள்ள பல வரலாற்று நோக்கில் சுவாரசியமான உரையாடல்கள், முக்கியமான கருத்துக்கள், அனைத்தையும் ஆவணப்படுத்தி செய்வது முக்கியமாக அமைந்ததுள்ளது.
இதை அணுகுவதில் 1980-90-களில் இருந்த தமிழ் எழுத்துரு வழி உள்ள குறியீடுகளும் [font-based encoding] அதன்பால் உள்ள சிக்கல்களும் நிற்கின்றன. இவற்றை தரப்படுத்தி தமிழில் ஒருங்குறி [unicode] வழியில் சேமித்தால் இந்த தரவுகளை முறைப்படி சேமித்தும், பரிசோதித்தும் பார்க்கலாம் என்பது இலக்கு.
முதலில் இதனை நண்பர் ஒருவரிடம் வழி இந்த செய்தி வந்தது- அதில் உள்ள இந்த மாதிரி உரையை டுவிட்டரில் இட்டேன். மேலும் சற்று சிறிய பரிசோதனையில்சட்டென்று குறியீடை அடையாளம் காண முடிந்தது.இது ஒரு ஓப்பன் தமிழ் மற்றும் எங்களது பங்களிபாளர்களின் மொத்த ஒரு வெற்றி என்றும் தோன்றுகிறது.
ஓப்பன்-தமிழ் தொகுப்பில் இந்த வேலையை பரிசோதித்து பார்த்தால் கீழ்கண்டபடி நிரல் இடலாம்:
# This code is in Public Domain.
# It requires installation of Open-Tamil module from Python Package Index.
# Currently Tamil text is saved in Unicode format but it wasn't always like this.
# If you have some of the old encoding formats like TAM, TAB, ISCII etc. you can
# use the encoding converters from Open-Tamil (inspired by ones from Suratha, and late Gopi of HiGopi.com)
# The following code demonstrates the decoding process
# using an intensive search algorithm written by Arulalan, T.
மேலும் தமிழில் இயங்கும் பலர் தங்களது வேலைகளில் உள்ள தமிழ் செயலிகளும், அதன் திறன்களில் இதே போன்ற சிக்கல்களை தீர்வடையலாம் என்று தகவல் தெறிவித்தனர்; அவையாவன:
Please note table was updated to show letters in most-frequent to least-frequent alphabets and their code-words used. Updated after publishing on Aug 16th, 2018.
Source coding theory
Information theory provides us with tools to calculate the information content of symbols in a language, i.e. alphabets in our case. Average codeword length was 6.45652 bits, which is rounded to 7bits.
According to 230+ symbols of encoded in binary without attention to letter frequency we would be using ceil[ log2[230] ] ~ 8bits per symbol, so the usage of Morse code provides a related data compression of 12.5%!
Previously, I had written about Morse code for Tamil in this blog here, and relationship with Unigram, Bigram and Trigram models and word-structure in Tamil language.
ம் -> --..
த -> -...
க -> ...-.
ல் -> ..---
த் -> ----.
க் -> -.---
ன் -> -.--.
ர -> .....-
ப -> ....--
வ -> ..--.-
தி -> ..-..-
ச -> ..-.-.
கு -> .----.
ம -> .---.-
ப் -> .--..-
ட் -> .--.-.
டு -> .-...-
ர் -> .-..-.
ய -> .-.-.-
அ -> ---..-
ட -> ---.--
ரு -> ---.-.
பு -> -..---
கா -> -..--.
து -> -..-.-
ல -> -.-..-
வி -> .......
டி -> ....-..
ண் -> ....-.-
சி -> ...---.
ன -> ..--...
ரி -> ..-....
ங் -> ..-...-
ந் -> ..-.---
ற் -> .-----.
இ -> .--...-
று -> .-..---
ச் -> .-....-
சு -> .-..--.
பா -> .-.----
கி -> .-.--..
பி -> .-.--.-
வா -> .-.-...
மு -> -----..
ள் -> ---....
லை -> --.--..
உ -> --.--.-
டை -> --.-..-
தா -> --.-.--
ண -> -..-...
கை -> -..-..-
ஆ -> -.-...-
மா -> -.-.---
ய் -> -.-.-.-
ள -> ......-.
சா -> ...--..-
ற -> ...--.--
லி -> ..--..--
வு -> .---...-
கொ -> .---..-.
ந -> .--.....
நி -> .--....-
ஞ் -> .--.----
ரா -> .--.---.
ணி -> .--.--..
ளி -> .--.--.-
யா -> .-......
நா -> .-.-..--
றி -> .-.-..-.
கோ -> -------.
செ -> ------..
ழி -> ------.-
னி -> -----.-.
ழு -> --.-----
மி -> --.----.
யி -> --.-....
பொ -> --.-.-..
ரை -> --.-.-.-
வெ -> -.-.....
எ -> -.-.--..
மை -> -.-.--.-
றை -> -.-.-..-
பூ -> ......--.
ழ -> ...-----.
னை -> ...----..
லா -> ...--.-..
சை -> ..--..-.-
வை -> ..-.--...
போ -> ..-.--..-
கூ -> ..-.--.-.
வே -> .--------
டா -> .-------.
தை -> .------..
பெ -> .---....-
ளை -> .---..---
தே -> .-.---...
ஒ -> .-.---.--
ழ் -> -----.---
லு -> ---...---
நீ -> ---...-..
சீ -> ---...-.-
தீ -> --.---...
மூ -> --.---..-
தொ -> --.---.--
ணை -> --.---.-.
ஏ -> --.-...-.
நெ -> -.-....-.
ளு -> -.-.-....
னா -> ......----
சூ -> ......---.
மே -> ...-------
தோ -> ...------.
தெ -> ...----.-.
சொ -> ...--.....
சே -> ...--....-
தூ -> ...--...--
யு -> ...--...-.
பே -> ...--.-.--
வீ -> ..--..-..-
ஊ -> .------.--
னு -> .---......
யோ -> .---.....-
சோ -> .---..--..
கே -> .-.....---
ழை -> .-.....--.
ணு -> .-.---..--
ஓ -> .-.---.-..
கெ -> ----------
கீ -> --------..
றா -> --------.-
பை -> -----.--..
ணா -> -----.--.-
ரோ -> ---...--.-
மொ -> -.-....--.
மெ -> -.-.-...--
லோ -> ...----.---
பீ -> ...----.--.
ளா -> ...--.-.-.-
ஈ -> ..--..-....
ஞா -> ..--..-...-
மீ -> ..-.--.----
வ் -> ..-.--.--..
மோ -> ..-.--.--.-
நு -> .---..--.-.
ஐ -> .-.....-..-
ரே -> .-.....-.-.
நோ -> .-.---..-.-
நே -> .-.---.-.--
நூ -> ---------..
யெ -> --.-...----
லே -> --.-...--..
ரீ -> -.-....----
நொ -> -.-....---.
யை -> -.-.-...-..
ழா -> ...--.-.-...
ரூ -> ...--.-.-..-
னோ -> .------.-.--
ஞ -> .---..--.---
யூ -> .---..--.--.
வோ -> .-.....-....
யே -> .-.....-.---
லெ -> .-.---..-...
ரெ -> .-.---.-.-.-
ணீ -> ---...--....
டோ -> ---...--..--
டெ -> ---...--...-
கௌ -> ---...--..-.
ணெ -> --.-...---..
சௌ -> --.-...---.-
றெ -> ..-.--.---...
லூ -> ..-.--.---..-
றோ -> .------.-....
னே -> ..-.--.---.--
னீ -> .------.-..-.
நை -> .------.-..--
டூ -> .------.-.-..
னெ -> .-.....-.--..
டே -> .-.....-.--.-
ஞெ -> .-.---..-..--
ளெ -> .-.---.-.-...
டீ -> ---------.---
யொ -> ---------.--.
பௌ -> ---------.-..
ஃ -> --.-...--.---
ஔ -> --.-...--.-..
ஞை -> -.-.-...-.---
யீ -> -.-.-...-.--.
றொ -> -.-.-...-.-.-
வொ -> .------.-...--
வூ -> ..-.--.---.-..
னூ -> .------.-.-.--
ளோ -> .-.....-...---
ணோ -> .------.-.-.-.
றே -> .-.....-...--.
மௌ -> .-.....-...-..
தௌ -> .-.---..-..-..
ளே -> .-.---.-.-..-.
லொ -> .-.---.-.-..--
றூ -> ---------.-.--
ரொ -> --.-...--.--..
டொ -> --.-...--.-.-.
ங -> -.-.-...-.-...
ணே -> ..-.--.---.-.--
ளீ -> .------.-...-..
ழூ -> .-.....-...-.-.
ளொ -> .-.---..-..-.-.
ரௌ -> .-.---..-..-.--
யௌ -> ---------.-.-..
னொ -> ---------.-.-.-
ழோ -> --.-...--.-.--.
ளூ -> --.-...--.-.---
ஞி -> -.-.-...-.-..--
ணொ -> .-.....-...-.---
ணூ -> .------.-...-.--
ழீ -> .-.....-...-.--.
ஸ் -> --.-...--.--.--.
வௌ -> -.-.-...-.-..-..
ஞீ -> --.-...--.--.---
ஷ் -> ..-.--.---.-.-...
ஷி -> ..-.--.---.-.-..-
ழெ -> ..-.--.---.-.-.-.
றீ -> .------.-...-.-.-
நௌ -> ..-.--.---.-.-.--
ஞே -> .------.-...-.-..
லௌ -> --.-...--.--.-..-
ஞொ -> -.-.-...-.-..-.--
ஙு -> --.-...--.--.-...
ஷ -> --.-...--.--.-.---
ழொ -> --.-...--.--.-.--.
ழே -> -.-.-...-.-..-.-.
டௌ -> --.-...--.--.-.-.-
ஞூ -> --.-...--.--.-.-..
Caveats and Closing Comments
Of course 15 of 247 letters are perhaps not received any codeword in this codebook. Further with inclusion of Grantha letters, 323 letters exist in Tamil some of which we don’t have code words.
Further, a large text corpus like Project Madurai’s [PM] unigram frequency distribution maybe useful to develop a widely representative Morse code table. Once you have this PM unigram data, you know how to get this Tamil Morse codebook regenerated!