எண்ணிம ‘டிஜிட்டல்’ தரவாக்கமும் தமிழ் எழுத்துரு குறியீடுகளும்

சமிபத்தில் Yahoo குழுமங்கள் சேவை நிறுத்தப்படுவதாலும் அங்கு உள்ள பல வரலாற்று  நோக்கில் சுவாரசியமான உரையாடல்கள், முக்கியமான கருத்துக்கள், அனைத்தையும் ஆவணப்படுத்தி செய்வது முக்கியமாக அமைந்தது.

இதை அனுகையில் 1980-90-களில் இருந்த தமிழ் எழுத்துரு வழி உள்ள குறியீடுகளும் [font-based encoding] அதன்பால் உள்ள சிக்கல்களும் நிற்கின்றன. இவற்றை தரப்படுத்தி தமிழில் ஒருங்குறி [unicode] வழியில் சேமித்தால் இந்த தரவுகளை முறைப்படி சேமித்தும், பரிசோதித்தும் பார்க்கலாம் என்பது இலக்கு.

முதலில் இதனை நண்பர் ஒருவரிடம் வழி இந்த செய்தி வந்தது- அதில் உள்ள இந்த மாதிரி உரையை டுவிட்டரில் இட்டேன். மேலும் சற்று சிறிய பரிசோதனையில்சட்டென்று குறியீடை அடையாளம் காண முடிந்தது.இது ஒரு ஓப்பன் தமிழ் மற்றும் எங்களது பங்களிபாளர்களின் மொத்த ஒரு வெற்றி என்றும் தொன்றுகிறது.
ஓப்பன்-தமிழ் தொகுப்பில் இந்த வேலையை பரிசோதித்து பார்த்தால் கீழ்கண்டபடி:

மேலும் தமிழில் இயங்கும் பலர் தங்களது வேலைகளில் உள்ள தமிழ் செயலிகளும், அதன் திறன்களில் இதே போன்ற சிக்கல்களை தீர்வடையலாம் என்று தென்பட்டது.

  1. சுரதா அவரது தமிழ் உரை மாற்றி
  2. நீச்சல் அவரது தமிழ் எழுத்து எழுத்துசீராக்கி
  3. nhm-ரைட்டரில் 2007-இல் இருந்து இந்த சேவை இருப்பதாக அவர்கள் தெரிவித்தார்கள்.

ஆனால் இன்று எளிதாக பொதுவில் இதனை உங்கது ஆவணமாக்கம் தேவைகளுக்கு ஓப்பன்-தமிழிலும் பயன்படுத்தலாம்.

நன்றி.

 

 

 

மென்பொருள் வெளியீட்டில் உள்ள சிக்கல்கள்

சமிபத்தில் ஓப்பன் தமிழ் வரிசை எண் 0.95-ஐ பதிவாக்கி வெளியிட்டோம். ஆனால் ஒரு பெரிய சிக்கல் – இது பொது பயன்பாட்டில் வேலை செய்யவில்லை.

ஏன் என்று பார்த்தால் :

1. PyPi – தளம் மேம்பாட்டின்/மாற்றத்தின் காரணமாக reST என்ற படிவத்தில் மற்றுமே நிரல் தொகுப்புகளின் குறிப்புகளை ஏற்றுக்கொண்டவகை ஆனது. நாங்கள் எப்போதுமே MD படிவத்தில் மட்டும் தான் இந்த குறிப்புகளை எழுதுவது வழக்கமானது. ஆனால் reST குறிப்புகளுக்கு கட்டாயப்படுத்தபட்டோம்.

2. PyPi தளத்தில் நிரல்களை வினியோகல் செய்ய setup.py என்ற நிரல் வழி செயல்படுகின்றது. இந்த நிரல் சரிவர இருந்தாலொளிய பயனரிகளின் நிறுவுதல் கட்டளைகள் வேலைசெய்யாது. ஆகவே, ஓப்பன் தமிழ் நிரல் தொகுப்பு.

 

இதன் காரணத்தை இங்கு பார்க்கலாம்:

bug-pypi

அடுத்த கட்டமாக இதனை நிவரத்தி செய்ய, MANIFEST.in கோப்பில் சரியான தகவல்களை மேம்படுத்தியபின் முதலில் எனது கணினியில் பரிசோதித்தபின், 0.96 வரிசை எண்னை PyPi-இல் பதிவு செய்தேன்.

$ python3 setup.py sdist build

$ python3 -m twine upload dist/*

இதனை, நண்பர்கள் சரிவர உள்ளதாவென்று சரிபார்த்தபின் வழு நீக்கமானதை உணர முடிந்தது.

ஆகவே காரணங்கள் என்னவென்றும், சிக்கல்களை உணர்ந்தபின்னும் பல வழிகளில் இவற்றை மறுமுறை தவிர்க்க வழிகளை கண்டிட நேர்கின்றேன்.

1. அடிக்கடி நிரல்களை வெளியிடுவது. (ஏப்ரல் 2019-இல் உள்ள வெளியீட்டிற்கும், இந்த நவம்பர் மாத வெளியீட்டிற்கும் நடுவில் PyPi தளம் மாற்றம் பெற்றது – இதனை சரிவர கண்டிடலாம்)

2. வெளியீட்டின் பொழுது உடணடியாக பரிசோதிப்பது

3. மற்ற பங்களிப்பாளர்களை உடனடியாக பரிசோதிக்க வேண்டிவது.

நன்றி.

 

 

 

🦊 விலங்குகள் – குறுக்கெழுத்து

விலங்குகள் – குறுக்கெழுத்து – இந்த கீழ் உள்ள சட்டத்தில் என்ன என்ன விலங்குகளின் பெயர்கள் உள்ளன என்று உங்களால் கண்டறிய முடியுமா ? உபயம் : தமிழ்பேசு  வலை.

இதனை இலவசமாக நீங்க அச்சிட்டும், மற்ற ஊடகங்களிலும் பயன்படுத்தலாம்.

🦃 🐔 🐓 🐣 🐤 🐥 🐦 🐧 🕊️ 🦅 🦆 🦉🐵 🐒 🦍 🐶 🐕 🐩 🐺 🦊 🐱 🐈 🦁 🐯 🐅 🐆 🐴 🐎 🦄 🦌 🐮 🐂 🐃 🐄 🐷 🐖 🐗 🐽 🐏 🐑 🐐 🐪 🐫 🐘 🦏 🐭 🐁 🐀 🐹 🐰 🐇 🐿️ 🦇 🐻 🐨 🐼 🐾 🦓 🦒 🦔

கழுகுகள் – eagles
யானை – elephant
யானைகள் – elephants
ஒட்டகச்சிவிங்கி – giraffe
ஒட்டகச்சிவிங்கிகள் – giraffes
ஆடு – goat
ஆடுகள் – goats
குதிரை – horse
குதிரரைகள் – horses
சிங்கம் – lion
சிங்கங்கள் – lions
குரங்கு – monkey
குரங்குகள் – monkeys
சுண்டெலி – mouse
சுண்டெலிகள் – mice
முயல் – rabbit
முயல்கள் – rabbits
பாம்பு – snake
பாம்புகள் – snakes
புலி – tiger
புலிகள் – tigers
ஓநாய் – wolf
ஓநாய்கள் – wolves

விலங்குகள்-tamil-crossword

விடைகளுக்கு மின் அஞ்சல் அனுப்பலாம் – ஆனால் தேவைப்படாது என்றும் தோன்றுகிறது.

-முத்து

 

Open-Tamil v0.95

Today, we are releasing Open-Tamil v0.95 via Python package index here.

எழில்-open-tamil contributors meetup

எழில்-open-tamil contributors meetup (2018). படம் – உபயம் : திரு. சீனிவாசன்.

In this release there are few new items and routine improvements.

  1. Indian Rupee sign parsing
  2. Package tamil-sandhi-checker with open-tamil

  3. Tamil Morse code module added to package

  4. Remove Python 2.x support with sunsetting from PSF
  5. Valai – package of web ReST API for some spellcheckers

Get the latest:

$ pip install --upgrade open-tamil

Thanks to all our contributors present and past.
Happy Holidays!

P.S: மின் அஞ்சல் அறிவிப்பு கீழ் இணைக்கப்பட்டது.

வணக்கம் தமிழ் கணிமை ஆர்வலர்களே,

இன்று Open-Tamil வரிசை எண் 0.95 வெளியீடு ஆனது.  இந்த நிரல் தொகுப்பு முற்றிலும் திறமூல MIT உரிமத்தில் வெளியிடப்பட்டது. இதனை கொண்டு நீங்கள் பைத்தான் கணினி மொழியில் தமிழ் மொழி ஆய்வுகளை செயல்படுத்தலாம்.
உதாரணமாக இரண்டு திறமூல சேவைகள்/செயல்பாடுகள் (அதாவது எழில், தமிழ்சந்தி மற்றும் தமிழ்பேசு-வலை என்பவற்றை தவிற்த்து [எங்கள் குழுவினர் அல்லாதவர்]) பயன்பாட்டில் பொதுவெளியில் உள்ளது தெரியவந்தது-
 1) பைதமிழ் என்ற (அவலோகிதம் போல) வேண்பா திரிப்பு நிரல் தொகுப்பு (library), மற்றும் 
2) வென்முரசு தோடர்நாவலை உரை-பகுப்பாய்வு செய்யவும் ஒரு செயலி என்றபடி உள்ளது.

இந்நிலையில் இந்த வெளியீட்டில் உள்ளவை,

1. தமிழ்சந்தி என்ற விருது பெற்ற திருமதி. நித்தியா-திரு. சீனிவாசன் அவர்களது படைப்பான  தமிழ் சந்திப்பிப்பிழைத்திருத்தி  இந்த தொகுப்பில் இடம் பெற்றது. இதில் நாற்பது விதிகளுக்கும் மேல் சந்திப்பிழைகளை கண்டரிய வசதிகள் உள்ளது.

2. தமிழ் மோர்சு என்ற தந்தி குறிகளை தமிழில் கையாள இது உதவுகிறது.

3. வலை என்ற நிரல் தொகுப்பில் திரு. நீச்சல்கீரன் அவரது வாணி  மற்றும் தமிழ்பேசு சொற்பிழை திருத்தியை இணையம்வழி கையாள வசதிகள் உள்ளன. 

முழு விவரங்களுடன் வெளியீடு: https://ezhillang.blog/2019/11/20/open-tamil-v0-95/

ஒப்பன் தமிழ் குழுவிற்காக,
அன்புடன்
-முத்து
கலிபோனியா

Google CoLab – இணையம் வழி நிரல்களை பழகுதல்

என்ன :

கூகிள் நிறுவனம் CoLab – Code-Laboratory என்ற ஒரு சோவையை பெரும்பாலும் பைத்தான் வழி செயற்கையறிவு நிரல்களை (TensorFlow கொண்டு)  உருவாக்க பொதுமக்களுக்கு வழ்ங்கியுள்ளது. ஆனால் இதனை தமிழ் கணிமைக்கு பயன்படுத்தலாமா ? ஆம்.

தமிழ்-கூகிள்-கோலாப்-நிர்ல்-பயிற்சி

எப்படி:

ஒரு உதாரணமாக இந்த ‘பயில் தமிழ்’ interactive python (ipynb) நோட் புத்தகத்தில் (சுட்டி இங்கு) தொடங்கினால் எப்படி ஓப்பன் தமிழ் நிரல் தொகுப்பை பரிசோதிக்கலாம் என்று காணமுடியும்.

முதலில் ஒப்பன் தமிழ் நிரல் தொகுப்பை நிறுவ வேண்டும் – இதற்கு ‘!pip3 install open-tamil’ என்ற கட்டளையை கொடுக்கவும். அடுத்து ‘play’ பட்டன் அழுத்தியோ அல்லது ‘Ctrl + Enter’ விசைகளை அழுத்திபயோ இவற்றை இயக்கலாம்.

மேல் உள்ள உதாரண நிரல் துண்டின் வரிகள் 1 முதல் வரி 6 வரை இருக்கின்றன. இதன் பயன்பாட்டினைக் கொண்டு இலவசமாக எந்த வித சிரிய நிரல்களையும்  நீங்கள் இயக்கிட முடியும். ஓப்பன் தமிழ் போன்ற நிரல் தொகுப்புக்களை நீங்கள் எங்களது ஆவணக்கூருகள், மற்றும் உதாரணங்கள் மூலம் இந்த மேகக்கணிமை சேவையால் பரிசோதிக்கலாம்.

நன்றி

 

 

 

தமிழ் கணிமைக்கு செயற்கையறிவு சேவைகள்

இந்திய அழகியல் - விருந்தினர்கு வர்வேர்ப்ரை விளக்கு

இந்திய அழகியல் – விருந்தினர்கு வரவேர்ப்பறை விளக்கு. புதிய தொடக்கம்.

ஊருக்கு உபதேசம் இல்லாமல், தங்களது சேவைகளின் பயன்களை தாமே முதலில் பயன்படுத்துவதை ‘Eating your Dog Food‘ என்று கணினியாளர்கள் மத்தியில் பேசப்படுவதாவது.

இதன்படி தமிழ்கணிமைக்கு உதவும் வகையில் நேரடியாக தானியங்கி, செயற்கையறிவு சேவைகளை முதலில் தனது பயன்பாட்டிற்கு தமிழ் கணினியாளர்கள் கையாளவேண்டும்.

எனது பார்வையில் முதல்படி தேவைப்படும் சேவைகளானது:

  1. தானியங்கி வழி, கணினி உதவி ஆவனங்கள், பயிற்சி நூல்களை (training, tutorial manuals) மொழிபெயர்ப்பது
    • இந்த நூல்கள் அனைத்தும் சில கலைச்சொற்கள் தவிர மற்ற்வை அனைத்தும் ஒரே கோனத்தில் இருப்பவையாகின்றன. தானியங்கி மொழிபொயர்ப்பு செயலிகள் சரியனவையாக அமையும்.
    • இதன் முக்கியத்துவத்தை அதிகப்படுத்தி சொல்லமுடியாது. ஒவ்வொரு கலைசொல் அடங்கிய புத்தகமும் வெளிக்கொண்டுவர பல மாதங்களில் இருந்து சில ஆண்டுகள் ஆகின்றன – இந்த கால தாமத்தை குறைக்க வேண்டும்.
    • முக்கியமாக எனது பார்வையில் இந்த நூல்கள் விரைவில் தமிழாக்கம் ஆகவேண்டும்
      • Python மொழி உதவி ஆவணங்கள்
      • TensorFlow செயற்கையறிவு மென்பொருள் கட்டமைப்பு உதவி ஆவணங்கள்
  2. வீடியோ வழி, ஒலி வழி – உரை, கட்டுரை, நூல்கள் உருவாக்க செயற்கையறிவு செயலிகள்
    • தமிழில் கணினி சார்ந்த தகவல்களை தமிழ் கணினியாளர்கள் நேர்வழி பங்களிப்பதும் பயன்படுத்துவதற்கும் ASR, OCR, Video close-captioning, போன்ற செயல்பாடுகள் பலரையும் தமிழ்கணிமைக்குள் வரவேர்க்க உதவும்.
    • புதிய கருத்துக்களையும், புதிய தகவல்களையும் தமிழிலேயே உருவாக்க இது உதவும்
  3. செயற்க்கையறிவு அணிமாதிரிகளை பொதுவாக “Model Zoo” என்று அருங்காட்சியகமாக பயன்படுத்துவது.
    • தமிழுக்காக பலரும் தங்களது செயற்கையறிவு கருவிகளை உருவாக்குகின்றனர். இவற்றில் பயிற்சி செய்வது ஆகக்கடினமானது, அதிக நேரம் கணிமை செலவெடுக்கும் வழியில் ஆனது. எனவே இவற்றை முடிந்த அளவில் பொதுவெளி (public domain) உரிமத்தில் வெளியிடல் சிறப்பானது
    • இதன் முதல் முயற்சி GitHub-இல் அருங்காட்சியகம்
  4. தமிழ் அகழாய்வு பற்றிய உதவி செயலிக்கள் (சற்று திசைமாரி மேல் சொன்னமாதிரி இந்த பயன்பாடு கணிமைக்கு நேர்வழி உதவாதது என்க்கு புலப்படுகின்றது)
    • ஒரு பானை ஓட்டில் எழுதப்பட்ட சொல் தமிழ், தமிழி (பிரமி), அல்லது எண்களா? அல்லது எழுத்துக்களா? என்பதனை கண்டறிய பொதுமக்கள் கைபேசியில் சொயலிகளின் வழி நிறுவி தொல்லியல் வல்லுநர்களுக்கு சிறந்த சரியான தகவல்கள் அளிக்கும் வகை இந்த செயலிகள் உதவும்.

மேலும் தமிழ் மொழி கல்வி, சிந்தனைக்களம், தகவல் பரிமாற்றம் போன்றவற்றைப்பற்றி நீங்களும் சிந்தியுங்கள் – கருத்துக்களை இந்த வலையில், அல்லது மின் அஞ்சலிலும் பதிவிடுங்கள்.

நன்றி.

 

ஆடுகளம் – 2020

Tamil projects for 2019-2020

Over the course of this year, since translating Ruby Kin, and preparing a summary of 3 years work on spell-checker for Tamil Internet Conference – 2019, I’ve been thinking of next level of interesting projects.

The following have come to mind, expressed in Twitter @ezhillang in various forms. Here they are in simply chronological order,

  1. Translating “Data Structures and Algorithms” book in Tamil
  2. Translating/Writing a “Debugging Techniques” book in Tamil: ‘கணினி செயல்முறை நிரகளில் வழுநீக்கம்‘ – பயிற்சி, நூல்
    • Debugging techniques are important learning milestone for any professional software/hardware developer which are usually learnt on the job and essentially skipped in academia (perhaps for practical purposes).
  3. (Research/Proof-of-concept) Viterbi algorithm based spelling correction algorithm for Tamil
  4. (Research/Proof-of-concept) Concordance based context ambiguity resolution for Tamil spelling correction.

Contingent on our levels and degrees of success we can share our work in forums like Tamil Internet Conference, ACL or ACM, etc.

நிவாடா மாகனத்தில் மலையேரும் சமயம் மொட்டை வெயிலில் எடுத்த தம்படம் 🙂

As always collaborators are welcome: email: ezhillang -AT- gmail -DOT- com