Open-Tamil user commands

Lot of times we have felt the problem with open-tamil : it has many utilities, but none of them are usually available as functions or commands out of the box. It has very much been a developer tool, and not a user or informed-layperson tool.

A quick fix is to add the example Python scripts to the default install paths along with open-tamil installation [which is still simple as ‘$ pip install –upgrade open-tamil‘].

1. tamilphonetic - convert EN input to Tamil text
2. tamilwordfilter - filter Tamil input only from all input text data
3. tamilurlfilter - filter Tamil text from the input website data
4. tamiltscii2utf8 - convert encoding from TSCII to UTF-8 for input file
5. tamilwordgrid - generate a crossword from Tamil input text and write to output.html file
6. tamilwordcount - like UNIX wc program but for Tamil

All these functions will be made available in version 0.7 of open-tamil to be released soon. Currently these functions have landed in the development branch through the commit 02810461bef216df56b10ebf09818b94dfc75574

The next step should be to really bundle these tools into a binary executable for various platforms. Also to note, the function tamilwordcount was contributed by a new member to the Open-Tamil group, Mr. Surendhar. Thanks much, and welcome!

-Muthu

Chennai, India

எழில் உதவி ஆவணம் காட்டி மேம்பாடு

எல்லா மென்பொருளிலுமே ஒரு “Help” (உதவி) மெனு கொடுப்பது IT துறையில் உள்ள ஒரு எழுதாத சட்டம் என்றே சொல்லலாம்.

இப்போது இந்த எழில் செயலி எழுதியில் ஒரு உதவி ஆவணம் கட்டியை முன்னாடியே இணைத்திட்டோம். ஆனால் அது மனசுக்கு பிடித்தமாதிரி இல்லை.

இப்போது இந்த window (சாளரத்தில்) எனக்கு மூன்று விஷயங்கள் பிடிக்கவில்லை; இதற்க்கு படம் 1 உதவியாக இருக்கும்:

  1. புத்தகத்து தலைப்பு “0” என்று சொல்லக்கூடாது; இது நீக்கப்படவேண்டும்.
  2. அடுத்து அத்தியாயங்களின் தலைப்பு இடது பக்கம் ஆரம்பித்து  இருக்கவேண்டும்.

    ezhil_book_screen_updates

    படம் 1:   எ ழுதி உதவி ஆவணம் காட்டி

  3. அடுத்து அத்தியாயத்தின் தலைப்பை பெரிய எழுத்துக்களில் இருக்க செய்யவேண்டும்.

இவற்றை github வழு பட்டியலில் issue என்று பதிவு செய்தேன்

 

 

இதனை GTK3+ documentation கைவசம் வைத்து நிரலை மாத்தி எழுதலாம். இதற்க்கு முன்னும் பின்னும் ஒரு மணி நேரம் மேல் ஆனது.

ஒவ்வொரு முறையும் ezhil-lang/editor/DocView.py என்ற நிரலை மாற்றிய பின் python ezhuthi.py என்று இயக்கி “உதவி > புத்தகம்” என்ற மெனுவில் இருந்து சுடக்கி இதன் தோற்றத்தை சரிபார்க்கவேண்டும்.

எல்லாம் சரியானதும் இது போன்று காட்சி அளித்தது:

ezhil_book_screen_updated

படம் 2: திருத்தம் செய்த நிரலில் “உதவி > புத்தகம்” தோற்றம்

இதனை github-இல் உடனே சேர்த்துவிட்டேன். இப்போது எழில் ஆவணம் காட்டி மேம்பாடு செய்தாச்சு ! மீன்டும் பார்க்கலாம்.

-முத்து

அகர முதல எழுத்தெல்லாம் …

கணினியியல் (computer science/computing)  என்பது கணிதத்தின் ஒரு சிறு பகுதி. சிந்தனை களத்தை தாண்டியே மொழி அமைய வேண்டும் என்பதானால் மொழியாக்கம் என்பது இரு தீவுகளுக்கும் இடையே ஓடும் ஒரு பாலம்.

இப்படி கணினியியலில் ஒரு தரமான ஆங்கில புத்தகம் “Rubykin” (ரூபி தோழமை, என்று மொழியாக்கம் செய்யலாம் ). இதனை தமிழ் தண்ணார்வாலர்களுடன் எழில் மொழி அறக்கட்டளையின் சார்பாக மொழிபெயர்த்து வருகிறோம்.

சாதாரணமாகவே இந்த “lost in translation” எனப்படும் சிக்கல் உள்ள வேலை – இதில் நுட்பங்களும், கணினியியல் என்பதும், உள்ளதால் சிறிது தாமதம் ஆனது. முதலில் RubyKin எழுதியவர்களிடம் உரிமைகளை Creative Commons பொதுவெளியில் வெளியிட கேட்டோம். திரு. டக் வ்ரைட் (Doug Wright) அவர்கள் புத்தகமும், படங்களையும் சேர்த்து பொதுவெளியில் கொடுத்தார்.

இன்று கிட்டத்தட்ட ஐம்பது சதவிகிதம் கூடுதலாக (> 50%) இந்த காரியம் நிறைவேறியது. மேலும் இந்த வேகத்தில் சென்றால் 2017 ஆண்டு முடிவுக்குள் இந்த புத்தகத்தை மொழிபெயர்க்கலாம்  என்று தோன்றுகிறது.

பங்களித்தவர்கள் அனைவருக்கும், RubyKin எழுத்தியவருக்கும் நன்றி.

தரவமைப்பு வடிவங்களின் தமிழாக்கம் – கருத்து கணிப்புவிடைகள்

சென்ற வாரம் வெளியிட்ட தரவமைப்பு வடிவங்களின் தமிழாக்கம் – கருத்து கணிப்பு விடைகள் மற்றும் எனக்கு பிடித்த தமிழாக்கம் பரிந்துரைகளையும் இங்கு பதிவு செய்கிறேன்.

முதலில் பங்கேற்ற வர்களுக்கு நன்றி. தமிழ் மொழியில் data structures என்பதன் பெயர்களையும், கருவூலமான அம்சங்களையும் தமிழாக்கம் செய்ய இந்த படிவங்களை நிரப்பவும். உங்கள் உள்ளீடு தமிழ் கணிமையின் வளர்ச்சிக்கு மிக முக்கியமானது.

கருத்து கணிப்பு விடைகள்:

விடைகள்கி ழே; மின் அஞ்சல் மட்டும் சில சுய விவரங்கள் மறைக்க பட்டன. கருத்து கணிப்பில் பங்கேற்ற நிரலாளர்களின் கூடிய சராசரி அனுபவ்வம் 9 ஆண்டுகள்! பட்டியலில் உள்ளது போலவே பல தரவு வடிவங்களுக்கு தமிழாக்கம் பெயர்கள் உடன்பாடு இருந்தது. சிலதில் தவரான பொருள் இடத்து உண்டபாடும் இருந்தது.

பயனர் “stack” என்பது தமிழில் “heap” என்பது தமிழில் “dictionary” or “associative array” என்பது தமிழில் “linked list” என்பது தமிழில் “binary tree” என்பது தமிழில் “graph” என்பது தமிழில் “hash table” என்பது தமிழில் “queue” என்பது தமிழில் “priority queue” என்பது தமிழில் “circular list” என்பது தமிழில்
0 அடுக்கு குவிப்பு அகராதி தொடர் பட்டியல் இரு கிளை மரம் முனை ஓரம் அடைவு எண்குறி அடைவு முறை வரிசை பிரதான வரிசை வட்ட தொடர் பட்டியல்
1 அடுக்கு குவிப்பு அகராதி தொடர் பட்டியல் இரு கிளை மரம் வரைபடம் எண்குறி அடைவு முறை வரிசை முக்கிய வரிசை வட்டவடிவப் பட்டியல்
2 அடுக்கு குவிப்பு அகராதி தொடர் பட்டியல் இரு கிளை மரம் முனை ஓரம் அடைவு கையெழுத்து அடைவு முறை வரிசை முக்கிய வரிசை தொடர் பட்டியல் வட்டம்
3 அடுக்கு குவிப்பு அகராதி தொடர் பட்டியல் இரும மரம் முனை ஓரம் அடைவு சுறுக்கு குறி அடைவு வரிசை முறை முதன்மை வரிசை வட்ட தொடர் பட்டியல்
4 அடுக்கு குவிப்பு அகராதி தொடர் பட்டியல் பின்னாக்கு கிளை வரைபடம் ரகசிய அடைவு வரிசை முதர்சன வரிசை வட்ட தொடர் பட்டியல்
5 அடுக்கு குவிப்பு அகராதி தொடர் பட்டியல் பின்னாக்கு கிளை வரைபடம் ரகசிய அடைவு வரிசை முதர்சன வரிசை வட்ட தொடர் பட்டியல்
6 அடுக்கு குவிப்பு அடைவு தொடர் இருகிளையி எனச்சுருங்கச் சொல்லலாம் முனை ஓரம் என்றோ கோலம் என்றோ சொல்லலாம் எண்குறி அடைவு முறை வரிசை விருப்பவரிசை, முன்னுரிமை வரிசை சுற்றுச்சங்கிலித்தொடர்
7 அடுக்கு குவிப்பு அகராதி தொடர் பட்டியல் இரு கிளை மரம் வரைபடம் எண்குறி அடைவு வரிசை முன்னுரிமை வரிசை வட்டப்பட்டியல்
8 அடுக்கு குவிப்பு தொடர்புறு அணி தொடர் பட்டியல் இரு கிளை மரம் முனை ஓரம் அடைவு எண்குறி அடைவு நேர் வரிசை முக்கிய வரிசை வட்ட தொடர் பட்டியல

பரிந்துரைகள்  – எனக்கு பிடித்த தமிழாக்கம்

எனது பரிந்துரைகளை முன்வைக்கும் முன்னரே எனக்கு உள்ள சில நிபந்தனைகளை சொல்கிறேன்.

நிபந்தனைகள் (criteria)

  1. அறிவியல் தமிழ் அல்லது கணித தமிழில் ஏற்கனவே பயன்பாடு கொண்டதாக இருக்க வேண்டும்; எ. கா. arrays என்றல் அணி என்று ஏற்கனவே உள்ளது
  2. சக்கரத்தை மறுபடி கண்டுபிடிக்க வேண்டாம். உள்ளதை அப்படியே எடுத்து கொள்ளலாம்.
  3. கணிமை சொற்களுடன் எளிதாக எழுதும் வகையில், பேசும் வகையில் இருக்கவேண்டும்
  4. நடைமுறை, இயல்பு தமிழ், மற்றும் கணிமை கோட்பாடுகளை சரியே குணாதிசியங்களை போதிக்கும் திறன் கொண்ட சொற்களாக அமைய வேண்டும்.

பரிந்துரைகள்

  1.  array அணி
  2.  set கணம்
  3. stack அடுக்கு
  4. heap குவிப்பு
  5. dictionary அடைவு, தொடர்புறு அணி
  6. linked list தொடர் பட்டியல், தொடர்
  7. circular list வட்ட தொடர் பட்டியல்
  8. graph நுனி ஓரம் / முனை ஓரம் அடைவு
  9. queue முறை வரிசை, நேர் வரிசை
  10. priority queue முன்னுரிமை வரிசை, முதர்சன வரிசை
  11. hash table எண்குறி அடைவு, சுறுக்கு குறி அடைவு
  12. binary tree  இரும மரம், இரு கிளை மரம்

நிறைய பெயர்கள் எ. க. ‘dictionary’ என்பன நேர்வழி தமிழில் ‘அகராதி’ என்றும் ‘graph’ என்பது ‘வரைபடம்’ என்றும் மொழி பெயர்க்க முடியாது – கணினி தரவமிப்பில் தமிழில் இதை அடைவு அல்லது தொடர்புறு அணி என்று சொன்னால் சரியாக இருக்கும்; ‘graph’ என்பது ‘கோலம்’ அல்லது ‘முனை ஓரம அடைவு’/’நுனி ஓரம் அடைவு’ என்றும் சொன்னால் பொருளளவில் தமிழாக்கம் செய்யப்படும்.

 

தொடர் பட்டியல் (Linked lists)

தொடர் பட்டியல் என்பது ஒரு எளிதான தரவு வடிவம். சுலபமாக பல ஆயிரக்கணக்கான மதிப்புகளை சேமிக்க இந்த தொடர் பட்டியல் பயன்படுத்தலாம்.

தொடர் பட்டியல் அவதாரங்கள்

இந்த தொடர் பட்டியல் இரண்டு வகையாக அமையும்: ஒருபடை தொடர் பட்டியல் (singly linked list) மற்றும் இருபடை(doubly linked list) இவை கீழே படங்களில் காணலாம். இதனையும் தாண்டி வட்டம் தொடர் பட்டியல் (circular linked list) என்றும் செய்யலாம் இதனை கடைசியில் காண்போம்.

408px-singly-linked-list-svg

படம் 1: ஒருபடை தொடர் பட்டியல் (singly linked list). இதன் முதல் தலை நுனி ‘12’ என்ற மதிப்பை கொண்டது. இதன் ‘அடுத்த’ மதிப்பு ‘99’ மதிப்பு கொண்ட நுனியின் விலாசத்தை கொண்டது. மேலும் ‘99’ நுனி ‘37’ என்ற மதிப்பு கொண்ட நுனியின் விலாசம் கொண்டது. ‘37’ நுனி என்பது கடைசி நுனி என்பதால் இதற்க்கு அடுத்து மதிப்பு காலி என கொண்டது. இந்த ‘அடுத்து’ என்ற இணைப்பே ‘12’ நுனியில் தொடங்கி ‘37’ வரை செல்லும் அம்சத்தை தொடர் பட்டியல் என்று ஆகும் படி இந்த தரவு வடிவத்திற்கு அளிக்கிறது.

610px-doubly-linked-list-svg

படம் 2: படம் 1-ஐ போலவே தொடர் பட்டியல் ஆனால் ‘அடுத்து’ மதிப்பை போலவே கூடுதலாக ‘முந்தைய’ என்ற மதிப்பையும் ஒவ்வொரு நுனியும் கொண்டது. இதன் காரணமாக இதனை ‘இருபடை தொடர் பட்டியல்’.

 

தொடர் பட்டியல் அமைப்பு

தொடர் பட்டியல் என்பது நுனிகள் என்பதால் உருவாக்கப்பட்டது; இவை ஒருன்றுடன் ஒன்று ‘அடுத்து’ என்ற மதிப்பில் இணைக்க பெற்று முழுமையாக தொடர் என்று உருவம் எடுக்கிறது. இது உதிரி பூக்களை மாலையாக கோர்ப்பது போல என்று நினைத்து கொள்ளலாம்.

# நுனி உருவாக்குதல்

நிரல்பாகம் ஒருபடை_நுனி( மதிப்பு )

      நு = {“அடுத்து” : [], “மதிப்பு” : மதிப்பு  }

      பின்கொடு நு

முடி

# நுனியின் அடுத்து விலாசத்தை மற்றோரு நுனியில் அமைத்தல் /

நிரல்பாகம் ஒருபடை_இணை( நுனி_முதல், நுனி_அடுத்து  )

      நுனி_முதல் [“அடுத்து”] = நுனி_அடுத்து

      பின்கொடு நுனி_அடுத்து

முடி

தொடர் பட்டியலில் அணுகுதல்

தொடர் பட்டியலின் முதல் நுனியை “தலை நுனி” என்று பெயரிடுவோம். இந்த தலை நுனியை மட்டும் நாம் கொண்டு முழு பட்டியலை ஒவ்வொன்றாக அணுகலாம். எப்படி ? நுனியில் “அடுத்து” என்ற நுனி விலாசம் உள்ளதை வைத்து நுனிக்கு செல்லலாம். இதனையே பலமுறை – அதாவது அடுத்து என்பதன் மதிப்பு காலி ஆகும் வரை – செய்தால் முழு பட்டியலையும் தலை நுனியில் இருந்து கடைசி நுனிவரை ஒவ்வொன்றாக அணுகலாம். இதனை “ஒருபடை_அணுகு()” என்ற நிரல்பாகம் நிரல்படுத்தும்.

தொடர் பட்டியலில் தேடல்

சரி – இப்ப இந்த பட்டியலில் ஒரு குறிப்பிட்ட மதிப்பு உள்ளதா என்று எப்படி தேடுவது ? இந்த செயல்முறையை நம்ம “ஒருபடை தொடர் பட்டியல் தேடல்” என்று பெயரிடுவோம். தேடல் என்பது பட்டியலில் உள்ள ஒவ்வொரு நுனியையும் அணுகி (அணுகுதல் என்ற நிரல்பாகம் கீழே எழுதப்பட்டதைப்போல்) குறிப்பிட்ட மதிப்பிற்கு சமமாக உள்ளதா என்று பார்க்கவேண்டும்.

# ஒருபடை தொடர் பட்டியலை வரிசையில் அணுகுதல்

நிரல்பாகம் ஒருபடை_அணுகு( நுனி  )

   நுனி_அடுத்து = []

   காலி =  []

   @(    நுனி != காலி  ) வரை  

       #பதிப்பி “முதிப்பு  => “,

       பதிப்பி நுனி [“மதிப்பு”]

       நுனி_அடுத்து = நுனி [“அடுத்து”]

       நுனி = நுனி_அடுத்து

   முடி

   பின்கொடு  நுனி_அடுத்து

முடி

தேடிய ‘குறிப்பிட்ட மதிப்பு’ கிடைக்காவிட்டால் -1 என்ற மதிப்பு பின்கொடுக்கப்படும்; கிடைத்தால், தலை நுனியில் இருந்து தூரத்தை  வரிசை எண் என்று பின்கொடுக்கப்படும்

நிரல்பாகம் ஒருபடை_தேடு ( நுனி, குறிப்பிட்ட_மதிப்பு   )

   நுனி_அடுத்து = []

   காலி =  []

   வரிசை_எண்  = 1

   @(    நுனி != காலி  ) வரை

       @( நுனி [“மதிப்பு”] == குறிப்பிட்ட_மதிப்பு ) ஆனால்

           பின்கொடு வரிசை_எண்        

       முடி

        நுனி_அடுத்து = நுனி [“அடுத்து”]

        நுனி = நுனி_அடுத்து

        வரிசை_எண் = வரிசை_எண் + 1

   முடி

   பின்கொடு  -1

முடி

 

# நுனி உருவாக்குதல்

நு12 = ஒருபடை_நுனி( 12 )

நு99 = ஒருபடை_நுனி( 99 )

நு37 = ஒருபடை_நுனி( 37 )

 

# நுனியின் அடுத்து விலாசத்தை மற்றோரு நுனியில் அமைத்தல் /

ஒருபடை_இணை( நு12, நு99 )

ஒருபடை_இணை( நு99, நு37 )

 

# ஒருபடை தொடர் பட்டியலை வரிசையில் அணுகுதல்

ஒருபடை_அணுகு( நு12 )

#சாவே இல்லாத வீட்டிலே கைப்பிடி கடுகு  கிடைக்குமா ?

பதிப்பி ஒருபடை_தேடு(நு12, 10) 

பதிப்பி ஒருபடை_தேடு(நு12, 37)

இதன் வெளியீடு :  12, 99, 37. முழு நிரல் இங்கு.

இந்த மாதிரி தொடர் பட்டியலில் பல கேள்விகளை எழுப்பலாம், உதாரணத்திற்கு:

  1. இரண்டு தொடர்பட்டியலை எப்படி இணைப்பது ?
  2. ஒரு தொடர்பட்டியலில் குறிப்பிட்ட மதிப்பு எத்தனை முரை அவதானிக்கிறது ?
  3. தொடர்பட்டியலை முன்னுக்கு பின் எப்படி வேகமாக மாற்றுவது ?
  4. இரு தொடர் பட்டியலில் உள்ள பொதுவான மதிப்புகளை கண்டு எடுக்க முடியுமா ?
  5. அணிகள் (arrays) என்பதற்கும் தொடர் பட்டியல் என்பதற்கும் என்ன வித்யாசம் ?

இதனை போல கேள்விகளை பயிற்சிக்கு கேட்டு கொண்டே போகலாம். அனால் நீங்கள் இந்த இரண்டு புத்தகங்களை நேரம் கிடைக்கும் சமயம் கட்டாயம் படித்தால் எல்லாம் விளங்கும்.

  1. “Introduction to algorithms” by Cormen, Leiserson, Rivest, and Stein. MIT press இங்கு.
  2. “The Algorithm Design Manual” by Steven Skiena. இங்கு

இதை இரண்டையுமே நீங்கள் கரைத்து குடித்துவிட்டால் உங்களுக்கு நிரலாக்க திரையில் கிராக்கி அமோகமாக விளங்கும். அப்படி கார்பொரேட் கைதியாக இருக்கவேண்டாம் என்று வீரப்பாக இருந்தால் இந்த புத்தகத்தில் உள்ள லட்டு, ஜிலேபி இனிப்புகளை இன்பமாக அனுபவியுங்கள்.

மேலும் அடுத்த வாரம்.

-முத்து

கவனத்திற்கு: தொடர் பட்டியல் படங்கள் விக்கிபீடியா, புத்தக அட்டைகள் பதிப்பகத்திற்கு சொந்தம்; எழுத்து பிழைகள் எல்லாமே என்னோடது.

கால்சீ – நிரல் வெளியீடு – தமிழ் பேசும் கணிதம்

கால்சீ நிரல், ஒலி audio files மற்றும் உரை / எழுத்து சொற்கள் அனைத்தும் இன்று திற மூல மென்பொருள் என்று வெளியிட படுகிறது – இங்கு பாருங்கள்.

நன்றி.

Ezhil - Tamil Programming Language

எழில் மொழி மேம்பாடு கோவை – 2

எழில் மொழி மேம்பாடு கோவை – 2

0) Enable profiling of Ezhil code.
1) Add tracebacks where necessary.
2) Add unittest and examples for profiling -gcd, fact, profile_test.py
3) Refactor the env behavior with runtime
4) test sentinel fixup to run goldenratio.n and array_wr.n
5) accept parameter called stacksize to Ezhil CLI
6) make exprs code to return a 255 exit code upon exception
7) make unittests for failing exprs code to run fast and less verbose
8) exprs code fails properly now

10) Add profiling information to any program on the fly; '-profile'
11) add entry/exit calls to profile("begin") and profile("results") as we go.
12) API update to raw_input to be i/p exception safe to Interpreter state
13) Handle exceptions better during raw_input calls
14) add capability to  QuietTest unittest class
15) update hello.n to not break the prettyprinter test
16) HTML API update

21) Mathematics series + sequence operations for Ezhil programs
22) Ezhil Interpreter - ezhili
23) update test script

31) Add ezhil test for interactive programs using echo
32) simple demos
33) enable the programs stored in Tamil/unicode file names to be executed correctly
34) file_close failed due to serializing env - we wont attemp this from now on
35) hanoi.n - dont mix str and unicode
36) test - recover the filerw.n as well
37) down to 15 failures
38) update str.x methods to string.x which are encoding compatible;

40) unittest for running Python2 and 3 versions
41) Python3 recognizes Ezhil code; we are at starting line.
42) Code can be optimistically ported between 2-3
43) improve profiling output formatting;
44) update yinyang to skip the pause
45) input stream should not be opened in UTF-8 for Python2 nor Python3
46) dump_file is the name we use within tests
48) Fix call-stack and local scoped variable unwinding of interpreter if any exceptions were thrown.
49) This resolves issue #60. "After runtime error local variables are trashed; #60"
50) Python3 testing for Ezhil; unittest3 is not ready;
51) fixup the unittest and error stack during the file execution

51) make profiling work in Python3
52) update list/dictionary key/value retval in Python2/3 barriers
53) update test3 sentinel to use suffix 3 log files during test.

61) failures only in Python3

More at Ezhil Lang development site.