Open-Tamil based Tamil Wikipedia, Wiktionary data analysis


I have been keen to understand what kind of articles are read, and written, in Tamil Wikipedia, and Wiktionary. So it was time to use data analysis and some programming – so thats what I did! Last weekend I tried to take Open-Tamil Python library for a spin with the dumps of Wikipedia data for Tamil wiki and here are results.

You can find my actual program here,


  1. Install Python 2.7 or Python 3 – whichever flavors you want from
  2. Get open-tamil library v0.40 from Python Package Index
  3. If you have pip installed in your system just type,

    $ pip install –upgrade open-tamil

  4. Get Wikipedia Tamil dumps from Wikipedia servers
  5. Download the file from the above link, or get whole of open-tamil from github.

Program Usage

  1. For small text dumps in kB sizes you can see output on terminal,

    $ python <filename1>

  2. You can also use multiple files input

    $ python  <filename1> <filename2> …

  3. Then you may want to use output redirection like,

    $ python  demo_file1.xml demo_file2.xml > output

Analysis of Code

  1. The code in solpattiyal is fairly simple and uses an algorithm to parse out Tamil letters from each file
  2. We group letters into words via static method ‘WordFrequency.get_tamil_words‘; (this method will make it into next version of open-tamil itself, after this demo)
  3. We insert each Tamil word into the dictionary and bump up its frequency by 1
  4. Finally we use the sorted() method in Python with the comparator key to print list by frequency, and again we print it by sorted order.
  5. Code is written in particular way to straddle both Python 2.7 and Python 3.
  6. Code is written to handle multiple files – usually Wikipedia files are large, and I like to use GNU split utility like this (to split at every 300,000 lines of text),

    $ split -l 300000 <filename>


    1. This analysis is not a criticism of Tamil Wikipedia.
    2. I am a Tamil Wikipedia contributor in last several years, and Wikipedian circa 2005.
    3. This data analysis is not complete/comprehensive – feel free to point out details
  2. Sample data from my analysis of recent Wikipedia title dump file yielded some interesting data on Tamil wikipedia article distribution.
  3. wikipedia-stats
  4. The data file can be found in common-words-ta-wikipedia-data-March-16-2015.
  5. My recommendations are
    1. Every Tamil speaking specialist can being stub articles or add information to broaden other articles in their fields
    2. You can think of contributing 1 article every month!!
    3. Consider broadening Tamil conversations beyond here-and-now, to world of science, math, medicine, engineering, arts and philosophy


  1. Please send your comments and questions always to me at ezhillang in gmail, or via Twitter @ezhillang
  2. Feel free to improve on this code, and send a pull request in github.

வலைதமிழ் – எழில் நேர்காணல் (45 min)

ச. பார்த்தசாரதி

தமிழ் செம்மொழி மட்டுமல்ல, இன்றைய தொழில்நுட்ப வளர்ச்சிக்கு ஈடுகொடுக்கும் வல்லமையுடன் ஒரு நிரலாக்க மொழியாக உருவாவதும் அவசியம் என்று கருதி எழில் நிரலாக்க மொழியை உருவாக்கியுள்ள முனைவர் திரு.முத்தையா அண்ணாமலை அவர்களுடன் ஒரு

எழில் நிரலாக்க மொழியின் உருவா

க்கத்திற்கு 2014ம் ஆண்டிற்கான கனடாவில் இயங்கும் இலக்கியத்தொட்டம் வழங்கும் “தமிழ்க் கணிமை விருது” க்கு தேர்ந்தெடுக்கப்பட்டுள்ளார்.. அவருக்கு வாழ்த்து தெரிவித்து தமிழ் மொழி, அதன் எழுத்து, நிரலாக்க மொழியின் தேவை போன்ற பல கோணங்களில் கேள்விகளை கேட்டு பதிவு செய்துள்ளோம்.. தங்கள் கருத்துக்களை தெரிவுக்கவும் ..

கூடம் – எழில் கற்க இணையம் வழி பள்ளிக்கூடம்

கூடம் – எழில் கற்க இணையம் வழி பள்ளிக்கூடம்

இன்று நள்ளிரவு எழுதிய பைத்தான் நிரலிநால் (இந்த கிட்ஹப் கமிட்டை காணவும்) எழில் மொழியை இணையம் வழி கற்க பள்ளிக்கூடம் ஆக அமைய வாய்பு உண்டு.  இதனுடைய அமைப்பு பல விஷயங்கள் கொண்டது. கீழே காண்க.

Feature list
Code in this directory provides the following
* Writing Code, Editing, and Evaluating *
1. Syntax highlighting editor for Ezhil using ACE JavaScript editor
2. Code browser lets user to look at sample Ezhil programs from the ezhil-lang source/testsuite, in the single page app editor
3. Users can run the code on this page, and see the output in the same page.
4. Correctly executed code with should output in light yellow; clicking on the output will hide it, as you work on second problem.
5. Errors in code or server execution cause your program output  to be highlighted in red.
6. Source code is persisted between sessions in terms of cookies


இதை இல் வேகுவில் நிறுவு முனைகிரேன். அதுவரை ஹஸ்தா-ல-விஸ்தா!

2014 Tamil Computing award for Ezhil project

இன்று மகிழ்ச்சிக்குரிய செய்தி: எழில் நிரலாக்க மொழியிர்க்காக 2014-ஆம் ஆண்டு “தமிழ் கணிமை” விருது கேனடவின் தமிழ் இலக்கியத் தோட்டம் அளித்தது

Thanks , ,  and
and contributors.

திற முல புத்தகம் “தமிழில் நிரல் எழுது”

இன்று “தமிழில் நிரல் எழுது” புத்தகத்தை திற முல பொருளாக வொளியிடுகின்றோம்!

இணையம் வழி சொல் திருத்தி: வானி

வணக்கம் நண்பர்களே,

தமிழ்  இணையம் வழி சொல் திருத்தி: வானி இன்று ஒரு வேளியாகியது. நண்பருக்கு வாழ்த்துக்கள்.