பிரத்யேக

கணினி தரவமைப்புகளும் செயல்முறைகளும் – நூல் வெளியீடு

எங்களது மற்ற வெளியீடுகளான தமிழில் நிரல் எழுது (2013), மற்றும் ரூபி நண்பன் (2019) என்ற நூல்களையும் எங்கு காணலாம்.

open-tamil வரிசை எண் 1.1 வெளியீடு

இன்று open-tamil வரிசை எண் 1.1 வெளியீடு ஆகிறது. இதனை கீழ் உள்ள கட்டளையின் வழியாக பெறலாம்:

$ python3 -m pip install open-tamil --upgrade

இந்த வெளியீடில் உள்ள புதியது தமிழில் நாள் திகதி விவரங்களை பெறக்கூடிய செயற்பாடுகளாவன. இதனை பங்களித்த அருண்மொழி (@techolic) அவருக்கு நன்றி.

  1. date module: new update to this module in the v1.1 release was added by Arunmozhi (Techolic) adds datetime class with strftime, tamil_weekday(), Example usage:
>>> from datetime.datetime import now
>>> from tamil.date import datetime 
>>  n = now()
>>> d = datetime(n.year,n.month,n.day,n.hour,n.minute) 
>>> d.strftime_ta("%a %d, %b %Y") 
'வியாழன் 26, மே 2022'

முழு அறிக்கையை இங்கு பெறலாம் – https://pypi.org/project/Open-Tamil/1.1/

நன்றி

முத்து

கலிபோர்னியா, அமெரிக்கா.

உளியருவி – Tamil tools for AI/ML

Motivation

In 2022 we are reaching a point where more Tamil datasets are available than Tamil tools – arunthamizh அருந்தமிழ். However the accessibility of fully-trained models and capability of providing pre-trained models are much harder and still require domain expertise in hardware and software. Personally I have published some small Jupyter notebooks (see here), and some simple articles, but they still remain inadequate to scale the breadth of Tamil computing needs in AI world among:

  1. NLP – Text Classification, Recommendation, Spell Checking, Correction tasks
  2. TTS – speech synthesis tasks
  3. ASR – speech recognition

While sufficient data exist for 1, the private corpora for speech tasks (அருந்தமிழ் பட்டியல்), the public corpora of a 300hr voice dataset recently published from Mozilla Common Voice (University of Toronto, Scarborough, Canada leading Tamil effort here) have enabled data completion to a large degree for tasks 2 and 3.

Ultimately the tooling provides capability to quickly compose AI services based on open-source tools and existing compute environment to host services and devices in Tamil space.

Proposal

My proposal is the following:

  1. Develop a open-source toolbox for pre-training and task training specialization
  2. Identify good components to base effort
  3. Contribute engineering effort, testing, and validation
    1. R&D – DataScience, Infra, AI framework
    2. Engineering Validation – DataScience, Tamil language expertise
    3. Engineering – packaging, documentation, distribution
    4. Project management
  4. Library to be liberally licensed MIT/BSD
  5. Open-Source license for developed models
  6. Find hardware resources for AI model pre-training etc.
  7. Managed by a steering committee / nominated BDFL
  8. Scope – decade time frame
  9. TBD – மேலும் பல.

Summary

Let’s build a pytorch-lightning like API for Tamil tasks across NLP, TTS, ASR via AI.

Leave your thoughts by email ezhillang -at- gmail -dot- com, or in comments section.

அமெரிக்கர் தமிழ் சூழல்

இங்கு அமெரிக்காவில் 1471-இல் இருந்து உலகம் தோன்றியதாக ஒரு எழுதா மாயை ஓடிக்கொண்டிருக்கிறது. என்னத்தன் தமிழுக்கு புளித்தடவினாலும், ஆர்வர்டு இருக்கை, பெர்க்கிலி இருக்கை என்றெல்லாம் இருந்தாலும் தினசரி வாழ்வில் தமிழ் எவ்வளவு அமெரிக்கர் வாழ்க்கைக்கு உதவுகிறது என்பது கேள்விக்குறியாக இருக்கிறது.

ஆகையால் தமிழில் செயல்படுபவர்கள், ஏதோ ஆதம் திருப்திக்கும், nostalgia, தாய்-சேய், பிறந்தமண், அரசியல் உணர்வு/உடன்பாடு/எதிர்ப்பு, சீண்டல், ஆன்மீகம், இணையவழி முகம்காணா சிலேடைப்பேச்சு என்றேல்லாம் இருந்தாலும் முற்போக்கு சிந்தனைக்கு தமிழில் ஈடுபடுவதாக பெரும்பான்மையான அமெரிக்க இந்தியர்கள் தமிழ் ஆர்வலர்களை காண்பதில்லை.

தமிழில் செயல்படுவது ஏதோ ஒரு atavism, பின்தங்கிய முயற்சிகளிலும் ஈடுபடுவதாகவும், புதிய சிந்தனைகளில் பங்கேற்காதவராகவும், (உதாரணம்: பால் ஈர்ப்பு அரசியல் சட்டங்கள் சீர்மை, [LGBTQ]) என்பதை எல்லாம் நிராகரிக்கும் வகையில் ஈடுபடுவதாக ஒரு கருத்தி ஒரு subliminal அளவில் ஓடிக்கொண்டிருப்பதை எவரும் உணரலாம்.

அமெரிக்காவில் தமிழ் அருமையான சடங்கு மொழியாக திழைக்கிறது – கோயில்களிலும், தேவாலயங்களிலும், மசூதிகளிலும் – கருநாடக இசைக்கச்சேரிகள்; எதுவும் ஒரு கருத்தளவில் ஒரு படைப்பிலக்கியமாக, தமிழ் சூழலில் ஒரு புதிய சிந்தனைகளை (அமெரிகானாவில் இருந்து உள்வாங்கி) உருவாக்கும் என்ற எண்ணம் அதிகளவில் இல்லை; அமெரிக்க தமிழர்கள், அமெரிக்கா புலம்பெயர் இந்தியர்களை போல் பெரும்பான்மையில் தமிழ் (தாய்மொழி) மற்றும் ஆங்கிலம் கற்றதனால் அலுவலக வேலைகள், வீடு சாராத எல்லா இடங்களிலும் ஆங்கிலத்தில் செயல்படுவதால் தமிழ் அவர்களது வாழ்வில் என்ன தாக்கத்தையும் உருவாக்கவில்லை என்றே எண்ணத்தோன்றுகிறது.

எனினும் தமிழ் சூழலை உலகெங்கிலும் கவனம் கொள்பவர்கள் அமெரிக்கர்களால் தமிழ் அதிகம் வளராததை காணவும் முடிகிறது; எதிர்காலம் எப்படி இருக்கும் என்று ஜோதிடம் சொல்ல என்க்கு ஆசையில்லை – ஆனால் americana என்பதை யாரும் படைப்பிலக்கியமாக ஒரு ஊக்க சக்தியாக ஒரு ஆணையா விளக்காக கொண்டு எந்த ஒரு முத்தமிழும் உருவாக்கியதாக தென்படவில்லை – இது மாரலாம் – இல்லாமலும் ஆகலாம்.

பாதுகாக்கப்பட்டது: INFITT Summer of Code 2022 – Ideas List

இந்த உள்ளடக்கம் கடவுச்சொல்லால் பாதுகாக்கப்பட்டுள்ளது. அதை காண உங்கள் கடவுச்சொல்லை கீழே சமர்பிக்கவும்:

பாதுகாக்கப்பட்டது: INFITT Summer of Code 2022 – How to Apply

இந்த உள்ளடக்கம் கடவுச்சொல்லால் பாதுகாக்கப்பட்டுள்ளது. அதை காண உங்கள் கடவுச்சொல்லை கீழே சமர்பிக்கவும்:

முதல்பார்வை – கணினி தரவமைப்புகளும் செயல்முறைகளும்

இந்த தமிழாக்கம் நூலினை முதல் பார்வைக்கு சமர்பிக்கிறோம். __/|\__
அட்டை படம்: யோசமிடி தேசிய பூங்க, கிளேசியர் உச்சம், வட அமெரிக்கா (2008).

இந்த நூல் தமிழை நுன்மொழியாக விழையும் – தொழில்நுட்பம் சார்ந்த 21ஆம் நூற்றாண்டினை ஒப்ப மொழியாக – தமிழ் கணிதம், அறிவியல் மரபின் சொல்லாடல் என்பதற்கு இணங்க செயல்படும் சிந்திக்கும் தமிழ் பேசும் நல்லுலகிற்கு சமர்ப்பணம்.

எழில் மொழி 2017-இல் பொது பயன்பாட்டிற்கு வெளியானது; உடனடியாக உணர்ந்தது என்னவென்றால் தமிழில் கலைச்சொற்களை செயற்படுத்தி ஒரு கணினியியல் ரீதியாக ஒரு நூல் இல்லாத இடைவெளியை மட்டுமே நிறப்ப வேண்டுமென்பதை. இதனை இன்று ஓரளவிற்கு, ஓராண்டு முயற்சியாக, முதல்பார்வைக்கு சமர்ப்பிக்கிறோம்; பதிர்ந்துரைகளுக்கும் கருத்துக்களுக்கும் ezhillang@gmail.com என்ற மின்னஞ்சலுக்கு தொடர்பு கொள்ளவும். இதன் ஆங்கில் நூல் வெளியீடு இங்கு.

Practical Data Structures and Algorithms (English)

The Google-Docs typeset version of the book “Practical Data Structures and Algorithms,” in English is released here; this book is still under preparation – so once the proofs are completed a PDF will be released. People interested to collaborate can drop me a email at ezhillang@gmail.com

The original version of the book can be found at https://bradfieldcs.com/algos

Year in Review 2021

2021 was a difficult year for everyone surviving into second year of global pandemic; however for Tamil computing community had much progress; here is my take on it.

EventCommentsDate
1Rust language supportTokenizer for REST rust_v0.1Jan 17th ’21
2open-tamil v1.0Release v1.0 : bug-fix pypi Apr 18th ’21
3tamilinayavaani v0.14Release v0.14 : pypiDec 5th ’21
4Book Translation of ‘Practical
Algorithms and Data Structures’
pending – typeset + copy-edit; 220 page bookNov ’21
5Relaunch Min Madurai Tamil appGoogle Play Store : linkSep 8 ’21
6Tutorial for TIC 20th – Keras AIBeginning AI applications: linkDec 4th ’21
Ezhil Language Foundation related activities in 2021

This year has been tough but we keep our head above the water for another challenging year 2022. I’m also happy to share I’ve volunteered to serve in the steering committee at INFITT organization to share some of open-source view points from my experience and some AI/ML strategies for developing our ecosystem.

Some of the major events by INFITT in 2021 are successful organization of Hackathon for college students at KCT in Kovai; 20th TIC organized virtually with good turnout and contributions from industry and academics.

Hope you are vaccinated, stay healthy, and in positive frame of mind to have a successful year and share some of your contributions to Tamil community.

Sincerely

-Muthu

Beginning AI Applications in Tamil – Keras Tutorial

Starting from my first AI application, tamil/english word classification to transitioning into a full-time AI compiler/performance engineer today I have made a career transformation of sorts; I am sharing some information from my learnings here at INFITT-2021 workshop on Keras and beginning AI apps in Tamil.

#infitt2021 தமிழ் கணிமை மாநாட்டிற்கு பயிற்சி பட்டறை அளிக்கிறேன்

  • Download Presentation below:

Key points:

  • தமிழ் இணைய மாநாடு தொடர்பான பட்டறைக்கு உருவாக்கிய iPython புத்தகங்களை பொதுவளியில் இங்கு வைக்கிறேன்; ஆர்வமுள்ளவர்கள் பயன்படுத்தியும், பின்னூட்டங்கள் தரலாம். Notebooks and exercises can be found here https://github.com/Ezhil-Language-Foundation/open-tamil/tree/main/examples/keras-payil-putthagangal
  • AI can be biased based on training algorithms, or data, or both:

“Coded Bias” – சமுகத்தில் உள்ள ஒடுக்குமுறைகளை செயற்கையறிவில் வரையறுப்பது சரியா? #aiethics #ai-side-effects;

குப்பம்மா – உளிவீரன் அப்படின்னு பெயர்வெச்சா கடன் அட்டை கிடைக்காமல் போகவும் ராகுல், ப்ரியா என்று பெயர் வைத்தால் கிடைப்பதற்கும் உள்ள வித்தியாசம் தான் “Coded Bias” – எனில் செயற்கைஅறிவு உங்களுக்கு இது கிடைக்குமா என்ற தீர்வை கணிக்கும் நிலையில் உள்ளோம்! யாரிடம்திறவுகோல் உள்ளது?

நன்றி

-முத்து