தமிழ் உரை சம்பந்தமான சில புதிர்கள் (2) – இரட்டைக்கிளவி, ஜதி

1 கேள்வி

ஏற்கணவே எழுதிய கட்டுரை கீற்றில் தமிழ் கட்டுரைகளில் எப்படி பால் ஓற்றுமை படுத்துவது என்ற கேள்வியைப்பற்றி கண்டோம். இன்று, தமிழில் எப்படி இரட்டைக்கிளவி சொற்கள், பரத நாட்டிய/கருநாடக இசையில் ஜதி சொற்கள், என்பதை கணினியால் சுயமாக அறியமுடியும் என்ற கேள்வியைப்பற்றி பார்க்கலாம். விடைகள் என்னிடம் இருந்தால் INFITTக்கு முதல் ஆளாக கட்டுரை எழுதிருபேன் இல்லையா ஹஹா ;).

முதன்மையில் இவ்வை சொற்கள், இரட்டைக்கிளவி மற்றும் ஜதி சொற்கள், ஒருவகையான இசைவுத்தன்மையை சொல்பவை. இதனை, மற்ற மொழிகளிலும் காணலாம் – முதன்மையாக ஆங்கிலத்தில் இதனை Onomatopoeia என்றும் சொல்கின்றனர்.

தமிழ் சினிமா இசை பாடல்களில், செய்யுள்களில், என பல இடங்களில் சீசீ இங்தப்பழம் புளிக்குது என்று சொல்லும் சுடசுட கிசுகிசு பத்திரிகைகளிலும் எல்லாஇடத்திலும் பரவலாக உள்ள தமிழ் சொல்லாடல் அம்சமாக விளங்குகின்றது இந்த இரட்டைக்கிளவி.

உதாரணம், இந்த 1998-இல் வெளிவந்த ஜீன்ஸ் படப் பாடலான “கண்ணோடு காண்பதெல்லாம்…” பாடலில் இரட்டைக்கிளவி, மற்றும் ஜதி சொற்கள் இடம் பெருகின்றன:

தக்ரதக்ரதக்ரதிம் தக்ரதக்ரதக்ரதிம் தக்ரதக்ரதக்ரதிம் தக்ரதக்ரதகஜம் (2)

சலசல சலசல இரட்டைக் கிளவி தகதக தகதக இரட்டைக் கிளவி
உண்டல்லோ தமிழில் உண்டல்லோ

தமிழில் சராசரி சொல்லாடல்களை சற்று விக்கிப்பீடியாவில் கண்டால் அவர்கள் பட்டியலில் வருவதாவது,

  1. கிடுகிடு பள்ளம் பார்த்தேன்
  2. கிளுகிளு படம் பார்த்தாராம்
  3. கிறுகிறு என்று தலை சுற்றியது
  4. கீசுகீசு என குருவிகள் கத்தின
  5. குசுகுசு என்று அதை சொன்னார்
  6. குடுகுடு கிழவர் வந்தார்
  7. குபுகுபு என குருதி கொட்டியது
  8. கும்கும் என்றும் குத்தினார்
  9. குளுகுளு உதகை சென்றேன்

சில கேள்விகள்

  1. இவற்றில் எப்படி இந்த சொற்களின் திரும்பத்திரும்ப வரும் தன்மையை ஒரு விதிகளால் அல்லது ஒரு சூத்திரத்தினால் குறிக்கமுடியும் ?
  2. இப்படி குறிக்கமுடியுமா, இல்லையா ?
  3. இவாறு எழுதப்பட்ட சூத்திரம் அல்லது நிரல் சார்புகளினால் இந்த பட்டியல்கள் தானியங்கியால் குறிக்கப்படும் இரட்டைக்கிளவி, குறிக்கப்படாத இரட்டைக்கிளவி என்று இருவகைபடுத்தப்படுமா ?

2 சில் விடைக்கான எண்ணங்கள்

2.1 Regular Expression

எனது அனுபவத்தில், இதன் தானியங்கி விதிகள் regular expression என்ற சார்ககத்தினால் எந்த ஒரு உரையிலும் கண்டெடுக்கலாம் என்றும் எண்ணுகின்றேன் – (தமிழில் regular expression-களை ஓப்பன் தமிழ் நிரல் திரட்டில் நீங்கள் பார்க்கலாம்) – எனினும் இது எளிதான செயல் அல்ல – அதுவும் கணினி நினைவகம்/இயக்கும் நேரம் big-O சிக்கல் அளவுகளில் சிக்கனமாகவும் துரிதமாகவும் இந்தவகைச்சேவைகளைச்செய்வது ஒரு கடினமான காரியம்.

pattern = u"^[க-ள].+[க்-ள்]$"

data = [u"இந்த",u"தமிழ்",
        u"ரெகேஸ்புல்",
        u"\"^[க-ள].+[க்-ள்]$\"",u"இத்தொடரில்", u"எதை", u"பொருந்தும்"]
output = match(data, pattern)
expected = [1,2,6] # i.e.தமிழ்

2.2 செயற்கையறிவு பின்னல்கள் / எந்திரவழி கற்றல்.

மற்ற ஒரு தீர்வு செயற்கையறிவு, ஆழக்கற்றலினால் வரும் என்றும் சொல்லலாம். இந்த கேள்வியை ஒரு classification பகுப்பாய்வு எந்திரவழிகற்றலாக கணினியிடம் நியமித்து, விக்கி மற்றும் பல இடங்களில் இருந்து தரவுகளை தயாரித்து இந்த செயற்கைப்பின்னலை பயிற்சிஅளித்தால் அது நேரம் போகையில் அது திறன்களைப்பொரும்.

மேலும் – ஒரு நல்ல sequence-to-sequence வழியாக கட்டமைக்கப்பட்ட செயற்கையறிவு மாதிரி பின்னல் நாம் சொல்லிக்கொடுத்ததைவிட அதிகமாகவே கற்றிருக்கும் தன்மையையும் நாம் பார்க்கக்கூடும் என்று யுகிக்கக் தோன்றுகிறது.

இது இன்றைக்கு உள்ள சிக்கல்.

 

தமிழ் உரை சம்பந்தமான சில புதிர்கள்

தமிழ் செயற்கையறிவு மற்றும் எந்திர வழி உரை பகுப்பாய்வு போன்ற செயல்பாடுகளின் திறன் தினமும் வளர்ந்து கொண்டே போகின்ற சமயத்தில் (செயற்கையறிவு என்ற பேரலையின் முதுகில் பயணிக்கின்றது என்றபடியாக) இவற்றினால் கடக்கவேண்டிய சில புதிர்கள் என்ன (என்பார்வையில்) என்று இந்த பதிவில் அலசலாம்.

  1. இருபால் சமநிலைப்பாடுத்தல் (gender balanced text)
    • அரசாங்கம், வணிக கார்ப்ரேட் நிறுவனங்கள் தினசரி புழக்கத்தில் பல செய்திகள் விளம்பரப்படுத்தலுக்கும், உள்நிறுவன செயல்பாட்டிற்கும் பகிர்ந்துகொள்ள வேண்டியிருக்கும். இத்தகைய செய்திகளில் சில் கேள்விகள் எழுகின்றன:
      • இந்த செய்திகள் முழுவதும் இருபாலினருக்கும் சரிசமமாக பாரபட்சமின்றி எழுதப்பட்டுள்ளதா?
      • இப்படி இல்லாவிட்டால் செயற்கையாக உரைதிருத்தம் செய்து இருபால் சம நிலைப்படுத்தல் செய்யலாம ?
    • உதாரணம்: “பணியாளர் வேலைக்கு வந்தால் அவர் மனைவியிடம் ஒப்புதல் பெற வேண்டும்..” என்ற படி ஒரு உரை இருந்தால் அது சமனிலைப்படுத்தப்பட்டபின்  “பணியாளர் வேலைக்கு வந்தால் அவர் மனைவியிடம் (அல்லது அவள் கணவனிடம், [துனைவன்/வியிடம்]) ஒப்புதல் பெறவேண்டும்” என்று வரவேண்டும்.
    • இத்தகைய ஒரு செயற்கையறிவு அல்லது தானியங்கியிடம் திருக்குறள் மற்றும் சம்காலத்தில் உருவாகாத பழங்கால உரைகளைக்கொடுத்தால் என்ன ஆகும் ?

மேலும் சில திறன்களை தமிழ் இயல்மொழிபகுப்பாய்வு பெரும் என்றும் நம்பலாம்; அடுத்தகட்ட கேள்விகள் / புதிர்கள் அடுத்த பதிவில்.

நன்றி

-முத்து