# A group structure for Tamil

We can form a group structure for Tamil alphabets in many ways; simply we may apply residue classes modulo N or symmetric group of permutations modulo N for any cardinality. However, one interesting group structure with applications is the abstraction of 247 Tamil letters written on a torus; in this essay I will attempt to describe it and show that it forms a group.

We consider the 247 Tamil letters formed by 1 ayudha letter and 12 uyir letters for 13 vowels, and 18 mei letters for 18 consonants and 216 uyirmei or conjugate letters [247 = 13 + 18 + 216]. By consider a mapping of 13 vowels to Z13[residue classes modulo 13] and 18 uyirmei letters + ayutha letter to Z19 [residue classes modulo 19].

### Representation

Further we may represent each uyirmei letter as a index into a 2D table formed by rows of mei letters, and columns of uyir letters. So, for example letter ‘கு = க் + ஊ’ can be written as 6 + 1*13 = 19. Uyir letters are all represented from [0-12], Mei letters are represented as multiples of 13, [13, 26, 39, .. 234] for [க், ச், … ல், வ், ழ், ள்]. Uyirmei letters form everything in between.

The general representation of a letter can be: t = a + 13*b, where a goes from [0-12] and b goes from [0-18]. This representation pegs ‘ஃ’ at the origin. In the direct product of Z13 and Z19 this will be represented as (a,b)

Letter representation in the product group: Z13 x Z19

## Result

Further since we showed uyir and mei letters can be embedded into the Z13, and Z19 residue classes and we know 247 factors neatly into 2 primes 13 and 19, we may use the Chinese remainder theorem (which guarantees that given two sets of residue classes which are co-prime, we can form a residue class with a unique representation for the direct-sum [direct-product] of the underlying sets). In our case we are guaranteed that Z13 x Z19 direct sum structure forms an isomorphic group in Z247. This is the key result in this easy:

Tamil letters [247] have a direct product representation in group Z247 which is isomorphic to the direct product of Z13, Z19 as mapping the uyir and mei group representations.

Key result – Group representation for Tamil alphabets

While Chinese remainder theorem guarantees a ring structure, I don’t know the second operator which can take role of product to make the ring structure possible at this writing.

# சொல்திருத்தி – தெறிந்தவை 6

மொழியில் ஆக்க சக்திகளை தோராயமாக, தொல்கப்பியம், இலக்கணம் எல்லாம் தெறியாமலேயே ஒரு மொழியின் மாதிரியில் இருந்து (புள்ளியியல் வழி உருவாக்கியது) சரியான அல்லது பிழையான சொல், வாக்கியம், சொல் அமையும் இடம், இடம்-பொருள் ஒற்றுமை போன்றவற்றை நாம் சரியாக சொல்லலாம். அதற்கு மொழிமாதிரி கேட்குது நம்ம கணினி.

பொது தமிழ் தரவுகள் ஆகியவை

1. மதுரை திட்டம்
2. தமிழ் விக்கிப்பீடியா
3. freetamilebooks மின் புத்தக தரவு
4. பிரபல நாளிதள், வார இதள், வலை இதள் போன்றவற்றின் தரவு.

இவை ஓவ்வொன்றும் ஒவ்வொரு கால கட்ட தமிழை, அல்லது பல கால கட்ட தமிழ் வழக்கை கொண்டவையாக அமைகின்றன. மென்மேலும், ஒவ்வொன்றும் வெவ்வேறு ‘header information’ மேலான்மை தகவல்களினுள் பொருத்தப்பட்டருக்கின்றன.

இதனை நாம் சரியாக புரிந்து கொண்டதன் பின்னரே ஒரு மொழி மாதிரியை உருவாக்கலாம். மொழி மாதிரி என்பது நிறுத்த சொற்கள் நீக்கப்பட்ட சொல் தரவினில் இருந்து மட்டுமே உருவாக்கியதாகவும், முழுக்க முழுக்க தேவையற்ற மேலான்மை தகவல்கள் இல்லாமல் இருக்க வேண்டும். இவை இருந்தால் சிறப்பாக ஒரு மொழி மாதிரியை தயார் செய்யலாம்; இதனை எனது டுவீட்டில் பார்க்கலாம்:

ஏற்கனவே செய்த வேலைகளில் இந்த குறைபாடுகள் இருந்திருக்கின்றன; இப்போது தான் தெறிந்துகொண்டேன்.

சமீபத்தில் இந்த சிக்கலில் மாட்டினேன்: சரியான தொடக்க நிலையில் இருந்து தொடங்குவது அவசியம். நான் விக்கிபீடியா தரவை அப்படியே header-information உடன் எதையும் துப்புரவு செய்யாமல் 13 இலட்சம் சொற்களை வரிசைடுத்தினேன். எல்லாம் பிரயோஜனத்துக்கிலை.

நக்கீரண் வேலை பார்க்க முயன்றால் கொஞ்சமாவது பயபக்தி வேண்டாமா ?

# சொல்திருத்தி – தெறிந்தவை 2

சென்ற பதிவில் ஒரு தொடக்கத்தை ஆரம்பம் செய்தோம்; இந்த பதிவில் அதே வேகத்தில் தொடர்வோம். இடைவெளியில் மூன்று முக்கியமான அறிவியல் ஆராய்ச்சிசிகளை பற்றி உங்கள் கவணத்தை ஈர்த்து செல்ல விடுங்கள்.

## 1 முதல் ஆய்வுகளின் முடிவு

சொல்திருத்திகளின் சவால்கள் – ஒரு கணக்கெடுப்பும், மேலோட்டமான விளக்கமும் என்ற தலைப்பில் கேரன் குகிச் என்ற ஆரய்ச்சியாளர் Techniques for automatically correcting words in text 1992-இல் ACM சஞ்சிகையில் அற்புதமாக விளக்கம் அளித்துள்ளார். இது ஒரு கணக்கெடுப்பு என்பதால் 63 பக்கங்கள் கொண்டதாக உள்ளது. கண்டிப்பாக சொல்திருத்தியில் ஆராய்ச்சி செய்ய முனைபவரும், செயல்படுத்துபவரும் இதை வாசித்தல் வேண்டும்.

## 2 சொந்தங்கள் அவை கண்ட அறிவு

அடுத்து எனது வாசிப்பில் நான் அலசி சல்லடைபோட்டு மீன்பிடித்ததில் இணைய வலையில் சிக்கிய மீன் – தங்கமீன் – இந்த துருக்கி அறிவியலாளர் குழு எழுதிய 1994-இல் வெளிவந்த இந்த கட்டுரை – ஒட்டு மொழிகளினுள் உண்டான அம்சங்களில் ஒரு சொல்திருத்தியை உருவாக்குவது எப்படி – Kemal Oflazer , Cemaleddin Güzey, Spelling correction in agglutinative languages,  PDF என்பதை மைய்யமாகக்கொண்டு கணிமை கோட்பாடுகளில் செயல்முறைகளை சாட்சியப்படுதினார்கள். ஃபின்னிஷ், துருக்கி போன்ற மொழிகள் தமிழைப்போல் ஒட்டு மொழி என்ற சொல்லடல் இலக்கண வகைப்படுத்தப்பட்டவை. ஃபின்னிஷ்-தமிழ் தொடர்பு மிக பெரியது – ஐராவதம் அவர்களைக் கேளுங்கள், இல்லை சிந்து சமவெளியில் போய் பாருங்கள் [விளையாட்டாதான்]!

## 3 கண் கெட்டபின் சூரிய நமஸ்காரம்

மூன்றாவதாக நான் சொல்வது பொதுவில் ‘எங்க அப்பன் குதிருக்குள்ள இல்லை’ என்ற பொது இரகசியமாக உள்ள தனபால் – கீதா அண்ணா பல்கலை அறிவியலாளர்களின் 2003-இல் வெளிவந்த கட்டுரை. இதில் பலவிதிகளை நாம் நேரடியாகவும், மேம்பாடு செய்தும் செயல்படுத்தலாம். “Tamil spell checker,”  என்று T. Dhanabalan, R Parthasarathi… – Sixth Tamil Internet 2003

## 4 அடுத்த படியாக

இவை எல்லாம் ஒரே நாளில் யாரும் படிக்க சுலபமாக முடியாது. இருந்தாலும் இப்படிப்பட்ட சிக்காலான் மொழியியல் காட்டிற்குள் அடங் கிய பூதம்தான் ஒரு சொல் திருத்தி. புகைப்போட்டோ பொரிவைத்தோ இந்த ஒரு சித்தாந்த சொல் அன்னத்தை வழிமரித்து பொது பயன்னுக்கு அளிப்பது, நமக்கும், வருங்கால தமிழ் எழுத்தாளர்களுக்கும், வாசகர்களுக்கும் உண்மையிலேயே ஒரு அளப்பரிய செயல். அடுத்த பதிவில் இந்த ஆராய்ச்சிகளில் உள்ள சில செயல்முரைகளின் உருவங்களையும், கீற்றுகளையும், நடைமுரை விளக்கங்களையும் பார்க்கலாம்.

# Project Madurai Corpus – உளி வீரன்

Project Madurai corpus contains a treasure trove of Tamil data across many generations and inflections of Tamil language. Using this data I post-processed the files in project உளி வீரன்.

### Data

We are able to look at data from Project Madurai e-Texts. Currently 4,036,616 total words – 40 lakh plus words –  in ‘plain_text’ folder which contains unigram data and bigram data at word level. One may use open-tamil library to: – discover the unigram word-frequency of this corpus – discover the bi-gram word-frequency of this corpus (since successive words occur in successive lines).

### Morse Code for Madurai Corpus

Using the techniques laid out in earlier blog post on Morse Code we are able to regenerate the Morse Code for Tamil using additional data.

Average code word length = 6.65456 bits. Morse code for Tamil using Madurai corpus is displayed below [most frequently occurring symbols to least] – i.e. in descending order.

1. க -> ..---
2. ன் -> .--.-
3. ம் -> .-..-
4. த -> ----.
5. த் -> ---.-
6. க் -> --..-
7. வ -> -.---
8. ர் -> -.-.-
9. ல் -> ....-.
10. து -> ...--.
11. ரு -> ...-.-
12. ப -> ..--.-
13. ந் -> ..-...
14. தி -> ..-.--
15. ப் -> .-----
16. கு -> .---..
17. ய -> .--..-
18. ம -> .-.--.
19. ட -> --...-
20. ற் -> --.---
21. அ -> --.-..
22. வி -> --.-.-
23. ர -> -...--
24. டு -> -...-.
25. ன -> -..---
26. ங் -> -..-..
27. ண் -> -.-...
28. ட் -> .....--
29. கி -> .....-.
30. ள் -> ....---
31. ல -> ...---.
32. டி -> ...-...
33. ற -> ..--..-
34. யி -> .----.-
35. று -> .---.--
36. மு -> .--....
37. தா -> .--...-
38. இ -> .-....-
39. மா -> .-.-..-
40. பு -> .-.-.-.
41. ய் -> -------
42. கா -> ------.
43. ரி -> -----.-
44. யா -> ---....
45. வா -> ---..--
46. றி -> --.....
47. சி -> -.....-
48. லை -> -..--..
49. ச் -> -..--.-
50. ச -> -..-.--
51. யு -> -..-.-.
52. பி -> -.--...
53. பா -> -.--.--
54. உ -> -.-..--
55. எ -> -.-..-.
56. னை -> ......--
57. டை -> ....--..
58. ள -> ...-----
59. கொ -> ...-..--
60. செ -> ..--....
61. ளி -> ..-..---
62. ந -> ..-..--.
63. ண -> ..-.-...
64. லி -> ..-.-.--
65. லா -> ..-.-.-.
66. னி -> .----...
67. நி -> .---.-..
68. போ -> .-......
69. னா -> .-...--.
70. வே -> .-...-.-
71. வு -> .-.-----
72. கை -> .-.----.
73. னு -> .-.---..
74. தை -> .-.---.-
75. மை -> .-.-...-
76. மி -> .-.-.---
77. ரை -> .-.-.--.
78. ளை -> -----...
79. ழி -> ---...--
80. ஆ -> ---...-.
81. லு -> ---..-..
82. ழு -> --....--
83. பெ -> --....-.
84. றை -> --.--...
85. பொ -> --.--.--
86. நா -> --.--.-.
87. ஞ் -> -......-
88. ரா -> -....---
89. தே -> -....-..
90. ணி -> -....-.-
91. ழ -> -.--..--
92. சு -> -.--..-.
93. றா -> -.--.-.-
94. ழ் -> ........-
95. வெ -> .......-.
96. மே -> ......-..
97. டா -> ......-.-
98. ளு -> ...----.-
99. வை -> ...-..-.-
100. தெ -> ..--...--
101. யை -> ..-..-..-
102. கூ -> .----..--
103. ஒ -> .----..-.
104. யே -> .---.-.--
105. தோ -> .---.-.-.
106. சா -> .-.....-.
107. தொ -> .-...---.
108. மெ -> .-...-..-
109. நீ -> .-.-....-
110. கோ -> -----..--
111. கே -> --.--..--
112. சை -> -........
113. பே -> -.......-
114. சொ -> -....--.-
115. லே -> -.--.-...
116. யெ -> -.--.-..-
117. ளா -> .........-
118. னே -> .......---
119. ஏ -> ....--.---
120. வீ -> ....--.--.
121. பூ -> ....--.-.-
122. சே -> ...----...
123. யோ -> ...-..-..-
124. ழை -> ..--...-.-
125. நெ -> ..-..-....
126. தீ -> ..-..-.--.
127. ணை -> ..-..-.-.-
128. வ் -> ..-.-..--.
129. மூ -> .-...-----
130. றே -> .-...-...-
131. மொ -> .-.-.....-
132. கெ -> -----..-.-
133. ணு -> ---..-.--.
134. ஓ -> ---..-.-..
135. சூ -> --.--..-..
136. தூ -> -....--...
137. ரே -> .......--..
138. னெ -> .......--.-
139. மோ -> ....--.-..-
140. பை -> ...----..--
141. சீ -> ...----..-.
142. மீ -> ...-..-...-
143. ணா -> ..--...-...
144. டே -> ..-..-...-.
145. ஊ -> ..-..-.----
146. னோ -> ..-..-.---.
147. ளே -> ..-..-.-..-
148. வோ -> ..-.-..----
149. சோ -> ..-.-..---.
150. நே -> ..-.-..-...
151. ரெ -> ..-.-..-..-
152. லோ -> ..-.-..-.--
153. ஸ் -> ..-.-..-.-.
154. லெ -> .-.....---.
155. நோ -> .-.....--..
156. யொ -> .-...----..
157. ரோ -> .-...-.....
158. ஈ -> .-...-....-
159. றோ -> .-.-.......
160. நு -> .-.-......-
161. றெ -> ---..-.----
162. நூ -> ---..-.---.
163. கீ -> -....--..-.
164. ஞா -> ............
165. ஐ -> ..........--
166. ஷ -> ..........-.
167. ழா -> ...-..-.....
168. டெ -> ..--...-..-.
169. வொ -> ..-..-...---
170. ளெ -> ..-..-...--.
171. ஜ -> ..-..-.-....
172. றொ -> .-.....-----
173. ளோ -> .-.....--.--
174. னொ -> .-.....--.-.
175. டோ -> .-...----.--
176. யூ -> -----..-....
177. ஷ் -> -----..-...-
178. பீ -> ---..-.-.---
179. றீ -> ---..-.-.--.
180. லொ -> ---..-.-.-.-
181. ரொ -> --.--..-.---
182. ரீ -> --.--..-.-..
183. ரூ -> ...........--
184. ஞ -> ....--.-.....
185. னீ -> ....--.-...--
186. டொ -> ...-..-....--
187. ணீ -> ...-..-....-.
188. யீ -> ..--...-..---
189. டீ -> ..--...-..--.
190. வூ -> .-.....----.-
191. ணெ -> .-...----.-.-
192. ஸ -> -----..-..--.
193. ஜா -> -----..-..-.-
194. லீ -> --.--..-.--..
195. ணே -> --.--..-.-.--
196. னூ -> --.--..-.-.-.
197. லூ -> -....--..----
198. நொ -> -....--..--..
199. ஃ -> -....--..--.-
200. ளொ -> ...........-.-
201. ங -> ....--.-...-..
202. றூ -> ..-..-.-...-..
203. ணோ -> ..-..-.-...-.-
204. ஜ் -> .-.....----...
205. டூ -> .-...----.-...
206. ஹ -> -----..-..----
207. ஷி -> -----..-..-..-
208. நை -> ---..-.-.-...-
209. ஹா -> ---..-.-.-..--
210. ளீ -> --.--..-.--.-.
211. ளூ -> -....--..---.-
212. ழீ -> ...........-..-
213. ஜி -> ....--.-....--.
214. ஸி -> ....--.-....-..
215. ழே -> ....--.-...-.-.
216. ஞை -> ..-..-.-...----
217. கௌ -> ..-..-.-...--.-
218. மௌ -> .-.....----..--
219. ணொ -> .-...----.-..--
220. சௌ -> .-...----.-..-.
221. ஸா -> -----..-..---.-
222. ஷா -> -----..-..-...-
223. ஜெ -> ---..-.-.-.....
224. வௌ -> ---..-.-.-....-
225. ஷை -> ---..-.-.-..-..
226. ஜோ -> --.--..-.--.---
227. ஜீ -> --.--..-.--.--.
228. ழெ -> -....--..---...
229. ஷே -> -....--..---..-
230. ணூ -> ....--.-....----
231. ஜை -> ....--.-....---.
232. ஹி -> ....--.-....-.--
233. பௌ -> ....--.-...-.---
234. ஔ -> ..-..-.-...---..
235. ஞெ -> ..-..-.-...--...
236. ழூ -> .-.....----..-.-
237. ழோ -> -----..-..---..-
238. ழொ -> -----..-..-....-
239. ஸு -> ---..-.-.-..-.--
240. ஹோ -> ...........-.....
241. ஜு -> ...........-...--
242. ஷு -> ...........-...-.
243. ஞீ -> ....--.-....-.-..
244. ஹ் -> ..-..-.-...---.-.
245. தௌ -> ..-..-.-...---.--
246. ஸை -> ..-..-.-...--..--
247. ஜே -> ..-..-.-...--..-.
248. ஸீ -> -----..-..---...-
249. ஞி -> -----..-..-.....-
250. ஸூ -> ...........-....--
251. ஜொ -> ....--.-....-.-.--
252. ஹு -> ....--.-...-.--...
253. ஹை -> ....--.-...-.--..-
254. ஹீ -> ....--.-...-.--.--
255. ஸெ -> .-.....----..-....
256. ஜூ -> .-.....----..-...-
257. ரௌ -> .-.....----..-..-.
258. ஹே -> -----..-..---.....
259. ஸே -> -----..-..-.......
260. யௌ -> ---..-.-.-..-.-...
261. ஷூ -> ---..-.-.-..-.-..-
262. ஹூ -> ---..-.-.-..-.-.--
263. ஹெ -> ...........-....-..
264. ஞூ -> ...........-....-.-
265. ஸோ -> ....--.-...-.--.-..
266. ஞே -> .-.....----..-..---
267. ஷீ -> -----..-..---....--
268. ஷோ -> -----..-..-......--
269. ஷெ -> -----..-..---....-.
270. ஹொ -> ---..-.-.-..-.-.-..
271. ஞோ -> ---..-.-.-..-.-.-.-
272. ஸௌ -> ....--.-....-.-.-...
273. டௌ -> ....--.-....-.-.-.--
274. லௌ -> ....--.-....-.-.-.-.
275. ஞு -> ....--.-...-.--.-.--
276. நௌ -> .-.....----..-..--.-
277. ஙு -> -----..-..-......-..
278. ஹௌ -> ....--.-....-.-.-..-.
279. ஸொ -> .-.....----..-..--...
280. னௌ -> ....--.-...-.--.-.-.-
281. ஙொ -> ....--.-...-.--.-.-..
282. ஞௌ -> .-.....----..-..--..-
283. ஞொ -> ....--.-....-.-.-..---
284. ஙா -> -----..-..-......-.---
285. ஙே -> -----..-..-......-.-..
286. ளௌ -> ....--.-....-.-.-..--..
287. ஷொ -> -----..-..-......-.-.--
288. ழௌ -> -----..-..-......-.--..
289. ஙூ -> -----..-..-......-.-.-.
290. ஷௌ -> -----..-..-......-.--.--
291. றௌ -> -----..-..-......-.--.-.
292. ஙோ -> ....--.-....-.-.-..--.--
293. ஙி -> ....--.-....-.-.-..--.-.

We are able to say this Morse code book is a better representation of Tamil since it finds 290 letters incident of the 323 letters in Grantha + Tamil letter set generated from the Madurai corpus of 4 million words.

# Tamil language model

TL;DR

Last week I collected letters (323 letter forms)  from open-tamil and estimated the unigram, bigrams and trigram frequencies in a given Tamil lexicon with about 65,0000 odd words. The interesting results are found in this Open-Office Calc spreadsheet.

This was somewhat of a enjoyable exercise to me, to revisit some of the hardwork I have done in Open-Tamil, particularly in the utf8 module, among other contributions to Open-Tamil library from a wider team.

However, whats in it for you, dear reader ? To cut to the chase, here is all the meat and potatoes of the results:

1. Tamil word frequencies sorted by word-length for the 65k words show a mean wordlength (using weighted average) of 5.404; 5 is a beautiful Prime number and Indian mythology will also have some suitable references.
• This word frequency distribution comes out like the following (y-axis log scale)

•  Word Length Frequency 1 102 2 1799 3 6434 4 13200 5 14489 6 11636 7 8119 8 4626 9 2224 10 817 11 286 12 104 13 26 14 24 15 8 18 1 19 1
2. Unigram data show Zipf’s law like distribution (e.g. from NLP course material); also we see only 100 of 323 possible letter forms in Tamil make up the text of the lexicon. One wonders of a Samuel Morse that sent his telegram’s for Tamil, if he would have chosen ‘.’ to represent the ‘ம்’ ? However Tamil reading or recitation of Morse code would be like jathi-reciting Barathanatyam dance teacher. Dit daa daa. The first 100 most frequent letters in lexicon are presented here.
 Letter Frequency ம் 18164 த 17207 க 14670 ல் 14165 த் 9540 க் 8257 ன் 8133 ர 7639 ப 7639 வ 7005 தி 6625 ச 6402 கு 6154 ம 5925 ப் 5809 ட் 5690 டு 5566 ர் 5503 ய 5049 அ 4683 ட 4563 ரு 4536 பு 4292 கா 4262 து 4162 ல 4046 வி 3838 டி 3798 ண் 3773 சி 3720 ன 3563 ரி 3379 ங் 3284 ந் 3254 ற் 3099 இ 2939 று 2811 ச் 2811 சு 2751 பா 2705 கி 2625 பி 2614 வா 2569 மு 2458 ள் 2432 லை 2212 உ 2185 டை 2156 தா 2154 ண 2134 கை 2121 ஆ 2020 மா 2015 ய் 1916 ள 1902 சா 1837 ற 1821 லி 1744 வு 1522 கொ 1497 ந 1491 நி 1465 ஞ் 1461 ரா 1452 ணி 1450 ளி 1432 யா 1421 நா 1303 றி 1263 கோ 1260 செ 1236 ழி 1234 னி 1219 ழு 1122 மி 1117 யி 1095 பொ 1082 ரை 1057 வெ 1036 எ 1025 மை 990 றை 976 பூ 949 னை 937 ழ 937 லா 911 சை 837 வை 822 போ 815 கூ 802 வே 797 டா 793 தை 786 பெ 765 ளை 764 தே 674 ஒ 655 ழ் 618 லு 613 நீ 581
• Fitting the Zipf’s law to the Unigram data looks quite interesting too:
3. Bigram data also has promising structure as Shannon would have imagined it would be from a human language; these things are known to have redundancy, structure and predictability.
• First 2000 bigrams occupy more than 50% of all observed bigrams.
• Lexicon contained only ~ 13.25% of all possible bigrams in the wild!
• This sparseness of bigram data indicates mainly a limited data set or highly structured vocabulary in Tamil, but I’ll wager the former.
• Zipf’s law fit is not as nice as for unigrams but here it goes:
• The top 100 bigrams, by frequency, are the following:
•  தல் 8670 த்த 4645 க்க 2844 கம் 2824 த்தி 2160 ரம் 2023 க்கு 2019 தம் 1893 ட்டு 1805 ப்பு 1757 டுத 1641 ப்ப 1582 யம் 1532 த்து 1517 ம்ப 1484 னம் 1402 ம்அ 1397 ந்த 1305 ங்க 1286 டம் 1233 லம் 1230 ட்ட 1108 க்கா 1082 சம் 985 ட்டி 976 ம்பு 958 கன் 904 ம்க 904 ல்க 882 க்கி 869 திர 852 ந்தி 823 ணம் 819 ம்ச 799 ங்கு 797 ச்சி 789 ண்ட 767 ர்த் 757 கட் 755 குத 743 ம்இ 729 ப்பி 720 கண் 716 ரன் 712 ல்அ 707 கார 692 ற்று 689 ப்பா 688 ம்ம 681 வன் 672 ம்பி 641 ச்ச 632 ம்ஆ 624 தன் 617 வம் 599 கர 592 பம் 587 கல் 581 ம்உ 534 கரு 534 ல்ப 530 யன் 519 றுத 517 ல்வ 515 ந்து 511 த்தா 510 ச்சு 502 ம்பா 500 ஞ்ச 495 டுத் 492 பிர 490 ரிய 488 டித் 480 படு 477 ல்த 475 ல்கு 467 ல்உ 467 னல் 462 ளம் 459 ன்அ 456 ற்ற 450 ட்டை 443 திரு 442 ருத் 435 ல்இ 431 ங்கா 415 ன்ன 414 தலை 411 வர் 406 ம்த 403 ன்ம 398 ன்க 394 க்கொ 392 ண்டு 391 ம்வி 388 ல்வி 384 மம் 384 ர்க் 384 டுக் 381 ல்ம 379
4. Moving on to trigrams we find, even more sparseness since the data is so limited – 65k words with total letter size of 345,315 letters only. Of the possible 323^3 = 33,698,267 ~ 34 million trigrams we have only 107,715 trigrams present in the Lexicon, about 2%, making this is the weakest dataset yet.

• About 10,000 trigrams form more than 50% of the available trigrams from the data-set with rest of trigrams occurring sparsely.
• The most frequently occurring 100 trigrams and their frequency in this lexicon are shown below:
 த்தல் 2992 டுதல் 1573 குதல் 674 தல்க 575 ட்டுத 557 க்கம் 513 த்திர 479 தல்அ 476 றுதல் 472 ர்த்த 446 ட்டம் 431 டித்த 431 த்தம் 382 கட்டு 380 தல்ப 374 தல்த 353 தல்உ 351 துதல் 332 டுத்த 331 காரன் 325 திரம் 322 க்கட் 310 தல்கு 309 க்கார 298 ந்தம் 295 க்குத 293 தல்வ 288 ங்கம் 280 தல்இ 271 படுத 271 ங்குத 256 த்துத 250 த்திய 250 ந்திர 250 தல்மு 246 ளுதல் 245 தல்ம 242 தனம் 242 சனம் 234 ய்தல் 228 ர்க்க 228 ப்படு 227 தல்வி 226 கம்அ 222 க்கல் 218 காரம் 218 ரித்த 208 தல்ச 206 ர்தல் 206 பத்தி 202 தம்அ 201 ருத்த 196 ள்ளுத 195 தல்பு 193 கம்ப 192 ண்டம் 185 ரம்அ 183 த்துவ 180 ம்பிர 174 ட்டுக் 174 வுதல் 171 தல்கா 170 ரணம் 170 ற்றுத 168 தல்ந 167 யம்அ 165 ரியம் 164 கொள்ளு 164 தல்சி 164 லுதல் 162 கரம் 162 புதல் 160 கம்க 159 தல்ஒ 158 சுதல் 157 தல்நி 156 ர்த்தி 156 ப்பிர 155 ணுதல் 154 காட்டு 153 தல்கை 150 தல்பி 149 போடுத 148 தல்ஆ 147 கண்ட 147 க்கிர 146 தியம் 146 தல்எ 145 சித்த 145 தல்சு 144 வைத்த 143 க்கர 141 ரம்க 140 த்தன் 138 தல்து 138 காலம் 138 மரம் 137 ரம்ப 137 விடுத 136 சங்க 135

### Conclusion

It is quite easily possible to build a random word/text generation in Tamil with these statistical data and smoothing information for the missing 80% bigram, 98% trigram data using Monte Carlo techniques. Further word-level frequency, word-level bigram and trigram data will make a more relevant text generation at the sentential level.

# Tamil Language – Longest word and Lexicography

Hello traveler and Tamil language aficionado. Today I’m researching about Tamil lexicography, and I’m sharing the results of my searches through this blog post. It is more on the research side, than demo’s or expository blogs of the post.

## Longest Tamil Word

1. Senthil Nathan of Arithi.com has blogged about using UTF-8 in Tamil text processing. Something we like at the open-tamil project. Check our Python codes if you have not already.
2. In this article he posits the longest Tamil word has to be the proper-noun, “திருவாலவாயுடையார்திருவிலையாடற்புராணம்“. Any comments on that? I think if we looked at verbs of adjectives we may reach the proper answer.  Lets try and answer this question with the open-tamil tools (assuming you have installed it!) and type the code at the Python shell.
```>> import tamil
>> len(tamil.utf8.get_letters(u'திருவாலவாயுடையார்திருவிலையாடற்புராணம்'))
20```

3. Now we realize this is only 20 letters long. Comparatively the English word ‘pneumonoultramicro silico coniosis‘, a disorder          where the lungs are affected by silicion particulate matter, measures to be upto a whooping, 45 letters long!

### Update #2 – Longest Tamil word! (04/28/2014)

Since the original post I have a possible candidate word (not a proper-noun) which is 15 letters long, “புத்திரபௌத்திரபாரம்பரியம்”. Look up புத்திரபௌத்திரபாரம்பரியம். See also words,

## Lexicographic Order – Dictionary Order

In English language ‘AVOCADO’ comes after the word ‘APPLE’ in the dictionary, because of the dictionary-order or lexicographic convention. It is often preplexing to me that Tamil language sorting is not well defined.

1. Our vowels, 12 of ‘அ,ஆ,இ,ஈ, – ஒ,ஓ,ஔ,ஃ’ are well ordered.
2. But the consonants, 18 of ‘க,ச,ட,த,ப,ற, … ஞ.ங,ண,ந,ம,ன’ are not because there is more than one ordering. What is the norm here?
3. So in combination the 247 Tamil letters don’t have a canonical dictionary order.
4. This lack of lexicographic ordering convention makes dictionary ordering of Tamil words difficult. Clearly we could make a choice, but what is the norm?