Unknown facts about Captcha/Recaptcha Technology

alt What are those Captcha / Recaptcha puzzles?
When you register with an internet service provider, simply web sites like yahoo mail, Gmail, facebook, hi5 or twitter… you might have noticed that they want you to solve a puzzle like thing, some blurred one or two words appearing and asking you to enter it at a text box below if you wan't to proceed with registering or even at present for some downloads too. Most of us know that it's kinda security measurement and true that it's kinda annoying but we have to enter and it's a must. !
It seems nothing but a couple of blurred words followed by a long box where you are supposed to type the words clearly. But most of you might not know much about this Captcha / reCaptcha puzzle...So I thought of giving you a better description about this technology..You will find out things you didn’t know about this technology like its usage, advantages and disadvantages and many more..

History of Captcha / reCaptcha
CAPTCHA - Completely Automated Public Turing Test to Tell Computer and Humans, founded by Luis Von Ahn in year 2000, who was a Gothamalian computer scientist, based on Turing Test which was conducted in 1950.Turing Test is supposed to give the site user a series of questions and check the answers to find out whether the user is either a human or a machine. The Captcha technology is a developed version of that old test. An American university tested this technology where some other researchers came together to develop the technology. The Captcha tech which came out in year2000 was replaced by reCaptcha in 2007 to reduce the valuable man hours being wasted in solving those puzzles and also to use that wasted time for something useful to our society.[I’ll mention about it in the end.]

How do Captcha puzzles work?
Captcha puzzle gives the user several unclear letters and check the user’s respond and decides if the user is either a human or a computer program. To be more simplified, when a single PC [normally the user’s PC] connects to a computer server, the PC user is asked to complete a simple puzzle using this Captcha puzzle method. That puzzle may contain several words and they are processed in a way that any computerized program may not identif y them but only a human eye would..

Here is a Captcha puzzle that came out in the earliest days of this tech. This was created using a program called EZ-Gimpy and was used mostly in web sites like yahoo and hi5.But with the technological advancement there came computer programs which could solve that EZ-Gimpy type Captc ha puzzles easily.

Here is a modern Captcha puzzle which is used presently.
alt When Captcha puzzles are used?
In web sites those provide online services [eg.: yahoo, eBay]
In E-mail services providing companies [Yahoo mail,Gmail]

Why Captcha puzzles?
1. E-mail service providers find this helpful to reduce the number of SPAMs their users receive.
2. To reduce the chance of getting caught to BOTNETs those have been identified as SPAM networks.
3. To avoid the data being stolen by a computer program.

These are the main reasons of using this tech, but there are few disadvantages too. Majority of the internet users rejects those web sites or services since they find solving these puzzles is likely wasting their time. More than 10000 Captcha puzzles are being solved in every single second around the world. Within a day the number of solved puzzles reaches 200 million. According to calculations the time to type again after solving a puzzle is about 10 seconds. If you may think awhile how much is the time to solve 200million puzzles in a day??Approximately 5lakhs of man hours!! Can’t we do something more efficient? I felt….

Luis Von Ahn; who was the founder of Captcha tech, and his team came up a solution for that and the solution was reCaptcha technology.

What does this reCaptcha puzzle / reCaptcha technology means?
Before we’d talk about this reCaptcha tech we should take a look at the digitalization of old books since both are the same.

An institute called Open Content Alliance in San Francisco, America started a project to digitalize those old books and magazines which came before the computer, that anybody could download those books or magazines as they wish from anywhere in the world.

To digitalize an old book it’s needed to scan each and every page of the book or magazine. Currently it is done by a scanner with a camera that snaps once in 7 seconds. Then that image is entered into an ORC program where nearly 80% of words in the image emerge exactly. Following picture shows that clearly.
alt According to the scan results the text should be: “This aged portion of society were distinguished from”, but the ORC reads it as: “niis aged pntkm at society were distinguished frow”. At a glance it has no meaning. Words in an image are converted into digital texts during the ORC program and this is how the program identifies them. “niis aged pntkm at society were distinguished frow”. These underlined words have been misidentified. It could happen if the text was blurred or unclear and even since some old letter patterns. In such situations it is too hard to identify those words since only the human eye could do the rest..This is where the reCaptcha Technology comes out. There, instead of words in previous Captcha puzzles those unidentified words were applied replacing old words. It took 2 years of a testing period before the new reCaptcha tech was launched.

Advantages of the new reCaptcha puzzle
One shot, two birds – an old Sinhalese saying! This tech also has that capability.
• People may use that 5lakhs of man hours for something useful rather than solving old Captcha puzzles.
• This new tech is useful in old books digitalizing procedure.

How to create a reCaptcha puzzle
There are two ways. But the official way is the way used by its creator Luis von Ahn and the researchers of Mellon University. They made it difficult to read those words to computerized programs using unreadable words. So here are the steps:

1. Scanning old books / magazines with thousands of words.
2. Extracting the words that ORC software misread.
3. In addition to those words, adding extra grid lines defacing it a bit.
4. Using two such words separately to create a reCaptcha puzzle.
5. Testing the created puzzle.
6. After researching further, launching to the community.

The specialty of this tech is, the first word of the two words used in a puzzle is always a word which had already identified by any computer program previously. So that if someone types the first word correctly it is considered that he has entered both the words correctly. But, to make sure that he has answered correctly those very two words would be directed to another several persons and the 1st one’s answer would be compared with others answers and finally the closest answer would be confirmed as the correct answer. Current usages of this reCaptcha Technology

After the official launch of reCaptcha tech, Google decided to use this tech in their services since 19th September 2009. There they have used this tech actively in services such as Google Books and Google News Archive, that by 15th December 2009 they had been able to digitalize most of old issues of New York Times [1851 – 1980] using this reCaptcha technology.

Please note that due to the limitation of words few facts were not included in this article. Those facts will be included in a next issue. If you have any ideas / suggestions or if anything seems unclear please contact via This email address is being protected from spambots. You need JavaScript enabled to view it.

alt මොකක්ද මේ captcha / reCaptcha puzzles කියන්නේ?

ඔබ අන්තර්ජාලයේ වීවිධ සේවා සපයන ආයතන වල ඒ කියන්නේ yahoo mail, Gmail, face book, hi5, twitter, වගේ වෙබ් අඩවි වල ලියාපදිංචි වෙනකොට එක්තරා ආකාරයක ප්‍රෙහෙලිකාවක් හො එයට සමාන දෙයක් විසදන්න ලබා දෙනවා දැකලා ඇති.

බැලූ බැල්මට පේන්නේ ඇදවී ගිය, බොද වෙච්ච අකුරු ටිකක් හා නිවැරදි වචනය ටයිප් කරන්න ලබාදී තිබෙන දික් කොටුවයි. ඒත් මේ තියෙන captcha / reCaptcha puzzle එක ගැන වැඩි යමක් බොහොදෙනෙක් නොදන්නවා ඇති. ඒ නිසා මම හිතුවා මේ ගැන පොඩි විස්තරයක් ලබා දෙන්න. ඒ කියන්නේ මේ තාක්ෂණය ගැන, කොහොමද මේ තාක්ශණයෙන් කරගන්න පුලුවන්, මෙහි තිබෙන වාසි අවාසි වගේ දේවල්… ගැන නොදන්න අයට කියලා දෙන්න.

captcha / reCaptcha puzzles වල ඉතිහාසය
CAPTCHA කියන කෙටි නමින් හදුන්වන්නේ Completely Automated Public Turing Test to Tell Computer and Humans යන්නයි. 1950 දී ඉදිරිපත් කරනු ලැබු Turing Test එහේ නොමැතිනම් ටූරින් පරික්ෂාව පදන්ම් කරගෙන 2000 වසරදි f.da;ud,d ජාතික Luis von Ahn නම් පරිගණක විද්‍යාඥයා විසිනි. Turing test එකෙන් කරන්නේ යම් ප්‍රශ්ණාවලියක් ඉදිරිපත් කරලා ඒවාට ලැබෙන පිලිතුරු විමසා බලලා ඒ ඒ ප්‍රශ්ණ වලට උත්තර දෙන්නේ මිනිසෙක්ද? නැතහොත් යන්ත්‍රයක්ද ? යන්නයි.

අපි මේ කතා කරන ලබන captcha ක්‍රමයත් හදලා තියෙන්නේ මේ කියන ලද පරික්ශාව වැඩි දියුණු කරලා. පලමුව මෙය ඇමරිකානු විශ්ව විද්‍යාල පරික්ශණයකට කරනු ලැබුවත් තවත් පරියේශකන් පිරිසක් සමග මේ ක්‍රමය වැඩි දියුණු කරනු ලැබුවා. 2000 වසරදි හදුන්වා දුන් මේ captcha ක්‍රමයට 2007 වසරදි reCaptcha ක්‍රමය හදුන්වා දුන්නා. ඒ අපතේ යනු ලබන මිනිස් පැය වලින් [ ප්‍රෙහෙලිකා විසදීමට ගතවන කාලය] සමාජයට ප්‍රයොජනවත් වැඩක් ඉටුකරගන්න. [ඒ පිලිබදව පසුව සදහන් කරමි]

Captcha puzzles ක්‍රියා කරනුයේ කෙසේද?
Captcha puzzle එකකින් කරනු ලබන්නේ යම්කිසි අකුරු කිහිපයක් පරික්ශාවකට ඉදිරිපත් කර එමගින් එයට ලැබෙන ප්‍රතිචාර පරිගණක වැඩසටහනකින්ද? නැතහොත් සාමන්‍ය පුද්ගලයෙක් විසින්ද? යන්න තීරණය කිරිමයි. මේ ක්‍රියාදාමය තවත් සරල විදියකට කිව්වොත්…

එක් පරිගණකයක [ බොහොවිට සේවය ලබාගන්නා පුද්ගලයාගේ] සිට සර්වර් පරිගණකයකට සම්බන්ධ වීමදි ඉතා සරල ප්‍රෙහෙලිකාවක් සම්පූර්ණ කරන්න දෙනවා. ඒ සදහා වැඩි වශයෙන් යොදාගන්නේ මේ Captcha puzzle ක්‍රමය. එමගින් සාමන්‍ය පියවි ඇසකට පමණක් හදුනාගත හැකි එහෙත් විශේශයෙන් නිර්මානය කරන ලද පරිගණක වැඩසටහන් වලට හදුනාගත නොහැකි වචන කිහිපයක් ලබා දෙනු ලැබේ.

පරිගණක වැඩසටහන් වලට හදුනාගත නොහැකි වු මෙකී වචන සාමන්‍ය පුද්ගලයින් විසින් විසදිය යුතු ඒවා විය.

• මෙහි දැක්වෙන්නේ මෙකී තාක්ශණය හදුන්වා දුන් අලුත භාවිත කරනු ලැබු captcha puzzles එකකි. මෙය EZ-Gimpy නැමැති වැඩසටහනක් ආශ්‍රයෙන් නිර්මාණය කරන ලද්දක් වන අතර yahoo, hi5 වැනි වෙබ් අඩවි වල භාවිතා කරන ලදී. එහෙත් තාක්ෂණික දියුණුවත් සමග මේ EZ-Gimpy ආකරයේ Captcha puzzle විසදිය හැකි පරිගණක වැඩසටහන් නිර්මානය විය

• මේ තියෙන්නේ දැන් භාවිතා කරනු ලබන නවීන captcha puzzle එකකි.
alt captcha puzzle භාවිතා වන අවස්ථා
• Online සේවා සපයන වෙබ් අඩවි වල [e.g. : yahoo, eBay]
• විද්යුත් තැපැල් පහසුකම් සපයන ආයතන [e.g.: yahoo mail, Gmail, live mail]

Captcha puzzle භාවිතා කිරීමට හේතු

1. ඊමේල් සේවා සපයනු ලබන ආයතන මෙකී ක්‍රමය භාවිතා කරමින් සිය සේවාදායකයින් හට ලැබෙන ස්පැම් පණිවිඩ සීමා කිරිම
2. ස්පෑම් කරුවන්ගේ පරිගණක ජාල වන "බොට්නෙට්" ජාලවලට හසුවීමේ අවස්ථාවන් අවම කිරීම
3. පරිගණක වැඩසටහන් මගින් තොරතුරු සොරාගැනීම වැලකීමට

මේවා ප්‍රධාන හේතූ කියලා කියන්න පුලුවන් ඒත් මේ ක්‍රම නිසා වන අවාසිත් තියෙනවා. ප්‍රධානතම අවාසිය වෙන්නේ මෙවැනි puzzles විසදීමට යන කාලය නිසා සමහරක් අවස්ථා වලදි එකී වෙබ් අඩවි හො සේවා සපයන වෙබ් අඩවි මහජනයාගෙන් ප්‍රතික්ශේප වෙනවා.

ලොකේ පුරා සෑම තත්පරකටම මේ ආකාරයේ captcha puzzles 10000 කට අධික සංඛ්‍යාවක් විසදනවා. දවසකට මේ වගේ විසදන ප්‍රෙහෙලිකා ගණන මිලියන 200කට කිට්ටු අගයක් ගන්නවා. දැනට ගනන් බලා ඇති ආකාරයට එක් නිවැරදි ප්‍රෙහෙලිකාවක් විසදා නැවත වරක් ටයිප් කිරීමට ගතවන කාලය තත්පර 10ක් වේ. හිතන්න මේ වගේ දවසකට මිලියන 200ක ප්‍රෙහෙලිකා ප්‍රමාණයක් විසදන්න ගතවන කාලය !!! දළ වශයෙන් මිනිස් පැය ලක්ෂ පහකට ආසන්න වෙනවා !!

මේ ගතවන වටිනා මිනිස් පැය වලින් ප්‍රයොජනවත් වැඩක් ගැනීමට නොහැකිද? මෙය මුලින් දැනගත් වෙලෙත් මට ඇතිවුනේත් මේ වගේ අදහසක්.. ඒ අනුව පරික්ශණ පැවැත්තු captcha puzzle හී නිර්මාපකයා වු විද්‍යාඥන ලුවින් වොන් ආන් ඇතුලු කණ්ඩායම විසින් ඒ සදහා විසදුමක් ලබා දුන්නා. ඒ තමා reCaptcha technology.

මොකක්ද මේ reCaptcha puzzles / reCaptcha Technology කියන්නේ ?

ReCaptcha Technology ගැන කාතා කිරීමට කලින් ඒ හා බැදුන පැරණි පොත් ඩිජිටල්කරණය කිරීමේ වැඩ පිලිවෙල ගැනත් කියන්න ඔනේ. මොකද මේ දෙක දෙකක් නොව එකක්ම වන නිසා.

ඇමරිකාවේ සැන් ෆැන්සිස්කො නුවර Open Content Alliance නම් ආයතනයක් මගින් පරිගණක භාවිතයට පැමිණීමට පෙර තිබුන පොත් පත් සගරා ආදිය ඩිජිටල්කරණය කිරීම හෙවත් ඒ ඒ සගරා වල හා පොත් වල ඩිජිටල් පිටපත් නිර්මාණය කිරිම ඇරඹුවා. එවිට ලොකේ පුරා ඉන්න අවශ්‍ය කෙනෙක්ට ඒ ඒ සගරාව හො පොත අන්තර්ජාලය හරහා භාගත කිරීමේ අවස්ථාව ලැබෙනවා.

පැරණි පොත පතේ ඩිජිටල් සංස්කරණ සෑදීමදි ඒ ඒ සගරා / පොත් වල සෑම පිටුවක්ම ස්කෑන් කල යුතුය. දැනට ඒ දේ සිද්ධ වෙන්නේ සෑම තත්පර 7කට වරක් විවර වෙන කැමරාවක් සහිත ස්කෑනරයකින් මෙවිට ලැබෙනුයේ ඉමේජයක් [image] ඉන් අනතුරුව ඒ ඉමේජය ORC වැඩසටහනක් තුලට යොමු කරනු ලබනවා. බොහො විට මෙකී වැඩසටහන් වලට මේ ඉමේජයන්ගේ ඇති වචන වලින් 80%කට ආසන්න ප්‍රමානයක් හදුනා ගත හැක. මේ පින්තූරයෙන් ඒ බව පෙන්වා දෙනවා.

alt මේ රූපයේ ඇති ආකාරයට ස්කෑන ් කිරිමෙන් ලැබෙනුවේ : “This aged portion of society were distinguished from “ වුවත් එය ORC පරිගණක වැඩසටහන් මගින් හදුනා ගැනෙන්නේ මේ ආකාරයටයි : “ niis aged pntkm at society were distinguished frow “ ලෙසයි. බැලූ බැල්මට පෙනෙන්නේ තේරුමක් නොමැති වචන කිහිපයක් වගේ.

මෙලෙස පරිගණක වැඩසටහනින් හදුනා ගන්න මෙම ඉමේජයේ ඇති වචන ඩිජිටල් ටෙක්ස්ට් බවට පරිවර්තනය කරනු ලැබේ. niis aged pntkm at society were distinguished frow “ලෙස ඇත්තේ එලෙස හදුනාගන්නා වචනයි. මෙහි යටින් ඉරි ඇදී ඇති වචන වැරදී ආකාරයට මෙකි වැඩසටහන් මගින් හදුනාගෙන ඇත. එලෙස වැරදි ලෙස හදුනාගැනීමට හේතු වෙන්නේ ඒ ඒ වචන ඇති ස්ථාන බොදවි තීන්ත බොදවී අපහැදිලී වී ඇති විටයි. එමෙන්ම සමහරක් පැරණි අකුරු මොස්තර යම් යම් වැඩසටහන් වලින් හදුනා නොගන්නා නිසාද මෙම තත්වය ඇතිවේ.

මෙවැනි අවස්ථා වලදි ඒ ඒ වචන හදුනාගන්නට නම් විශාල පරිශ්‍රමයක් දැරිය යුතු වෙනවා. එ මන්ද යත් එකී නොපැහැදිලි වචර හදුනා ගැනිමට වෙන්නේ පියවි මිනිස් ඇසකින් කියවා ය. ඒ අනුව තමා මෙතනට reCaptcha Technology එක අදාල වෙන්නේ. එනම් දැනට අපි දන්න විදියට captcha puzzle වල භාවිත කරනු ලබන වචන වෙනුවට මෙකී හදුනා ගත නොහැකි වචන ඒ සදහා ආදේශ කිරිමයි. එහෙත් එය එක්වරම සිදු නොකර වසර දෙකක් පමණ පරික්ශණ වලට භාජනය කිරිමෙන් අනතුරුව මෙම reCaptcha තාක්ශණය ගැන දැනුම් දුන්නා.

ReCaptcha puzzle හී වාසිය
සිංහලෙන් කියමනක් තියෙනවානේ එක ගලින් කුරුල්ලො දෙන්නෙක් බිම දාගන්නවා කියලා. ඒ වගේම තමා මේ තාක්ශණයෙන් එක් වර වැඩ දෙකක් කරගන්න පුලුවන්

1. Captcha puzzle විසදීමට යන මිනිස් පැය ලක්ෂ 5න් මහජනයාට ප්‍රයොජනයක් අත්වන සේවයක් ඉටුකරගත හැකිවීම
2. පැරණි පොත් ඩිජිටල්කරණීය කිරිමේ වැඩපිලිවෙලට දායකත්වය ලබාදීම

ReCaptcha puzzle නිපදවනුයේ කෙසේද?
ප්‍රධාන වශයෙන් reCaptcha puzzles නිපදවන ආකාර දෙකක් ඇත. එහෙත් ඉන් නිල ක්‍රමය ලෙස පිලිගනු ලබන්නේ මෙම තාක්ෂණය නිර්මාණය කරන ලද Luis von Ahn ඇතුළු මෙලන් විශ්ව විද්‍යාලයේ පර්යේශකයින් හදුන්වා දුන් පිලිවෙලයි. එහිදි ඔවුන් වැඩි වශයෙන් පරිගණක වැඩසටහන් වලට කියවිය නොහැකි වචන ඇතුලත් කරගන්න වග බලාගන්නවා. ඒ අනුව පහත දක්වා ඇති ආකරයට reCaptcha puzzle නිර්මාණය පියවර කිහිපයකින් සිදු වේ.

o වචන දහස් ගණන් ඇති පැරණි පොත්/ සගරා ස්කෑන් කිරීම.
o ORC මුදුකාංග වලට හදුනා ගත නොහැකි වචන වෙන් කර ගැනීම.
o එම වචන වලට අමතර ග්‍රිඩ් රේඛා එකතු කර හැඩය සුලු වශයෙන් විකෘති කිරීම
o එවැනි වචන දෙකක් යොදාගෙන recaptcha puzzle නිර්මාණය කිරීම
o එකී ප්‍රෙහේලිකා පරික්ශාවට යොමු කිරීම.
o පරික්ශණ වලින් අනතුරුව මහජනයාට නිකුත් කිරීම.

මෙහි විශේශත්වය වනුවේ මෙකී ප්‍රෙහෙලිකාවට යොදාගනු ලබන වචන දෙකෙන් පලමු වචනය පරිගණක වැඩසටහන් විසින් කලින් හදුනාගත් වචනයක් වීමයි. ඒ අනුව යම් කෙනෙක් එකී ප්‍රෙහෙලිකාවේ පලමු වචනය නිවැරදිව යතුරුලියනය කලහොත් එකී වචන දෙකම නිවැරදිව සටහන් කලාක් මෙන් සලකුණු ලබනවා. එහෙත් එය නිවැරදි වචනය යැයි තහවුරු කිරීමට එම වචන දෙකම තවත් පුද්ගලයින් කිහිපදෙනෙකුට යොමුකර ඔවුන්ගේ පිළිතුරු සමග සසන්දනය කර වඩාත් ආසන්න සටහන් කිරීම නිවැරදි එක බවට තහවුරු කර ගන්නවා.

reCaptcha Technology හී වර්තමාන යෙදවීම්
reCaptcha තාක්ෂණය හදුන්වාදීමෙන් අනතුරුව 2009 සැප්තැම්බර් මස 19 වන දින සිට Google සමාගම සිය සේවාවන් වලට මෙය සම්බන්ධ කරගනු ලැබුවා. ඒ අනුව Google Books , Google News Archive යන සේවාවන් වලට සක්‍රීය ලෙස මෙය යොදාගෙන ඇති අත එමගින් ඔවුන් 2009 දෙසැම්බර් මස 15වන විට NewYork Times සගරාවේ පැරණි කලාපයන් [ 1851 - 1980 දක්වා ] සියල්ලම පාහේ ඩිජිටල් පිටපත් නිර්මාණය කර ඇත. ඒ සදහා ඔවුන් යොදාගෙන ඇත්තේ මෙකී තාක්ෂණය වේ

Written by Nalin Kariyawasam (Creative Writer, Editor at Xtream Youth) ( Translated in to English by Nishal Pathirana)

For further inquiries on articles please contact our administrators : Ignatious JayathilakaKasun Malith

