Mengenal Lebih Jauh CAPTCHA dan reCAPTCHA

reCAPTCHA adalah sebuah layanan CAPTCHA gratis yang membantu proses digitalisasi buku, koran dan siaran radio pada masa lalu. CAPTCHA sendiri adalah sebuah program yang bisa menentukan apakah seseorang itu sebuah komputer atau manusia (biasanya berupa gambar dari sebuah kata yang dibuat terdistorsi).

CAPTCHA biasanya digunakan untuk menghindari serangan bot dan spam pada suatu website . Karena sampai saat ini belum ada program komputer yang dapat membaca kata2 yang terdistorsi sebaik manusia.

Sekitar 200 juta CAPTCHA dapat dipecahkan oleh manusia setiap harinya . Rata-rata manusia membutuhkan waktu sekitar 10 detik untuk dapat memecahkan kata yang terdapat dalam CAPTCHA.

Sebenarnya itu termasuk waktu yang cukup singkat, namun jika dikalikan dengan jumlah CAPTCHA yang dipecahkan setiap harinya, maka setara dengan 150.000 jam kerja setiap harinya. Agar jam kerja tersebut tidak terbuang dengan sia-sia maka di buatlah sistem CAPTCHA yang bernama reCAPTCHA.

Lantas apa bedanya CAPTCHA dan reCAPTCHA ?

Bedanya hanya terletak pada sumber kata-katanya saja. Jika CAPTCHA menggunakan kata-kata secara random (acak), maka reCAPTCHA menggunakan kata-kata yang berasal dari proyek digitalisasi buku. Jadi secara tidak langsung dengan menggunakan reCAPTCHA kita telah membantu proyek digitalisasi buku di dunia ini.

Sampai sekarang reCAPTCHA telah membantu proses digitalisasi versi lama New York Times serta buku-buku dari Google Books.

00 recaptcha versi lama
Contoh reCaptcha (old school)

Terus bagaimana cara kerja reCAPTCHA ?

Pada awalnya buku-buku di scan secara terlebih dahulu. Setelah itu dirubah menjadi teks menggunakan Optical Character Recognition (OCR). Proses perubahan diperlukan untuk mengubah buku yang berformat image menjadi text sehingga ukurannya bakal lebih ringan dan juga lebih mudah dibaca tentunya.

OCR sendiri merupakan software yang tidak sempurna karena tidak mampu mengenali semua karakter dengan baik. Disinilah tugas reCAPTCHA untuk dapat membantunya. reCAPTCHA membantu proses digitalisasi buku dengan mengirimkan kata-kata yang tidak dapat dikenali komputer, ke suatu website dalam bentuk CAPTCHA.

Hal ini dimungkinkan karena hampir semua program OCR dapat membedakan apakah suatu kata dapat terbaca dengan baik atau tidak.

Terus bagaimana komputer tahu bahwa kata yang kita masukan adalah kata sebenarnya ?

Begini, setiap kata yang tidak dapat dibaca dengan baik oleh program OCR akan, digabungkan dengan suatu kata yang telah diketahui kebenarannya. Pengguna kemudian diharuskan untuk menjawab keduanya.

Jika mereka dapat memecahkan kata yang telah diketahui kebenarannya maka, sistem akan menganggap benar jawaban untuk kata lainnya. Itulah alasan mengapa reCAPTCHA terdiri dari dua buah kata.

Tahukah Anda bahwa recaptcha cuma membutuhkan input SATU KATA saja, sedangkan kata lainnya cuma dummy?  ;-)

Update 24 Desember 2020

00 recaptcha versi baru
reCaptcha challenge versi terbaru

Artikel ini hanya untuk dokumentasi, karena terus reCaptcha berkembang seiring di temukannya berbagai teknik yang lebih efisien dan ampuh untuk menghalau serangan bot. Bahkan kita tidak perlu lagi meng-input kata-kata, karena saat ini sudah ada “no captcha recaptcha”.

Comments

No comments yet. Why don’t you start the discussion?

Leave a Reply

Your email address will not be published. Required fields are marked *