Gondoltuk volna, hogy azzal hogy használjuk az internetet, chatelünk, vásárolunk, emailezünk, tudtunkon kívül segítünk régi angol nyelvű könyvek és újságok digitalizálásában? Pedig így van, mi magunk digitalizáljuk például a New York Times-t.
Több mint 40 ezer weboldal - köztük olyan népszerű oldalak is, mint a Facebook és a Ticketmaster - a reCAPTCHA biztonsági rendszert használják. Ez a CAPTCHA nevű program kistestvére (amelyben különböző karaktereket: számok és betűk kombinációját kell felismerni és begépelni a regisztrációhoz, így bizonyítva, hogy az illető élő ember és nem egy gép, ami csakspammelni akar) Luis von Ahn Pittsburgh-i kutató egyik találmánya. "Minden alkalommal, amikor egy CAPTCHA-val védett oldalra lépünk be, az agyunk valami olyan csodálatos dolgot csinál, amit ötven hosszú év tudományos fejlesztés ellenére sem tudnak a számítógépek megtenni. A probléma csak az, hogy értékes időt fecsérlünk el a számok és betűk silabizálásával. Naponta 200 millióan használják ez a szolgáltatást, egy kód begépelése körülbelül tíz másodpercet vesz igénybe, ha ezt összevetjük a felhasználók számával, naponta 500 ezer órát fecsérelünk el ezzel az apró tevékenységgel."
De von Ahn új találmányával, a reCAPTCHA-val közel kerültünk az emberi agy végtelen tudásának kiaknázásához. A kutató célja az volt, hogy ne feleslegesen gépeljük be a szavakat, hanem ezzel valami hasznosat is tegyünk. Ekkor jutott eszébe a régi könyvek digitalizálásának hatalmas feladata. A könyvek digitalizálásakor gyakorlatilag egy fénykép készül a könyv adott lapjáról, ezután egy szoftver segítségével konvertálódik a szöveg a számítógépre. Ám a régi könyvek esetében sokszor probléma, hogy egyes karaktereket nem ismernek fel a szoftverek, így nagy hibaszázalékkal dolgoznak. Ennek kiküszöbölésére eddig minden oldalt egy embernek is ellenőriznie kellett. Von Ahnnak ekkor jutott eszébe az a forradalmi megoldás, hogy ahelyett, hogy a megszokott CAPTCHA-val arra kérné az embereket, hogy ismerjenek fel karaktereket és számokat, inkább régi könyvekből vett különleges karaktereket tartalmazó szavakat kell felismerniük és leírniuk. "Így két legyet ütünk egy csapásra" - mondta a kutató és rögtön össze is állt a New York Times-szal, amely 1851-ig visszamenően digitalizálja lapszámait, valamint az Internet Archive nonprofit szervezettel, amelynek munkájáról már korábban mi is beszámoltunk. Mostanra létre is jött a megállapodás, valahányszor jegyet veszünk vagy regisztrálunk a Facebookra, mi is segítjük ezeknek a könyveknek a digitalizálását, azzal, hogy értelmezzük a régi karaktereket. "Őrületesen nagy számú szó lett már eddig ezzel a módszerrel digitalizálva, körülbelül 1.3 milliárd" - mondta von Ahn. Ennyi szóval mintegy 17 600 könyvet lehet megtölteni majdnem 99 százalékos pontossággal, köszönhetően annak, hogy mindegyiket ember ellenőrizte.
Egyelőre csak angol nyelvű szavakat kell digitalizálnunk, de természetesen eljön majd annak is az ideje, hogy más nyelvű régi könyvek is sorra kerülnek.