Blog
Tylko po co?
Krzysztof Leski
Krzysztof Leski b.mgr inż.historii, b.dziennikarz mediów wszelkich, od dawna bezrobotny
213 obserwujących 3086 notek 6003419 odsłon
Krzysztof Leski, 16 listopada 2009 r.

Ratujmy bibułę! - OCR

Istnieją trzy główne typy źródeł do dziejów opozycji w PRL. Są archiwa IPN (gdzieś tu lokuje się też prasa oficjalna). Są świadkowie (uwaga - odchodzą!). Jest bibuła - gnije w archiwach domowych i marnuje się w Bibliotece Narodowej (dostępna tylko osobiście), chroniona... prawem autorskim. Już o tym pisałem, jeszcze napiszę. Dziś o wątku technicznym, który jest niemal równie trudny jak prawny - o skanowaniu. Robi to powoli Biblioteka Narodowa, ale nie zeskanuje wszystkiego, a skanowanie to tylko początek.

Co to jest skanowanie? Wybaczcie łopatologię. Ten post to efekt lektury postu pani Teresy Bochwic. Muszę tylko kupić skaner, napisała. Hélas! To nie wszystko. Skaner to poniekąd aparat fotograficzny do zbliżeń. Zrobi tylko obrazki! Można je w miarę łatwo przechowywać w komupterze, można je wczytać do edytora tekstu, wrzucić na stronę internetową, otworzyć w przeglądarce. Ale nie można ich przeszukać, by znaleźć np. frazę "Jan Józef Lipski". Dla edytora tekstu literki na obrazku są równie obojętne, jak wizerunek paprotki, nawet gdy układają się w wiele nam mówiące nazwisko.

Co to jest OCR? To następny, niezbędny etap, by obrazek przekształcić w tekst dający się przeszukiwać. Etap niestety znacznie droższy. Skaner, który przyzwoicie zrobi swoje, da się kupić za 150-250 zł. Są, owszem, darmowe nawet pogramy do OCR. Z tekstem po polsku poradzą sobie bezbłędnie, jeśli jest to świeży wydruk wprost z worda, najlepiej pogrubionym Arialem co najmniej 12-punktowym. A przecież nie o to chodzi.

Nieliczne tytuły podziemne były pod koniec lat 80. składane komputerowo; przeszkodą może być jakość skanowanego egzemplarza. Tygodnik Mazowsze od początku powstawał na tzw. składopisie, co daje podobny graficznie efekt. Cała reszta to maszyny do pisania, o najróżniejszych, często zużytych czcionkach. Znane mi najdroższe amatorskie programy OCR nie poradzą sobie bez znacznej inwestycji czasu człowieka, by je najpierw nauczyć rozpoznawać daną czcionkę, a potem poprawić i tak niewątpliwie liczne błędy.

Wielu ma w archiwach domowych notatki odręczne. Nie wspomnę, jak trudno je "zoceerować". Oczywiście to możliwe - pytanie, za ile. Mam nadzieję, że pod tym postem zgromadzimy wskazówki, jak i gdzie szukać software'u, który nada się do tych prostszych - i tych bardziej "przemysłowych" zastosowań.

 

Skomentuj Obserwuj notkę Napisz notkę Zgłoś nadużycie

Tematy w dziale