SKANNAUS

Aikakauslehden sisällysluettelo skannataan Epson GT 10000+ -skannerilla. OCR-lukuohjelmana on ABBYY-Finereader-ohjelma 5.0 ja käytetty tarkkuus 400 dpi.

OIKOLUKU

Sivulla olevat artikkelit saadaan skannauksessa TXT-muotoon. Ne oikoluetaan ja tallennetaan CSV-muodossa. Sivun kuvista TIFF-muotoinen säilytetään skannaavalla mikrolla arkistokappaleena ja varmuuskopiona, kun taas JPG-muotoinen kuva siirretään palvelimelle katseltavaksi.

RAKENTEISTAMINEN

FineReaderista saatu CSV-tiedosto avataan Exceliin, jossa artikkeliin liitetään mahdollinen huomautuskenttä.

ARTIKKELIN VIENTI TIETOKANTAAN
Tietojen vienti palvelimen MySQL-tietokantaan tapahtuu ohjelmallisesti PHP4:llä tehtyjen ylläpitosivujen kautta. Ohjelma rakentaa linkin sivun kuvan ja sillä olevien artikkelien väliin. Jos käsiteltävänä on projektin alkuvaiheessa skannattu lehti, on tiedostojen nimet ensin muutettava erillisellä PHP4-ohjelmalla.

TIETOKANNAN VIRHEET
Tietokannan ylläpito (esim. taulujen teko uusien lehtien vientiä varten ja virheiden korjaus) tehdään phpMyAdmin-ohjelmalla.

Käytettävistä ohjelmista ovat ABBYY FineReader ja Excel kaupallisia. Muut tässä työssä käytetyt, eli MySQL, Apache, PHP4 ja phpMyAdmin, ovat "open source" -ohjelmina ilmaisia. Toimisto-ohjelmista OpenOffice tarjoaisi ilmeisesti kyllin hyvän CSV-ominaisuuden, joten jatkossa voisi harkita myös Excelistä luopumista.

[sivun alkuun]