SKANNAUSAikakauslehden
sisällysluettelo
skannataan Epson GT 10000+
-skannerilla. OCR-lukuohjelmana on ABBYY-Finereader-ohjelma
5.0 ja käytetty tarkkuus 400 dpi.OIKOLUKU
Sivulla olevat artikkelit saadaan skannauksessa TXT-muotoon.
Ne oikoluetaan ja tallennetaan CSV-muodossa. Sivun kuvista TIFF-muotoinen
säilytetään skannaavalla mikrolla arkistokappaleena ja varmuuskopiona, kun taas JPG-muotoinen
kuva siirretään palvelimelle katseltavaksi.
RAKENTEISTAMINEN
FineReaderista saatu CSV-tiedosto avataan Exceliin, jossa
artikkeliin liitetään mahdollinen huomautuskenttä.
ARTIKKELIN VIENTI TIETOKANTAAN
Tietojen vienti
palvelimen
MySQL-tietokantaan
tapahtuu ohjelmallisesti PHP4:llä tehtyjen ylläpitosivujen kautta. Ohjelma rakentaa
linkin sivun kuvan ja sillä olevien artikkelien väliin. Jos käsiteltävänä on
projektin alkuvaiheessa skannattu lehti, on tiedostojen nimet ensin muutettava
erillisellä PHP4-ohjelmalla.
TIETOKANNAN VIRHEETTietokannan ylläpito (esim. taulujen
teko uusien lehtien vientiä varten ja virheiden korjaus) tehdään
phpMyAdmin-ohjelmalla.
Käytettävistä
ohjelmista ovat ABBYY FineReader ja Excel kaupallisia. Muut tässä työssä käytetyt,
eli MySQL, Apache, PHP4 ja phpMyAdmin, ovat "open source" -ohjelmina ilmaisia.
Toimisto-ohjelmista OpenOffice tarjoaisi ilmeisesti kyllin hyvän CSV-ominaisuuden,
joten jatkossa voisi harkita myös Excelistä luopumista.
[sivun alkuun] |