Optiline märgituvastus
Ilme
Optiline märgituvastus (ka optiline tekstituvastus, inglise keeles optical character recognition ehk OCR) on trükitud või käsitsi kirjutatud teksti teisendamine masinloetavale kujule.
Esmalt salvestatakse tekst pildi kujul skanneri või digikaamera abil arvutisse. Seejärel otsib tekstituvastustarkvara pildilt üles tähemärgid ja teisendab need digitaalsele kujule, näiteks Unicode'i märkideks.
Tähemärkide tuvastamine võib ebaõnnestuda erinevatel põhjustel:
- pilt on määrdunud või halva kvaliteediga,
- pilt on viltune ning tekstiread ei ole ühtlasel kõrgusel,
- kasutatud šrift on liiga keeruline,
- käekiri on segane.
Tuvastamise täpsust saab parandada piirates võimalikke sõnu. Näiteks esinevad tekstis tõenäolisemalt sõnaraamatusõnad kui tundmatud sõnad.
Optilist märgituvastust kasutav tarkvara
[muuda | muuda lähteteksti]- Adobe Acrobat Professional (Windows, Mac OS)
- BIT-Alpha (Windows)
- ExactScan Pro (Mac OS)
- FineReader (Unix, Windows)
- OCRKit (Mac OS)
- Readiris (Unix, Windows, Mac OS)
- Scansoft Omnipage (Windows)
Välislingid
[muuda | muuda lähteteksti]Pildid, videod ja helifailid Commonsis: Optiline märgituvastus |