Mine sisu juurde

Optiline märgituvastus

Allikas: Vikipeedia

Optiline märgituvastus (ka optiline tekstituvastus, inglise keeles optical character recognition ehk OCR) on trükitud või käsitsi kirjutatud teksti teisendamine masinloetavale kujule.

Esmalt salvestatakse tekst pildi kujul skanneri või digikaamera abil arvutisse. Seejärel otsib tekstituvastustarkvara pildilt üles tähemärgid ja teisendab need digitaalsele kujule, näiteks Unicode'i märkideks.

Tähemärkide tuvastamine võib ebaõnnestuda erinevatel põhjustel:

  • pilt on määrdunud või halva kvaliteediga,
  • pilt on viltune ning tekstiread ei ole ühtlasel kõrgusel,
  • kasutatud šrift on liiga keeruline,
  • käekiri on segane.

Tuvastamise täpsust saab parandada piirates võimalikke sõnu. Näiteks esinevad tekstis tõenäolisemalt sõnaraamatusõnad kui tundmatud sõnad.

Optilist märgituvastust kasutav tarkvara

[muuda | muuda lähteteksti]

Välislingid

[muuda | muuda lähteteksti]