Optikai karakterfelismerés (OCR). Optikai karakterfelismerő programok: ABBYY FineReader, CuneiForm

Tartalom

OCR alkalmazási területek
A szöveg pontosságának meghatározása
Optikai technológia Braille-íráshoz
A szövegfelismerő programok kiválasztása
Népszerű szoftver mobil eszközökhöz
Google Dokumentumok
Abbyy Optikai Felismerés
Adobe Acrobat Cloud Service
A legjobb ingyenes szoftver
Karakterfelismerés Linuxban

Az OCR (Optical Character Recognition) technológia felhasználható egy dokumentum nyomtatott példányának elektronikus változattá történő átalakítására. Például, ha egy többoldalas másolatot beolvasnak egy TIFF fájlba, akkor betöltődik egy OCR programba, amely felismeri a szöveget, majd lefordítja egy szerkeszthető fájlba. Egyes alkalmazások lehetővé teszik az oldalak beolvasását és a tartalom dokumentummá konvertálását egy lépésben.

Bár a technológiát eredetileg a nyomtatott karakterek optikai felismerésére fejlesztették ki, kézzel is használható. Például a postai szolgáltatások, például az USPS OCR szoftvert használnak automatikus levelek és csomagok feldolgozása a cím elolvasásával.

OCR alkalmazási területek

Az OCR az optikai karakterfelismerést jelenti. Ez egy széles körben elterjedt technológia a képek belsejében lévő szöveg felismerésére beolvasott dokumentumok és fényképek formájában. A technológiát szinte bármilyen típusú, írott, kézzel írt vagy nyomtatott szöveget tartalmazó kép géppel olvasható szöveges adatokká konvertálására használják.

Az OCR az 1990-es évek elején vált népszerűvé, amikor megpróbálta digitalizálni a történelmi anyagokat. Azóta a módszer jelentős fejlesztéseken ment keresztül, jelenleg az optikai karakterfelismerés szinte tökéletes pontosságát biztosítja. Olyan fejlett technikákat alkalmaznak, mint a zónás OCR automatizálni komplex munkafolyamatok, amelyek a gépelt szövegek digitális dokumentumokká történő átalakításán alapulnak. A beolvasott anyag feldolgozása után a szöveg szerkeszthető olyan programok segítségével, mint a Microsoft Word vagy a Google Docs, amelyek szövegszerkesztők.

A technológia megjelenése előtt a nyomtatott dokumentumok digitalizálásának egyetlen lehetősége a kézi gépelés volt. Ez nem csak sok időt vett igénybe, hanem pontatlanságokhoz és hibákhoz is vezetett a másolat reprodukálásakor. Az OCR-t gyakran "rejtett" technológiaként használják számos jól ismert rendszerben és szolgáltatásban, beleértve az adatbevitel automatizálását és az keresőmotorok, rendszámtáblák automatikus optikai felismerése, valamint vakok és gyengénlátók segítése.

A szöveg pontosságának meghatározása

Az OCR folyamat minden lépése fontos a végleges szöveg pontosságának meghatározásához. A nyomtatott dokumentum konvertálásával kezdődik. Ha nyomok, foltok és gyenge kontraszt van rajta, a szoftver hibákat követ el a felismerés során, és az eredmény helytelen lesz. E problémák elkerülése érdekében jobb fénymásolatot készíthet a nyomtatásról.

A munka első lépése a nyomtatott szöveg beolvasása. Az OCR szoftver képfájlokkal működik. A szkenner vagy egy jó digitális fényképezőgép tiszta fénymásolatokat készít a dokumentumokról. Jobb a beolvasott fájlokat fekete-fehér formátumban konvertálni. A folyamat bináris. A kép fekete színének segítségével az OCR szövegfelismerés történik, a fehér pedig háttérként működik.

A második szakasz a szimbólumok meghatározása. Ennek a folyamatnak a sebessége az alkalmazott OCR programtól függ. Legtöbbjük elemzi az egyes elemeket egyenként. Az alkalmazás célja a jelek azonosítása, de a jó programok nemcsak a szöveget, hanem a táblázatokat és egyéb elrendezési elemeket is felismerik.

A folyamat nem tökéletes, ahogy vannak számos tényező befolyásolja a pontosságot. Mely programokat tervezték az optikai karakterfelismeréshez, fontolja meg az alábbiakban. A felhasználó pedig önállóan választhatja ki, mi a jobb. Az OCR-ek beépített helyesírás-ellenőrző eszközökkel rendelkeznek, és kiemelik a hibásan írt szavakat. Néhányuk annyira összetett, hogy észreveszik a szavak és a nyelvtani hibák eltérését, a felhasználónak csak a szükséges javítást kell elvégeznie.

Az utolsó lépés a kész dokumentum mentése a kívánt formátumban. Ha az alkalmazás nem biztosítja a szükséges, akkor számos ingyenes konvektorot használhat online.

Optikai technológia Braille-íráshoz

Az optikai karakterfelismerő (OCR) technológia lehetővé teszi a vakok és látássérültek számára a szöveg azonosítását és hangos kiejtését. Ebben az esetben beszédkimenetet használnak, valamint az információk megjelennek a Braille-kijelzőn.

Az optikai karakterfelismerő rendszereknek három fő eleme van: képfelvétel, felismerés és szövegolvasás. Először a kinyomtatott dokumentumot rögzíti a kamera, majd az OCR szoftver elismert karakterekké és szavakká alakítja, majd ezt követően a rendszerben lévő szintetizátor hangosan kiejt bizonyos anyagokat, vagy megjeleníti azt a Braille-kijelzőn. Az információk elektronikus formátumban tárolhatók azon az eszközön, amelyen az OCR szoftver fut, vagy egy autonóm eszköz memóriájában.

A folyamat figyelembe veszi a nyelv logikai felépítését. A rendszer arra a következtetésre jut, hogy például a mondat elején található "ez" kötőszó hiba, amelyet "ez" - ként kell értelmezni. Lexikont használ, és a sok szövegszerkesztőben alkalmazott helyesírás-ellenőrzési technikákat alkalmazza.

Minden OCR rendszer ideiglenes fájlokat hoz létre, amelyek szimbólumokat és oldalelrendezést tartalmaznak. Egyes rendszerekben olyan formátumokká alakíthatók, amelyek széles körben használt számítógépes alkalmazások, például szövegszerkesztő, táblázatkezelő és adatbázisok segítségével találhatók meg.

A szövegfelismerő programok kiválasztása

Javasoljuk, hogy tudatosan közelítsen kiválasztás szövegfelismerő szoftver. Jobb, ha saját tesztelést végez, vagy figyelembe veszi a fejlett felhasználók véleményét.

, a vizsgálatot a következő tényezők figyelembevételével végzik:

A pontosság különbözteti meg a jó OCR-t a rossztól. Ennek ellenére irreális 100% - os pontosságot várni egy kézírás-felismerő alkalmazástól. Olyan tényezők, mint a minőség az eredeti dokumentumok a kép felbontása jelentősen befolyásolja a végeredményt. A jó OCR eléri a 98% - ot, ha modern szkennert és forrásokat használ kielégítő állapotban.
Többnyelvűség-ma a legtöbb program rendelkezik ezzel a tulajdonsággal. Az OCR egyetlen karaktert vizsgál, annak meghatározása. Ha csak az angol betűk felismerésére tervezték, akkor nem lesz képes pontosan értelmezni a speciális karaktereket, például a betűket, amelyek hangsúlyt fektetnek "e". Az ilyen szoftverek ezeket a karaktereket képviselik a legközelebbi megfelelővel Angolul. A többnyelvűséget támogató alkalmazás használatakor adja meg a dokumentum nyelvét az elismerés pontosságának biztosítása érdekében.
Kézírás támogatás. A billentyűzet segítségével létrehozott szöveget bármely program könnyen felismeri. A kézírás azonban teljesen más szkennelési módszer. Az emberek nagyon különböző kézírással rendelkeznek. Néhányan óvatosan írnak, miközben mint a legtöbb a kézírás nem elég olvasható. A kiváló minőségű OCR bármilyen kézírást képes felismerni. Ezért a kézzel írt anyagok archiválásához kézzel írt szövegekre lesz szükség.
Automatizálási szint. Az OCR automatikusan vagy interaktívan indítható. Ha egyszerre több oldalt kell beolvasnia, akkor jobb, ha figyelembe veszi az automatikus programokat. Ezzel a funkcióval néhány kattintással beolvashatja a dokumentumokat más feladatok elvégzése közben, és könnyen megtalálhatja az eredményül kapott PDF, txt vagy doc fájlt. A legtöbb szabad szövegfelismerő program korlátozott automatizálással rendelkezik.
Az elrendezés mentése. Ezeknek a programoknak a fő célja a szöveg elektronikus formában történő lefordítása. Egyesek nem mentik az eredeti dokumentum elrendezését. Ezért hosszú időbe telik a végleges verzió szerkesztése. Egy jó programnak meg kell őriznie az eredeti elrendezést, majd a végső példányban kisebb szerkesztésre lesz szükség. Az ilyen alkalmazások megtartják az oszlopokat, táblázatokat és grafikus képeket, mint az eredeti változatban.

Népszerű szoftver mobil eszközökhöz

Az OCR kiválóan alkalmas arra, hogy a szöveget fizikai forrásokból közvetlenül digitális dokumentumba továbbítsa. Különböző típusú programok és alkalmazások léteznek asztali géphez és mobil eszközök. Ezek különböznek az árban, és saját kulcsfontosságú jellemzőik vannak.

A legnépszerűbb "Android"-Szkennerek:

Office Lens-ingyenes oldal szkennelést és OCR-t biztosít az Android felhasználók számára. Az átalakításhoz internetkapcsolat szükséges.
ABBYY TextGrabber, CamScanner, MDScan, OCR azonnal) - végezze el a szkennelést, majd az OCR-t. A szoftverben nincsenek korlátozások a beolvasott oldalak számára, és nincsenek vízjelek.
Online OCR. Megtalálható az interneten, a szolgáltatás nagyon egyszerű és könnyen használható. . A megkülönböztető tulajdonság az, hogy 46 nyelvet támogat, a kimeneti dokumentum súlya legfeljebb 5 MB, könnyen konvertálható Microsoft Word, Excel vagy egyszerű szöveges formátumba. A regisztráció után többoldalas PDF, RTF, Excel és akár 100 MB méretű fájlok konvertálhatók. Van egy fizetett változat a nagy mennyiségű elismeréshez.

Google Dokumentumok

Azok számára, akik már ismerik a Google Dokumentumokat, használhatja a Google Drive-ba épített OCR-t. A legjobb eredmény elérése érdekében a betűtípust Arial vagy Times New Roman értékre kell állítani. Javíthatja az eredményt, ha gondoskodik arról, hogy a beolvasott kép egyenletes megvilágítással és tiszta kontraszttal rendelkezzen. A fotóanyagok külön-külön feldolgozhatók fájlokban: jpg, png, gif vagy többoldalas PDF dokumentumokban. A kiterjesztés a legtöbb nyelvet támogatja.

A Google-Tól sok van oktatóanyagok és felhő feldolgozási képességek. Sok felhasználó úgy véli, hogy a szolgáltatás nem rendelkezik elegendő fejlett funkcióval és opcióval. Ha azonban a Google Drive alkalmazást használja Androidra, az oldalakat közvetlenül az alkalmazásból szkennelheti az okostelefon kamerájával. Ellenkező esetben dokumentumokat töltenek fel a számítógéphez csatlakoztatott szkenner segítségével, vagy bármilyen más módon a felismerés feldolgozásának megkezdéséhez a Google Drive-ban. Magánszemélyek számára a Google Drive körülbelül 19 GB-os ingyenes tárhelyet kínál, amely 100 GB-ra bővíthető a Google One-on keresztül 1, 99 dollárért. USA.

Abbyy Optikai Felismerés

Az Abbyy FineReader optikai felismerés már régóta dolgozik a dokumentumokkal. Ez egy teljes megoldás mind az üzleti, mind a hétköznapi felhasználók számára. Ebben megkaphatja az összes szükséges funkciót, hogy a szövegek tartalmát a szkennerből teljes olvashatósággal, szépen szervezett digitalizált anyagokkal kivonja. A szövegfelismerés és a PDF, A Microsoft Office vagy más formátumok konvertálása mellett a program összehasonlíthatja őket, megjegyzéseket és megjegyzéseket is hozzáadhat.

Az Abbyy FineReader képes kötegelt módban konvertálni az anyagokat, és több kimeneti formátumot feldolgozni 192 különböző nyelven. Vannak kísérő mobilalkalmazások, amikor gyors beolvasást kell végrehajtania a telefonjáról.

A szoftver nem a legmodernebb, de egyszerű, funkcionális és tökéletesen végzi a munkáját. A segédprogram erős hírnévnek örvend, mint az optikai karakterfelismerés egyik legjobb lehetősége. Használhatja az ingyenes próbaverzió. A szoftver ára 199,99 USD. US$ egy szabványos egyszeri örökös licencért.

Ha valaki ezt drága lehetőségnek találja, használhat egy jó alternatívát az ABBYY FineReader - hez-az online verzióhoz. Ez csak arra a tényre korlátozódik, hogy lehetővé teszi, hogy havonta csak 10 oldalt szkenneljen. De a prémium verzió összes többi funkciójával együtt jár. A hozzáféréshez regisztráció szükséges. Sok bemeneti fájlformátumot támogat, és kiválaszthatja a kimenetet, például PDF, Word, Excel, PowerPoint és e-Pub.

Adobe Acrobat Cloud Service

Az Adobe Acrobat megfelel az összes követelménynek, és lenyűgöző funkciókat és opciókat kínál, bár az ár kissé meredekebb, mint a verseny. Az összes optikai szövegfelismerési funkcióhoz válassza az Adobe Acrobat Pro verzióját. A DC a "Document Cloud" rövidítése, és egyértelműen integrálódik az Adobe felhőmegoldásával, ha bármilyen számítógépről hozzáférnie kell fájljaihoz. Van egy egyszerű és zökkenőmentes integráció az összes többi Adobe szolgáltatással, például a Photoshoppal.

Ha a felhasználó úgy dönt, hogy fizet az Adobe Acrobat DC Pro verziójáért, megkapja az összes szövegfelismerő eszközt, a megjegyzéseket és véleményeket a tartalomhoz, a táblázatok szkennelésére szolgáló speciális szolgáltatást, a két dokumentum gyors összehasonlítását. Az anyagok közvetlenül a képernyőn szerkeszthetők néhány másodperccel a beolvasás után.

Az Adobe jelvény bizonyos szintű minőséget garantál, és a felhasználókat lenyűgözi az Adobe Acrobat DC intuitivitása és képességei. A szolgáltatás előfizetése 12,99 USD-tól kezdődik. USA.

A legjobb ingyenes szoftver

A Free OCR to Word a legjobb ingyenes szoftver az optikai karakterfelismeréshez a legújabb mechanizmusok segítségével. A Tesseract a leghatékonyabb eszköz az ilyen típusú szoftverekhez, és az egyik legpontosabb módszer. A program támogatja a több képformátumok és TIFF több oldalt. Ez a szolgáltatás teljesen ingyenesen használható a szöveg kivonására a mellékelt fotóanyagból.

A Tesseract motort eredetileg a Hewlett Packard Labs fejlesztette ki 1985-1994-ben. Néhány változtatás történt benne 1996-ban. 1995-ben bekerült az első három elismerési mechanizmusba. Úgy működik, a Windows, Linux és Mac OS X. A FreeOCR több oszlopos és többnyelvű szöveggel képes feldolgozni a képeket. Kezeli a PDF formátumokat, támogatja a TWAIN eszközöket, például a szkennereket, széles körben elterjedt felülettel rendelkezik egy dupla ablakkal, amelynek beállításai könnyen érthetők.

A Word ingyenes OCR-je sok időt takaríthat meg anélkül, hogy újra meg kellene adnia egy már megírt munkát. A program egy dokumentumot, beolvasott objektumot vagy képet készít, és olvasható, szerkeszthető és pontos anyaggá alakítja. A Szoftver ingyenesen letölthető a Word-be. Az OCR A Word-re optimalizált a munka minden típusú szkennerrel, amelynek pontossága 98%, egy modern felület, amely megkönnyíti az összes feladat elérését, vannak forgatási funkciók abban az esetben, ha a fénykép nem illeszkedik megfelelően a képernyőre. A szoftver nagy pontossággal és minőségben kivonja a szöveget a rögzített képekből okostelefonok vagy digitális fényképezőgépek segítségével.

Karakterfelismerés Linuxban

Az OCRFeeder suite felhasználóbarát Linux GUI-t biztosít, amely alapvetően egy külső felület néhány képhez, OCR-hez és szöveges eszközökhöz, például nyomtatáshoz vagy helyesírás-ellenőrzéshez. Önmagában nem olvas karaktereket, hanem más OCR alkalmazásokat használ az úgynevezett "felismerő motor" beállításokon keresztül. Előre meghatározott paraméterekkel rendelkezik a Tesseract, CuneiForm, GOCR és Ocrad számára.

A felhasználónak csak egy vagy több választott motort kell telepítenie az Ubuntuban, majd észlelnie kell őket az adagoló beállításaiban. Hozzáadhat más motorokat és megváltoztathatja ezek a paraméterek kézi. Egy alkalmazásban több különböző motor is lehet. A fő adagoló ablak lehetővé teszi, hogy menet közben kiválassza, melyiket használja egy adott területhez, alapértelmezés szerint van egy beállítás is. Az olvasott szöveg nyelvének kiválasztásához Tesseract és CuneiForm esetén hozzá kell adnia egy "-l "kapcsolót a megfelelő nyelv / szkript kóddal, például" - l pol "lengyel vagy"-L dan-frak " dán nyelven a motor beállításaihoz

Optikai karakterfelismerő technológia nyomtatott karakterekhez "Tesseract" az elején csak az angol nyelvű szöveget ismerte fel, változat 2.x tette többnyelvű. Szükség esetén több szótárt is telepíthet. Az új verziók digitalizálják a szöveget az ISO 963-2 alapján.

A sikeres telepítés után használja a parancsot "tesseract>kép elérési útja>a kimeneti fájl alapneve". A Tesseract automatikusan adja meg a kimenetet a kiterjesztés dokumentálása ".txt", megadhatja az opciót "-l", ezt követi a nyelvi kód. A Tesseract harmadik verziónál korábbi verzióinál nagyon fontos, hogy a kép a címkeérték fájlformátumában legyen, kiterjesztéssel ".tif", és nem ".tiff". A parancssornak így kell kinéznie:"$ tesseract ~ / bemenet.tif kimenet".

Ahol "bemenet.tif" - a konvertálandó dokumentum a home mappában található, és "kimenet" - az az anyag, amelyet a Tesseract létrehoz "kimenet.txt". A beolvasott szövegeket gyakran bitképként tárolják egy nagy PDF dokumentumban. Az ImageMagick használatával az egyes oldalak kibonthatók TIFF fájlokként a Tesseract segítségével történő feldolgozáshoz. A következő parancsfájl segíthet a folyamat automatizálásában.

A CuneiForm program egy másik optikai szövegfelismerő rendszer, amelyet eredetileg nyílt forráskódú kognitív technológiákon fejlesztettek ki. A Windows egy verziója, hogy saját grafikus felület lehet futtatni néhány eredményt bor. Linux portját a Launchpadon fejlesztik, és bár jelenleg nincs saját GUI-ja, a CuneiForm sikeresen elindítható az OCRFeeder pdfocr-i bemeneti GUI-ból.

Az alábbiakban bemutatunk egy példát arra, hogyan lehet sikeresen átalakítani a képek néhány képernyőképét .webp hirdetőtáblák az Interneten hasznos szöveges fájlokká.

A Pdfocr egy olyan szkript, amely OCR-t hajt végre a többoldalas PDF fájlokhoz, és kereshető szövegrétegként is végrehajtja. Tudja használni "Tesseract" vagy cuneiform mint elismerési mechanizmus. Maga a szkript beszerezhető a Github-ból vagy a PPA-ból. A parancs futtatásához írja be a terminálba: ".pdf-o kimenet.pdf".

Az OCR technológia a jövőben nem áll meg az intelligens optikai karakterfelismerő rendszer - ICR-felismerése. Ez a szabvány fejlett. Az ICR nagy részének van egy neurális hálózatnak nevezett öntanuló rendszere, amely automatikusan frissíti az adatbázist az új kézírásmintákhoz. Kiterjeszti a szkennelő eszközök hasznosságát dokumentumfeldolgozási célokra a nyomtatott szövegfelismeréstől (OCR funkció) a kézzel írt anyagokig, és több mint 97% - os pontosságot érhet el a kézzel írt anyagok strukturált formában történő olvasása során.