OCR PDF

Gescande documenten en afbeeldingen converteren naar bewerkbare Word-, Pdf-, Excel- en tekstuitvoerformaten

Hoe de tekst te herkennen?

stap 1
stap 1
Bestand uploaden
Selecteer het bestand dat u wilt converteren vanaf uw computer, Google Drive, Dropbox of sleep het naar de pagina
stap 2
stap 2
Taal en outputformaat selecteren
Selecteer alle talen die in uw document worden gebruikt. Kies ook elk gewenst outputformaat, bijvoorbeeld .doc (meer dan 10 tekstformaten worden ondersteund)
stap 3
stap 3
Converteren en downloaden
Klik op de knop "Herkennen" en download vervolgens uw bestand met de herkende tekst

Verschillende soorten PDF-bestanden

Voordat u uw PDF-tekst doorzoekbaar maakt met OCR, is het essentieel om de verschillende soorten PDF-bestanden te kennen. De drie populaire typen worden hieronder beschreven.

  • Text-Only PDF – Ook bekend als echte PDF of op tekst gebaseerde PDF. Dit bestand wordt gemaakt wanneer u een document opslaat als PDF met behulp van een tekstverwerker of een andere functie/toepassing voor opslaan in PDF.
  • PDF met alleen afbeeldingen – Zoals de naam al doet vermoeden, is afbeelding- gebaseerde bestanden worden gemaakt wanneer ze worden gescand of als afbeelding worden vastgelegd. Voorbeelden zijn bestanden gemaakt door een scanner, foto, screenshot-functie, enz.
  • OCR PDF – Verwijst naar bestanden die doorzoekbaar zijn gemaakt met behulp van optische tekenherkenning (OCR). Het proces leest de documentstructuur en voegt een tekstlaag toe die doorzoekbaar is.

Hoe maak je een PDF doorzoekbaar met OCR

Er zijn verschillende manieren om een ​​PDF doorzoekbaar te maken. U kunt het document als PDF publiceren als u met tekstverwerkers werkt. Als u echter al een bestand heeft dat u doorzoekbaar wilt maken, is een OCR-tool zoals 2PDF uw beste oplossing. Hieronder vindt u de stappen die nodig zijn om een ​​PDF doorzoekbaar te maken met OCR op 2PDF.

  1. Open PDF OCR – OCR werkt op op afbeeldingen gebaseerde bestanden, dus u moet de document of zorg ervoor dat het wordt opgeslagen als een op afbeeldingen gebaseerde PDF. Klik vervolgens op Alle tools in de hoofdnavigatie en selecteer PDF OCR. Hierdoor wordt het programma in een nieuw venster gestart.
  2. PDF uploaden – Er zijn twee manieren om uw bestand op 2PDF te uploaden. U kunt het bestand rechtstreeks naar de OCR slepen en neerzetten of het bestand vanaf uw computer kiezen. Het proces duurt een paar seconden, afhankelijk van de PDF-grootte.
  3. OCR PDF – Om uw PDF te OCR, stelt u de gewenste taal en indeling in voor de uiteindelijke uitvoer en klikt u op de rode Herken knop. Het programma maakt het document doorzoekbaar, waarna u de OCR-pdf kunt downloaden.

Voordelen van het gebruik van 2PDF voor OCR

2PDF is een handig hulpmiddel waarmee u afbeeldingen en gescande documenten kunt converteren naar doorzoekbare en bewerkbare PDF-, Word-, Excel- en andere tekstindelingen. Hieronder staan vijf voordelen van het gebruik van 2PDF voor OCR.

  • Gratis – 2PDF is een gratis tool, dus je kunt je PDF-bestanden gratis OCRen.
  • Instant – De tool biedt online conversies die u altijd en overal kunt realiseren.
  • Snel – 2PDF converteert PDF in enkele seconden naar doorzoekbare OCR-bestanden.
  • Eenvoudig – Het proces is eenvoudig; uploaden, taal opgeven, converteren en downloaden.
  • Handig: u kunt bestanden uploaden vanaf uw computer, telefoon, Dropbox, Google Drive of slepen en neerzetten.

Wat is OCR?

De simpele vraag wat is OCR kan het beste worden beantwoord als u het acroniem uitdrukt. OCR betekent simpelweg optische tekenherkenning, wat verwijst naar een elektronisch mechanisme dat optische tekens herkent en omzet in machinegecodeerde tekst. Een optisch teken kan elk gescand bestand zijn van afgedrukte of handgeschreven documenten, een foto of een screenshot gemaakt met een telefoon of computer snapshots.

Hoe werkt het?

Als u OCR uitvoert op een PDF-bestand, is de eerste stap de voorbewerking, waarbij het document wordt opgeschoond en de tekens van al het andere worden gescheiden. Vervolgens zal het proces elk karakter isoleren en vergelijken met een bibliotheek om te bepalen wat het is. Geavanceerde OCR's gebruiken meer geavanceerde programma's om handgeschreven documenten te verwerken door de tekenstructuur zoals de twee verticale lijnen en een kruisende horizontale lijn in de letter 'H' te vergelijken. De programma's herkennen ook groepen karakters als woorden en vergelijken ze met het volgende woord en de volgende zin.

Gescande documenten digitaliseren

Leren hoe u een PDF OCR kunt maken is essentieel wanneer u gescande bestanden wilt digitaliseren. Als u over de fysieke documenten beschikt, zal het gebruik van scanners van hoge kwaliteit en het vastleggen van afbeeldingen van de beste kwaliteit een grote bijdrage leveren aan een succesvolle OCR-verwerking. Scanners hebben verschillende mogelijkheden, evenals OCR's. Zorg ervoor dat u een betrouwbare tool gebruikt met geavanceerde programma's die alle soorten gescande documenten en snapshots kunnen herkennen.

Hoe maak je een PDF-tekst ondoorzoekbaar

Met OCR voor PDF kunt u een gescand bestand doorzoekbaar en bewerkbaar maken. Er zijn echter momenten waarop u een niet-doorzoekbaar PDF-bestand wilt maken. Het proces converteert de tekstelementen eenvoudig naar een beeldformaat dat standaard zoekhulpmiddelen en -functies niet herkennen. Hieronder staan de twee beste methoden om uw pdf-tekst ondoorzoekbaar te maken.

  • PDF met alleen afbeeldingen – U hebt OCR voor PDF niet nodig om deze methode te gebruiken. Sla het document eenvoudig op als een PDF met alleen afbeeldingen in de processor die u gebruikt.
  • Gebruik 2DPF – 2PDF stelt u in staat OCR uit te voeren wanneer u tekst doorzoekbaar moet maken. De site converteert ook doorzoekbare documenten naar ondoorzoekbare op afbeeldingen gebaseerde PDF's. Selecteer eenvoudig de gewenste conversie in het hoofdmenu, upload uw bestand, converteer en download. Het platform biedt tools voor het converteren, samenvoegen, splitsen, wachtwoordbeveiliging, het ontgrendelen van PDF, enz.

Optische tekenherkenning

"Optical character recognition (OCR) of in het Nederlands: optische tekenherkenning is de elektronische of mechanische conversie van afbeeldingen van getypte, handgeschreven of afgedrukte tekst naar machine-gecodeerde tekst, of het nu gaat om een gescand document, een foto van een document, een scènefoto (bijvoorbeeld de tekst op borden en reclameborden in een landschapsfoto) of uit ondertiteltekst, bovenop een afbeelding (bijvoorbeeld van een televisie-uitzending). Op grote schaal gebruikt als een vorm van data-invoer van afgedrukte papieren datarecords - of het nu gaat om paspoortdocumenten, facturen, bankafschriften, geautomatiseerde ontvangstbewijzen, visitekaartjes, mail, afdrukken van statische gegevens of andere geschikte documentatie – is het een veelgebruikte methode om afgedrukte teksten te digitaliseren, zodat ze elektronisch kunnen worden bewerkt, doorzocht, compacter kunnen worden opgeslagen, online kunnen worden weergegeven en kunnen worden gebruikt in machineprocessen, zoals cognitive computing, machinevertaling, (geëxtraheerde) tekst-naar-spraak, sleuteldata en text mining. OCR is een onderzoeksgebied op het vlak van patroonherkenning, kunstmatige intelligentie en computervisie. Eerdere versies moesten worden getraind met afbeeldingen van elk teken en werkten aan één lettertype tegelijk. Geavanceerde systemen, die in staat zijn om voor de meeste lettertypen een hoge mate van herkenningsnauwkeurigheid te produceren, zijn nu gebruikelijk en worden ondersteund door een verscheidenheid aan digitale beeldbestandsindelingen. Sommige systemen zijn in staat om geformatteerde output te reproduceren, die de originele pagina zeer nauw benadert, inclusief afbeeldingen, kolommen en andere niet-tekstuele componenten. "