Optical Character Recognition (OCR)

Konvertieren von gescannten Dokumenten und Bildern in bearbeitbare Word, PDF, Excel und Textausgabeformate

Wie Text zu erkennen?

Schritt 1
Schritt 1
Datei hochladen
Wählen Sie Datei, die Sie konvertieren möchten, von Ihrem Computer, Google Drive, Dropbox oder per Drag & Drop auf der Seite
Schritt 2
Schritt 2
Wählen Sie die Sprache und das Ausgabeformat
Wählen Sie alle Sprachen in Ihrem Dokument verwendet. auch wählen, ein beliebiges gewünschtes Ausgabeformat, beispielsweise .doc (mehr als 10 Textformate unterstützt)
Schritt 3
Schritt 3
Convert & Herunterladen
Klicken Sie auf die Schaltfläche „Erkennen“ und dann laden Sie Ihre Datei mit dem erkannten Text

Verschiedene Arten von PDF-Dateien

Bevor Sie beginnen, Ihren PDF-Text mit OCR durchsuchbar zu machen, ist es wichtig, die verschiedenen Arten von PDF-Dateien zu kennen. Die drei gängigen Typen werden im Folgenden beschrieben.

  • Text-Only PDF – Auch als echtes PDF oder textbasiertes PDF bekannt. Diese Datei wird erstellt, wenn Sie ein Dokument mit einem Textverarbeitungsprogramm oder einer beliebigen PDF-Funktion/Anwendung als PDF speichern.
  • Nur-Bild-PDF – Wie der Name schon sagt, Bild- basierte Dateien werden erstellt, wenn sie gescannt oder als Bild erfasst werden. Beispiele hierfür sind von einem Scanner aufgenommene Dateien, Fotos, Screenshot-Funktionen usw.
  • OCR PDF – Bezieht sich auf Dateien, die mit optischer Zeichenerkennung (OCR) durchsuchbar gemacht wurden. Der Prozess liest die Dokumentstruktur und fügt eine durchsuchbare Textebene hinzu.

So machen Sie ein PDF mit OCR durchsuchbar

Es gibt verschiedene Möglichkeiten, ein PDF durchsuchbar zu machen. Sie können das Dokument als PDF veröffentlichen, wenn Sie mit Textverarbeitungsprogrammen arbeiten. Wenn Sie jedoch bereits eine Datei haben, die Sie durchsuchbar machen möchten, ist ein OCR-Tool wie 2PDF die beste Lösung. Im Folgenden sind die Schritte aufgeführt, die erforderlich sind, um ein PDF erfolgreich mit OCR auf 2PDF durchsuchbar zu machen.

  1. PDF OCR öffnen – OCR funktioniert bei bildbasierten Dateien, daher sollten Sie die Dokument oder stellen Sie sicher, dass es als bildbasiertes PDF gespeichert wird. Klicken Sie anschließend in der Hauptnavigation auf Alle Tools und wählen Sie PDF OCR. Dadurch wird das Programm in einem neuen Fenster gestartet.
  2. PDF hochladen – Es gibt zwei Möglichkeiten, Ihre Datei auf 2PDF hochzuladen. Sie können die Datei direkt auf die OCR ziehen und dort ablegen oder die Datei von Ihrem Computer auswählen. Der Vorgang dauert je nach PDF-Größe einige Sekunden.
  3. OCR PDF – Um Ihr PDF mit OCR zu versehen, stellen Sie die gewünschte Sprache und das gewünschte Format für die endgültige Ausgabe ein und klicken Sie auf rote Erkennungstaste. Das Programm macht das Dokument durchsuchbar, wonach Sie das OCR-PDF herunterladen können.

Vorteile der Verwendung von 2PDF für OCR

2PDF ist ein praktisches Tool, mit dem Sie Bilder und gescannte Dokumente in durchsuchbare und bearbeitbare PDF-, Word-, Excel- und andere Textformate konvertieren können. Nachfolgend sind fünf Vorteile der Verwendung von 2PDF für OCR aufgeführt.

  • Kostenlos – 2PDF ist ein kostenloses Tool, sodass Sie Ihre PDF-Dateien kostenlos mit OCR bearbeiten können.
  • Sofort – Das Tool bietet Online-Konvertierungen, die Sie jederzeit und überall erreichen können.
  • Schnell – 2PDF konvertiert PDF in Sekundenschnelle in durchsuchbare OCR-Dateien.
  • Einfach – Der Prozess ist einfach; hochladen, Sprache angeben, konvertieren und herunterladen.
  • Praktisch – Sie können Dateien von Ihrem Computer, Telefon, Dropbox, Google Drive oder per Drag & Drop hochladen.

Was ist OCR?

Die einfache Frage, was ist OCR? lässt sich am besten beantworten, wenn Sie das Akronym ausdrücken. OCR bedeutet einfach optische Zeichenerkennung, was sich auf einen elektronischen Mechanismus bezieht, der optische Zeichen erkennt und sie in maschinencodierten Text umwandelt. Ein optisches Zeichen kann jede gescannte Datei gedruckter oder handgeschriebener Dokumente, ein Foto oder ein Screenshot sein, der mit einem Telefon oder Computer-Schnappschüssen aufgenommen wurde.

Wie funktioniert es?

Wenn Sie bei einer PDF-Datei OCR ausführen, ist der erste Schritt die Vorverarbeitung, die das Dokument bereinigt und die Zeichen von allem anderen trennt. Als nächstes isoliert der Prozess jedes Zeichen und vergleicht es mit einer Bibliothek, um zu bestimmen, was es ist. Fortgeschrittene OCRs verwenden ausgefeiltere Programme, um handschriftliche Dokumente zu verarbeiten, indem sie die Zeichenstruktur wie die beiden vertikalen Linien und eine sich kreuzende horizontale Linie im Buchstaben „H“ vergleichen. Die Programme erkennen auch Zeichengruppen als Wörter und vergleichen sie mit dem nächsten Wort und Satz.

Digitalisierung gescannter Dokumente

Wenn Sie gescannte Dateien digitalisieren möchten, ist es wichtig, zu lernen, wie Sie eine PDF-Datei mit OCR bearbeiten. Wenn Sie über die physischen Dokumente verfügen, können Sie mit hochwertigen Scannern und der Aufnahme von Bildern in bester Qualität eine erfolgreiche OCR-Verarbeitung sicherstellen. Scanner haben unterschiedliche Fähigkeiten, ebenso wie OCRs. Stellen Sie sicher, dass Sie ein zuverlässiges Tool mit fortschrittlichen Programmen verwenden, das alle Arten von gescannten Dokumenten und Schnappschüssen erkennen kann.

So machen Sie einen PDF-Text nicht durchsuchbar

Mit OCR für PDF können Sie eine gescannte Datei durchsuchbar und bearbeitbar machen. Manchmal möchten Sie jedoch eine nicht durchsuchbare PDF-Datei erstellen. Der Prozess wandelt die Textelemente einfach in ein Nur-Bild-Format um, das von Standardsuchwerkzeugen und -funktionen nicht erkannt wird. Im Folgenden finden Sie die zwei besten Methoden, um Ihren PDF-Text nicht durchsuchbar zu machen.

  • Nur-Bild-PDF – Sie benötigen keine OCR für PDF diese Methode zu verwenden. Speichern Sie das Dokument einfach als reines Bild-PDF in dem von Ihnen verwendeten Prozessor.
  • Verwenden Sie 2DPF – Mit 2PDF können Sie OCR ausführen, wenn Sie einen Text durchsuchbar machen müssen. Die Site konvertiert auch durchsuchbare Dokumente in nicht durchsuchbare bildbasierte PDFs. Wählen Sie einfach die gewünschte Konvertierung im oberen Menü aus, laden Sie Ihre Datei hoch, konvertieren Sie sie und laden Sie sie herunter. Die Plattform bietet Tools zum Konvertieren, Zusammenführen, Aufteilen, Passwortschutz, Entsperren von PDF usw.

Optische Zeichenerkennung

Optische Zeichenerkennung oder der optischen Zeichenleser (OCR) ist die elektronische oder mechanische Umwandlung von Bildern von typisierten, handgeschrieben oder gedruckten Text in maschinencodierten Text, ob von einem gescannten Dokument, ein Foto eines Dokuments, eine Szene-Foto (zB der Text auf Schildern und Plakaten in einer Landschaft Foto) oder von Untertiteltext auf einem Bild überlagert (beispielsweise von einer Fernsehsendung). Weit verbreitet als eine Form von bedrucktem Papier Datensätze der Dateneingabe verwendet - ob Passdokumenten, Rechnungen, Kontoauszüge, computerisiert Quittungen, Visitenkarten, E-Mail, Ausdrucke von statisch-Daten oder jeder geeigneten Dokumentation - es ist eine gängige Methode gedruckt Digitalisierungs Texte, so dass sie elektronisch bearbeitet werden, durchsucht, kompakter gespeichert, online angezeigt und in Maschine verarbeitet wie kognitiver Computing, maschinelle Übersetzung, (extrahiert) Text-to-Speech, Schlüsseldaten und Text-Mining verwendet. OCR ist ein Bereich der Forschung in der Mustererkennung, künstliche Intelligenz und Computer Vision. Frühe Versionen benötigt, um mit Bildern von jedem Zeichen ausgebildet werden, und arbeiteten an einer Schrift auf einmal. Erweiterte Systeme, die einen hohen Grad an Erkennungsgenauigkeit für die meisten Schriften Herstellung sind jetzt gemeinsam und mit Unterstützung für eine Vielzahl von digitalen Bilddateiformat-Eingänge. Einige Systeme sind in der Lage eine formatierte Ausgabe reproduzieren, die eng an die ursprüngliche Seite mit Bildern nähert, Spalten und andere Nicht-Text-Komponenten.