OCR PDF

Chuyển đổi tài liệu được quét và hình ảnh vào Editable Word, Pdf, Excel và các định dạng đầu ra văn bản

Làm thế nào để nhận ra văn bản không?

bước 1
bước 1
Cập nhật dử liệu
Chọn tập tin mà bạn muốn chuyển đổi từ máy tính của bạn, Google Drive, Dropbox hoặc kéo và thả nó trên trang
bước 2
bước 2
Chọn ngôn ngữ và định dạng đầu ra
Chọn tất cả các ngôn ngữ được sử dụng trong tài liệu của bạn. Cũng có thể chọn bất kỳ định dạng đầu ra mong muốn, ví dụ, .doc (hơn 10 định dạng văn bản được hỗ trợ)
bước 3
bước 3
Chuyển đổi & Tải về
Nhấp vào nút "Nhận" và sau đó tải về tập tin của bạn với các văn bản công nhận

nhận dạng ký tự quang học

Quang nhận dạng ký tự hay đọc ký tự quang học (OCR) là chuyển đổi điện tử hoặc cơ khí của hình ảnh của gõ, văn bản viết tay hoặc in thành văn bản máy mã hóa, cho dù từ một tài liệu quét, một bức ảnh của một tài liệu, một cảnh-ảnh (ví dụ các văn bản trên dấu hiệu và biển quảng cáo trong một bức ảnh phong cảnh) hoặc từ văn bản phụ đề chồng lên trên một hình ảnh (ví dụ từ một chương trình truyền hình). Sử dụng rộng rãi như một hình thức nhập dữ liệu từ bản ghi dữ liệu giấy in - cho dù tài liệu hộ chiếu, hóa đơn, chứng từ ngân hàng, biên lai máy vi tính, danh thiếp, thư, bản in của tĩnh dữ liệu, hoặc bất kỳ tài liệu phù hợp - đó là một phương pháp phổ biến số hóa in văn bản để họ có thể được chỉnh sửa bằng điện tử, tìm kiếm, lưu trữ gọn hơn, hiển thị trên mạng, và được sử dụng trong máy sẽ xử lý như điện toán nhận thức, máy dịch thuật, (trích) text-to-speech, dữ liệu quan trọng và khai thác văn bản. OCR là một lĩnh vực nghiên cứu trong nhận dạng mẫu, trí tuệ nhân tạo và tầm nhìn máy tính. phiên bản đầu tiên cần phải được đào tạo với hình ảnh của từng nhân vật, và làm việc trên một phông chữ cùng một lúc. hệ thống nâng cao khả năng sản xuất một mức độ chính xác cao công nhận đối với hầu hết các phông chữ hiện nay là phổ biến, và với sự hỗ trợ cho một loạt các định dạng tập tin hình ảnh kỹ thuật số đầu vào. Một số hệ thống có khả năng tái tạo đầu ra định dạng mà xấp xỉ chặt chẽ trang gốc bao gồm hình ảnh, cột, và các thành phần không phải là văn bản khác.