Kiến thức về nhận dạng ký tự quang học (OCR)
OCR là gì?
Nhận dạng ký tự quang học, thường viết tắt là OCR, là dịch cơ khí hoặc điện tử của các hình ảnh được quét của văn bản viết tay, typewritten hoặc in thành văn bản máy mã hóa.
Tại sao sử dụng OCR?
OCR rộng rãi được sử dụng để chuyển đổi các loại khác nhau của tài liệu, chẳng hạn như tài liệu được quét giấy, tập tin PDF hoặc hình ảnh bị bắt bởi một máy ảnh kỹ thuật số vào dữ liệu có thể chỉnh sửa và có thể tìm kiếm. Trong một số môi trường chuyên nghiệp (chẳng hạn như thư viện, văn phòng), hàng nghìn sách và tài liệu được quét thường xuyên cho sao lưu và lưu trữ. Một máy quét chỉ mất bức ảnh của bản gốc tài liệu giấy, dẫn đến hình ảnh dựa trên tài liệu được quét ở định dạng PDF. Vấn đề lớn với chế biến và lưu trữ các khối tin lớn như vậy được quét tài liệu là không có khả năng tìm kiếm một cụm từ cụ thể hoặc tên bên trong một tập tin. Cũng không có văn bản có thể được đánh dấu, sao chép, hoặc sửa đổi, bởi vì các tài liệu có chứa một tập tin hình ảnh lớn như trái ngược với ký tự văn bản cá nhân.
Trước khi thực hiện OCR, toàn bộ diện tích trong trang lựa chọn và đánh dấu và không có văn bản có thể được tìm kiếm và chỉnh sửa.
Sau khi thực hiện OCR, văn bản trên trang có thể được lựa chọn với lựa chọn công cụ, bạn có thể tìm và chỉnh sửa các ký tự, từ, và đoạn văn bản một cách dễ dàng.
Làm thế nào để Wondershare PDF OCR công cụ giúp bạn?
Wondershare PDF OCR công cụ có thể giúp bạn nhận ra văn bản từ PDF được quét nhanh và chính xác và duy trì các kết quả được công nhận trong nhiều định dạng có thể chỉnh sửa.
Wondershare PDF Editor Pro for Mac: với xuất sắc OCR chính xác và định dạng bảo quản, cho phép bạn tìm kiếm, chỉnh sửa và sao chép văn bản trong một PDF được quét hoặc dựa trên hình ảnh trực tiếp trên máy Mac Nó cũng cho phép bạn xuất khẩu được quét PDF để định dạng văn bản dựa trên Word, Excel, PowerPoint, EPUB, HTML và văn bản định dạng.
Wondershare PDF Converter Pro: nhận ra văn bản từ PDF được quét với xuất sắc OCR chính xác và có thể chuyển đổi file PDF được quét nhiều căn cứ văn bản Word, Excel, PowerPoint, EPUB, HTML và văn bản tài liệu trên Windows.
Wondershare PDF Converter Pro for Mac: nhận ra văn bản từ PDF được quét với xuất sắc OCR chính xác và có thể chuyển đổi file PDF được quét nhiều căn cứ văn bản Word, Excel, PowerPoint, EPUB, HTML và văn bản tài liệu trên máy Mac
Làm thế nào để cải thiện OCR công nhận chất lượng?
OCR công nhận chất lượng phụ thuộc phần lớn vào chất lượng của hình ảnh, mà rất nhiều phụ thuộc vào các thiết lập được sử dụng trong tài liệu quá trình quét. Để có được tốt hơn OCR công nhận chất lượng cho các tài liệu được quét của bạn, dưới đây là một số mẹo để tài liệu quét:Chữ quá nhỏ
Cho kết quả tối ưu công nhận, quét tài liệu in trong các phông chữ rất nhỏ ở độ phân giải cao.
Bạn có thể xác định độ phân giải mong muốn trong tài sản độ phân giải của các đối tượng ScanSourceSettings .
Hình ảnh nguồn | Độ phân giải được đề nghị |
---|---|
300 dpi cho văn bản điển hình (in trong các phông chữ của kích thước 10 pt hoặc lớn hơn) | |
400-600 dpi cho văn bản được in trong các phông chữ nhỏ hơn (9pt hoặc nhỏ hơn) |
Điều chỉnh độ sáng
Bạn có thể cần phải điều chỉnh các thiết lập độ sáng khi quét trong chế độ đen trắng. Bạn có thể xác định độ sáng mong muốn trong tài sản độ sáng của các đối tượng ScanSourceSettings . Một giá trị trung bình khoảng 50% nên đủ trong hầu hết trường hợp.
Nếu hình ảnh kết quả có chứa quá nhiều "rách" hoặc "khó khăn" chữ cái với nhau, khắc phục sự cố bằng cách sử dụng bảng dưới đây.
Hình ảnh của bạn trông như thế này | Khuyến nghị |
---|---|
Hình ảnh này là phù hợp để được công nhận | |
nhân vật được "rách" hoặc rất nhẹ |
|
nhân vật được rất méo, bị mắc kẹt với nhau, hoặc điền |
|
Chất lượng in
Người nghèo chất lượng tài liệu với "tiếng ồn" (tức là ngẫu nhiên các dấu chấm màu đen hoặc speckles), chữ cái mờ và không đồng đều, hoặc sai lệch đường và đường viền shifted bảng có thể yêu cầu cài đặt quét cụ thể. Cho ví dụ, fax và tờ báo này:
Tài liệu người nghèo chất lượng tốt nhất được quét trong màu xám. Khi quét trong màu xám, chương trình sẽ chọn giá trị tối ưu độ sáng tự động.
Chế độ màu xám vẫn giữ biết thêm thông tin về các ký tự trong văn bản được quét để đạt được kết quả công nhận tốt hơn khi công nhận tài liệu của các phương tiện để chất lượng kém.
Bài viết liên quan
Câu hỏi liên quan đến sản phẩm? Nói chuyện trực tiếp với nhóm hỗ trợ của chúng tôi >>