3 công cụ OCR trực tuyến tốt nhất để trích xuất văn bản từ hình ảnh

Việc chép lại văn bản từ hình ảnh có thể là một nỗi đau thực sự. Khi văn bản được trình bày dưới dạng hình ảnh hoặc một số định dạng không thể lựa chọn khác, trường học và cơ quan(school and work) trở nên khó khăn. Giải pháp duy nhất là đặt đôi mắt và ngón tay đó hoạt động và bắt đầu gõ nó — hay là nó?

Nhận dạng ký tự(Character Recognition) tối ưu , hoặc OCR , là quá trình chuyển đổi văn bản được đánh máy hoặc viết tay từ các phương tiện như tài liệu hoặc ảnh được quét thành văn bản thuần túy.

Mặc dù nó có thể bị nhầm lẫn, tùy thuộc vào độ rõ ràng của văn bản, sử dụng OCR để trích xuất văn bản từ hình ảnh có thể giúp bạn tiết kiệm hàng giờ làm việc đơn điệu. Một trường hợp sử dụng(use case) của OCR sẽ dành cho nếu bạn là sinh viên đại học(college student) cần một trang cụ thể trong sách giáo khoa. Nếu một người bạn gửi cho bạn ảnh của trang, bạn có thể sử dụng OCR để trích xuất tất cả văn bản từ ảnh để dễ dàng đọc và sao chép nó.

Trong bài viết này, chúng ta hãy khám phá ba trong số các công cụ OCR trực tuyến tốt nhất để trích xuất văn bản từ hình ảnh, không công cụ nào yêu cầu tải xuống bất kỳ phần mềm hoặc plugin OCR nào.(OCR software)

OnlineOCR

OnlineOCR là một trong những cách đơn giản và nhanh nhất để chuyển đổi hình ảnh hoặc tệp PDF(image or PDF file) thành nhiều định dạng văn bản khác nhau.

Nếu không có tài khoản, OnlineOCR.net sẽ cho phép bạn chuyển đổi tối đa 15 tệp thành văn bản mỗi giờ. Đăng ký tài khoản cung cấp cho bạn quyền truy cập vào các tính năng như chuyển đổi tài liệu PDF nhiều trang và hơn thế nữa.

OnlineOCR.net hỗ trợ chuyển đổi từ các định dạng PDF(PDF) , JPG , BMP , TIFFGIF , xuất chúng dưới dạng DOCX , XLSX hoặc TXT .

OnlineOCR.net có thể nhận dạng văn bản bằng tiếng Anh(English) , tiếng Afrikaans(Afrikaans) , tiếng Albanian(Albanian) , tiếng Basque , tiếng Brazil(Brazilian) , tiếng Bungari(Bulgarian) , tiếng Catalan(Catalan) , tiếng Trung(Chinese) , tiếng Croatia(Croatian) , tiếng Séc(Czech) , tiếng Đan Mạch(Danish) , tiếng Hà Lan(Dutch) , tiếng Esperanto(Esperanto) , tiếng Estonia(Estonian) , tiếng Phần Lan(Finnish) , tiếng Pháp(French) , tiếng Galicia(Galician) , tiếng Đức(German) , tiếng Hy Lạp(Greek) , tiếng Hungary(Hungarian) , tiếng Iceland(Icelandic) , tiếng Indonesia(Indonesian) , Ý(Italian), Tiếng Nhật(Japanese) , tiếng Hàn(Korean) , tiếng Latinh(Latin) , tiếng Latvia(Latvian) , tiếng Litva(Lithuanian) , tiếng Macedonian(Macedonian) , tiếng Malay(Malay) , tiếng Moldavia(Moldavian) , tiếng Na Uy(Norwegian) , tiếng Ba Lan(Polish) , tiếng Bồ Đào Nha(Portuguese) , tiếng Romania(Romanian) , tiếng Nga(Russian) , tiếng Serbia(Serbian) , tiếng Slovak(Slovak) , tiếng Slovenia(Slovenian) , tiếng Tây Ban Nha(Spanish) , tiếng Thụy Điển(Swedish) , tiếng Tagalog(Tagalog) , tiếng Thổ Nhĩ Kỳ(Turkish) và tiếng Ukraina.

Quá trình chuyển đổi(conversion process) yêu cầu ba bước đơn giản. Bạn tải lên một tệp, có giới hạn ở 15 MB, chọn ngôn ngữ và định dạng đầu ra(language and output format) của bạn và nhấp vào nút Chuyển đổi(Convert) .

Bất kể định dạng đầu ra(output format) bạn chọn là gì, bản xem trước văn bản thuần túy của chuyển đổi sẽ xuất hiện trong trường bên dưới liên kết để tải xuống tệp ở định dạng bạn đã chọn. Điều này giúp ngăn người dùng lãng phí tải xuống khi trích xuất có thể không chính xác.

NewOCR

NewOCR hiện chỉ cung cấp tính năng trích xuất văn bản từ các tệp hình ảnh, nhưng nó hỗ trợ một vài tính năng thú vị khác mà nhiều nhà cung cấp OCR trực tuyến không có.

Để bắt đầu sử dụng NewOCR , chỉ cần nhấp vào nút Chọn tệp(Choose File) , chọn hình ảnh bạn muốn trích xuất văn bản, sau đó nhấp vào nút Xem trước(Preview) màu xanh lam . Thao tác này sau đó sẽ hiển thị bản xem trước hình ảnh của bạn và đưa ra một số tùy chọn bổ sung.

Không giống như hầu hết các trình chuyển đổi hình ảnh thành văn bản trực tuyến khác, NewOCR thực sự sẽ cho phép bạn đặt nhiều ngôn ngữ nhận dạng. Điều này có thể khá hữu ích nếu bạn không chắc văn bản trong hình ảnh được viết bằng ngôn ngữ nào, nhưng bạn có một suy đoán tốt và mong muốn nhận được bản dịch phù hợp từ văn bản thuần túy(plain text) của nó .

Nếu hình ảnh của bạn bị lệch sang một bên, bạn cũng có thể tự động xoay hình ảnh đó. Khi bạn đã áp dụng các tùy chọn cần thiết, bạn có thể nhấp vào nút OCR màu xanh lam để trích xuất văn bản của hình ảnh.

Từ đây, bạn có thể tải xuống văn bản đã trích xuất ở định dạng TXT , DOC hoặc PDF(PDF format) hoặc gửi thẳng đến Google Dịch hoặc Google Tài liệu(Google Translate or Google Docs) để chỉnh sửa thêm.

OCR.space

Cuối cùng nhưng không kém phần quan trọng, OCR.space chắc chắn là một trong những tùy chọn mạnh mẽ nhất mà chúng tôi đã tìm thấy và nó sẽ giúp bạn áp dụng cho bất kỳ thao tác chuyển hình ảnh thành văn bản nào.

OCR.space là một trong những công cụ OCR tốt nhất hỗ trợ định dạng tệp WEBP(WEBP file) . Ngoài ra, PNG , JPGPDF cũng được hỗ trợ. Ngoài ra, bạn không cần phải tải lên một tệp — bạn có thể liên kết từ xa đến nó nếu nó có sẵn ở đâu đó trực tuyến.

Các tính năng thích hợp khác bao gồm tự động xoay(auto-rotation) , quét biên nhận(receipt scanning) , nhận dạng bảng(table recognition)tự động điều chỉnh tỷ lệ(auto-scaling) . OCR .space là một trong những công cụ OCR trực tuyến duy nhất hỗ trợ xuất tệp dưới dạng PDF có thể tìm kiếm(searchable PDFs) được (với văn bản hiển thị hoặc ẩn) và bạn thậm chí có thể chọn giữa một trong hai công cụ OCR(OCR engines) khác nhau để trích xuất tốt nhất có thể.

Tất cả những gì bạn phải làm là tải lên hoặc liên kết một tệp, nhấp vào Start OCR!và sau đó bản xem trước kết quả của bạn sẽ tự động tải trên cùng một trang. Nếu bạn đã chọn đầu ra của mình dưới dạng PDF(PDF) có thể tìm kiếm , các nút Tải xuống(Download)Hiển thị Lớp phủ(Show Overlay) cũng sẽ khả dụng.

Một trong những tính năng thú vị và độc đáo nhất của OCR.space là nó có thể xuất bản trích xuất của bạn dưới dạng JSON(JSON) . JSON này sẽ có các trường bao gồm mỗi từ trong văn bản và tọa độ của chúng trên chính hình ảnh. Đây là một tính năng rất được đánh giá cao nếu bạn là một lập trình viên đang cố gắng trích xuất văn bản từ hình ảnh theo chương trình.

Với ba công cụ web ở trên, việc trích xuất văn bản từ bất kỳ hình ảnh nào rõ ràng và dễ đọc sẽ là một phần nhỏ. Ngay cả khi bạn là người đánh máy nhanh với nhiều màn hình, bạn không cần phải tự mình chép lại các hình ảnh văn bản. OCR được tạo ra là có lý do và những trang web này giúp bạn sử dụng nó tốt nhất!

Nếu bạn có bất kỳ mẹo nào khác về các công cụ hoặc dịch vụ OCR tốt nhất mà bạn muốn chia sẻ hoặc bạn muốn được trợ giúp về việc sử dụng một trong những cách trên, vui lòng gửi tin nhắn cho chúng tôi trong phần nhận xét bên dưới.



About the author

Tôi làm cố vấn cho Microsoft. Tôi chuyên phát triển các ứng dụng di động cho các thiết bị Apple và Android, đồng thời cũng tham gia phát triển các ứng dụng Windows 7. Kinh nghiệm của tôi với điện thoại thông minh và Windows 7 khiến tôi trở thành một ứng cử viên lý tưởng cho vị trí này.



Related posts