Trích xuất văn bản từ tệp PDF và tệp hình ảnh

Có một tài liệu PDF(PDF document) mà bạn muốn trích xuất tất cả văn bản ra khỏi? Còn các tệp hình ảnh của một tài liệu được quét mà bạn muốn chuyển đổi thành văn bản có thể chỉnh sửa thì sao? Đây là một số vấn đề phổ biến nhất mà tôi đã gặp ở nơi làm việc khi làm việc với các tệp.

Trong bài viết này, tôi sẽ nói về một số cách khác nhau mà bạn có thể thực hiện khi cố gắng trích xuất văn bản từ PDF hoặc từ một hình ảnh. Kết quả trích xuất của bạn sẽ khác nhau tùy thuộc vào loại và chất lượng(type and quality) của văn bản trong PDF hoặc hình ảnh(PDF or image) . Ngoài ra, kết quả của bạn sẽ khác nhau tùy thuộc vào công cụ bạn sử dụng, vì vậy tốt nhất hãy thử càng nhiều tùy chọn bên dưới càng tốt để đạt được kết quả tốt nhất.

Trích xuất văn bản từ hình ảnh hoặc PDF

Cách đơn giản và nhanh nhất để bắt đầu là dùng thử dịch vụ trích xuất (extractor service)văn bản PDF(PDF text) trực tuyến . Chúng thường miễn phí và có thể cung cấp cho bạn chính xác những gì bạn đang tìm kiếm mà không cần phải cài đặt bất kỳ thứ gì trên máy tính của bạn. Đây là hai cái mà tôi đã sử dụng với kết quả từ rất tốt đến xuất sắc:

ExtractPDF

extractpdf

ExtractPDF là một công cụ miễn phí để lấy hình ảnh, văn bản và phông chữ(text and fonts) ra khỏi tệp PDF(PDF file) . Hạn chế duy nhất là kích thước tối đa(max size) cho tệp PDF(PDF file) là 10 MB. Đó là một chút nhỏ; vì vậy nếu bạn có tệp lớn hơn, hãy thử một số phương pháp khác bên dưới. Chọn tệp của bạn và sau đó nhấp vào nút Gửi tệp(Send file) . Kết quả thường rất nhanh và bạn sẽ thấy bản xem trước của văn bản khi nhấp vào tab Văn bản(Text tab) .

tải xuống văn bản

Nó cũng là một lợi ích bổ sung tuyệt vời là nó cũng trích xuất hình ảnh ra khỏi tệp PDF(PDF file) , đề phòng trường hợp bạn cần chúng! Nhìn chung, công cụ trực tuyến hoạt động tuyệt vời, nhưng tôi đã gặp phải một vài tài liệu PDF(PDF docs) cho tôi kết quả hài hước. Văn bản được trích xuất tốt, nhưng vì lý do nào đó mà nó sẽ bị ngắt dòng(line break) sau mỗi từ! Không phải là một vấn đề lớn đối với một tệp PDF(PDF file) ngắn , nhưng chắc chắn là một vấn đề đối với các tệp có nhiều văn bản. Nếu điều đó xảy ra với bạn, hãy thử công cụ tiếp theo.

OCR trực tuyến

OCR trực tuyến(Online OCR) thường có xu hướng hoạt động đối với các tài liệu không được chuyển đổi đúng cách với ExtractPDF , vì vậy bạn nên thử cả hai dịch vụ để xem dịch vụ nào cung cấp cho bạn đầu ra tốt hơn. OCR trực tuyến(Online OCR) cũng có một số tính năng đẹp hơn có thể tỏ ra tiện dụng cho bất kỳ ai có tệp PDF(PDF file) lớn chỉ cần chuyển đổi văn bản trên một vài trang chứ không phải toàn bộ tài liệu.

Điều đầu tiên bạn muốn làm là tiếp tục và tạo một tài khoản miễn phí. Nó hơi khó chịu, nhưng nếu bạn không tạo tài khoản miễn phí, nó sẽ chỉ chuyển đổi một phần PDF của bạn chứ không phải toàn bộ tài liệu. Ngoài ra, thay vì chỉ có thể tải lên tài liệu 5 MB(MB document) duy nhất , bạn có thể tải lên tối đa 100 MB cho mỗi tệp bằng tài khoản.

ocr trực tuyến

Đầu tiên, hãy chọn một ngôn ngữ và sau đó chọn loại định dạng đầu ra bạn muốn cho tệp được chuyển đổi. Bạn có một số tùy chọn và bạn có thể chọn nhiều hơn một tùy chọn nếu bạn thích. Trong Tài liệu(Multipage document) nhiều trang , bạn có thể chọn Số trang(Page numbers) rồi chỉ chọn các trang bạn muốn chuyển đổi. Sau đó, bạn chọn tệp và nhấp vào (file and click) Chuyển đổi(Convert) !

tài liệu ocr trực tuyến

Sau khi chuyển đổi, bạn sẽ được đưa đến phần Tài liệu(Documents) (nếu bạn đã đăng nhập), nơi bạn có thể xem bạn còn lại bao nhiêu trang miễn phí có sẵn và các liên kết để tải xuống các tệp đã chuyển đổi của bạn. Có vẻ như bạn chỉ có 25 trang miễn phí mỗi ngày, vì vậy nếu bạn cần nhiều hơn thế, bạn sẽ phải đợi một chút hoặc mua thêm trang.

OCR trực tuyến(Online OCR) đã thực hiện một công việc xuất sắc trong việc chuyển đổi các tệp PDF(PDF) của tôi vì nó có thể duy trì bố cục thực của văn bản. Trong thử nghiệm của mình, tôi đã lấy một tài liệu Word(Word doc) sử dụng dấu đầu dòng, các kích thước phông chữ khác nhau, v.v. và chuyển đổi nó thành PDF . Sau đó, tôi sử dụng OCR Trực tuyến(Online OCR) để chuyển đổi nó trở lại định dạng Word(Word format) và nó giống khoảng 95% so với bản gốc. Điều đó khá ấn tượng đối với tôi.

Ngoài ra, nếu bạn đang muốn chuyển đổi một hình ảnh thành văn bản, thì OCR Trực tuyến(Online OCR) có thể làm điều đó dễ dàng như trích xuất văn bản từ các tệp PDF .

OCR trực tuyến miễn phí

Vì đã nói về OCR từ hình ảnh sang văn bản , hãy để tôi đề cập đến một trang web tốt khác hoạt động rất tốt trên hình ảnh. OCR trực tuyến miễn phí(Free Online OCR) rất tốt và rất chính xác khi trích xuất văn bản từ hình ảnh thử nghiệm của tôi. Tôi đã chụp một vài bức ảnh từ iPhone của mình về các trang từ sách, tờ rơi, v.v. và tôi ngạc nhiên về khả năng chuyển đổi văn bản của nó.

ocr trực tuyến miễn phí

Chọn tệp của bạn và sau đó nhấp vào nút Tải lên(Upload button) . Trên màn hình tiếp theo, có một số tùy chọn và bản xem trước của hình ảnh. Bạn có thể cắt nó nếu bạn không muốn OCR toàn bộ. Sau đó, chỉ cần nhấp vào nút OCR(OCR button) và văn bản đã chuyển đổi của bạn sẽ xuất hiện bên dưới bản xem trước hình ảnh(image preview) . Nó cũng không có bất kỳ giới hạn nào, điều này thực sự tốt.

Ngoài các dịch vụ trực tuyến, có hai trình chuyển đổi PDF phần mềm miễn phí mà tôi muốn đề cập trong trường hợp bạn cần phần mềm chạy cục bộ trên máy tính của mình để thực hiện chuyển đổi. Với các dịch vụ trực tuyến, bạn sẽ luôn cần kết nối Internet(Internet connection) và điều đó có thể không thực hiện được đối với tất cả mọi người. Tuy nhiên, tôi nhận thấy rằng chất lượng chuyển đổi từ các chương trình phần mềm miễn phí kém hơn đáng kể so với chất lượng của các trang web.

A-PDF Text Extractor

A-PDF Text Extractor là phần mềm miễn phí thực hiện khá tốt công việc trích xuất văn bản từ tệp PDF(PDF file) . Sau khi(Once) bạn tải xuống và cài đặt, hãy nhấp vào nút Mở(Open button) để chọn tệp PDF(PDF file) của bạn . Sau đó nhấp vào Trích xuất văn bản(Extract text) để bắt đầu quá trình.

trình giải nén apdf

Nó sẽ hỏi bạn một vị trí để lưu tệp đầu ra văn bản(text output file) và sau đó nó sẽ bắt đầu giải nén. Bạn cũng có thể nhấp vào nút Tùy chọn(Option) , cho phép bạn chỉ chọn một số trang nhất định để trích xuất và loại trích xuất(extraction type) . Tùy chọn thứ hai rất thú vị vì nó trích xuất văn bản theo các bố cục khác nhau và bạn nên thử cả ba để xem tùy chọn nào mang lại cho bạn kết quả tốt nhất.

Thí điểm PDF2Text

PDF2Text Pilot  thực hiện tốt công việc trích xuất văn bản. Nó không có bất kỳ tùy chọn nào; bạn chỉ cần thêm tệp hoặc thư mục, chuyển đổi và hy vọng(convert and hope) điều tốt nhất. Nó hoạt động tốt trên một số tệp PDF(PDFs) , nhưng đối với phần lớn chúng, có rất nhiều vấn đề.

pdf2text

Chỉ cần nhấp vào Thêm tệp(Add Files) và sau đó nhấp vào Chuyển đổi(Convert) . Khi quá trình chuyển đổi hoàn tất, hãy nhấp vào Duyệt(Browse) để mở tệp. Số dặm của bạn sẽ thay đổi khi sử dụng chương trình này, vì vậy đừng mong đợi nhiều.

Ngoài ra, điều đáng nói là nếu bạn đang ở trong môi trường công ty hoặc có thể có được bản sao của Adobe Acrobat từ nơi làm việc, thì bạn thực sự có thể đạt được kết quả tốt hơn nhiều. Acrobat rõ ràng là không miễn phí, nhưng nó có các tùy chọn để chuyển đổi PDF sang Word , Excel và định dạng HTML(Excel and HTML format) . Nó cũng thực hiện tốt nhất công việc duy trì cấu trúc của tài liệu gốc và chuyển đổi văn bản phức tạp.



About the author

Tôi làm cố vấn cho Microsoft. Tôi chuyên phát triển các ứng dụng di động cho các thiết bị Apple và Android, đồng thời cũng tham gia phát triển các ứng dụng Windows 7. Kinh nghiệm của tôi với điện thoại thông minh và Windows 7 khiến tôi trở thành một ứng cử viên lý tưởng cho vị trí này.



Related posts