Trích xuất văn bản từ tệp PDF và tệp hình ảnh
Có một tài liệu PDF(PDF document) mà bạn muốn trích xuất tất cả văn bản ra khỏi? Còn các tệp hình ảnh của một tài liệu được quét mà bạn muốn chuyển đổi thành văn bản có thể chỉnh sửa thì sao? Đây là một số vấn đề phổ biến nhất mà tôi đã gặp ở nơi làm việc khi làm việc với các tệp.
Trong bài viết này, tôi sẽ nói về một số cách khác nhau mà bạn có thể thực hiện khi cố gắng trích xuất văn bản từ PDF hoặc từ một hình ảnh. Kết quả trích xuất của bạn sẽ khác nhau tùy thuộc vào loại và chất lượng(type and quality) của văn bản trong PDF hoặc hình ảnh(PDF or image) . Ngoài ra, kết quả của bạn sẽ khác nhau tùy thuộc vào công cụ bạn sử dụng, vì vậy tốt nhất hãy thử càng nhiều tùy chọn bên dưới càng tốt để đạt được kết quả tốt nhất.
Trích xuất văn bản từ hình ảnh hoặc PDF
Cách đơn giản và nhanh nhất để bắt đầu là dùng thử dịch vụ trích xuất (extractor service)văn bản PDF(PDF text) trực tuyến . Chúng thường miễn phí và có thể cung cấp cho bạn chính xác những gì bạn đang tìm kiếm mà không cần phải cài đặt bất kỳ thứ gì trên máy tính của bạn. Đây là hai cái mà tôi đã sử dụng với kết quả từ rất tốt đến xuất sắc:
ExtractPDF
ExtractPDF là một công cụ miễn phí để lấy hình ảnh, văn bản và phông chữ(text and fonts) ra khỏi tệp PDF(PDF file) . Hạn chế duy nhất là kích thước tối đa(max size) cho tệp PDF(PDF file) là 10 MB. Đó là một chút nhỏ; vì vậy nếu bạn có tệp lớn hơn, hãy thử một số phương pháp khác bên dưới. Chọn tệp của bạn và sau đó nhấp vào nút Gửi tệp(Send file) . Kết quả thường rất nhanh và bạn sẽ thấy bản xem trước của văn bản khi nhấp vào tab Văn bản(Text tab) .
Nó cũng là một lợi ích bổ sung tuyệt vời là nó cũng trích xuất hình ảnh ra khỏi tệp PDF(PDF file) , đề phòng trường hợp bạn cần chúng! Nhìn chung, công cụ trực tuyến hoạt động tuyệt vời, nhưng tôi đã gặp phải một vài tài liệu PDF(PDF docs) cho tôi kết quả hài hước. Văn bản được trích xuất tốt, nhưng vì lý do nào đó mà nó sẽ bị ngắt dòng(line break) sau mỗi từ! Không phải là một vấn đề lớn đối với một tệp PDF(PDF file) ngắn , nhưng chắc chắn là một vấn đề đối với các tệp có nhiều văn bản. Nếu điều đó xảy ra với bạn, hãy thử công cụ tiếp theo.
OCR trực tuyến
OCR trực tuyến(Online OCR) thường có xu hướng hoạt động đối với các tài liệu không được chuyển đổi đúng cách với ExtractPDF , vì vậy bạn nên thử cả hai dịch vụ để xem dịch vụ nào cung cấp cho bạn đầu ra tốt hơn. OCR trực tuyến(Online OCR) cũng có một số tính năng đẹp hơn có thể tỏ ra tiện dụng cho bất kỳ ai có tệp PDF(PDF file) lớn chỉ cần chuyển đổi văn bản trên một vài trang chứ không phải toàn bộ tài liệu.
Điều đầu tiên bạn muốn làm là tiếp tục và tạo một tài khoản miễn phí. Nó hơi khó chịu, nhưng nếu bạn không tạo tài khoản miễn phí, nó sẽ chỉ chuyển đổi một phần PDF của bạn chứ không phải toàn bộ tài liệu. Ngoài ra, thay vì chỉ có thể tải lên tài liệu 5 MB(MB document) duy nhất , bạn có thể tải lên tối đa 100 MB cho mỗi tệp bằng tài khoản.
Đầu tiên, hãy chọn một ngôn ngữ và sau đó chọn loại định dạng đầu ra bạn muốn cho tệp được chuyển đổi. Bạn có một số tùy chọn và bạn có thể chọn nhiều hơn một tùy chọn nếu bạn thích. Trong Tài liệu(Multipage document) nhiều trang , bạn có thể chọn Số trang(Page numbers) rồi chỉ chọn các trang bạn muốn chuyển đổi. Sau đó, bạn chọn tệp và nhấp vào (file and click) Chuyển đổi(Convert) !
Sau khi chuyển đổi, bạn sẽ được đưa đến phần Tài liệu(Documents) (nếu bạn đã đăng nhập), nơi bạn có thể xem bạn còn lại bao nhiêu trang miễn phí có sẵn và các liên kết để tải xuống các tệp đã chuyển đổi của bạn. Có vẻ như bạn chỉ có 25 trang miễn phí mỗi ngày, vì vậy nếu bạn cần nhiều hơn thế, bạn sẽ phải đợi một chút hoặc mua thêm trang.
OCR trực tuyến(Online OCR) đã thực hiện một công việc xuất sắc trong việc chuyển đổi các tệp PDF(PDF) của tôi vì nó có thể duy trì bố cục thực của văn bản. Trong thử nghiệm của mình, tôi đã lấy một tài liệu Word(Word doc) sử dụng dấu đầu dòng, các kích thước phông chữ khác nhau, v.v. và chuyển đổi nó thành PDF . Sau đó, tôi sử dụng OCR Trực tuyến(Online OCR) để chuyển đổi nó trở lại định dạng Word(Word format) và nó giống khoảng 95% so với bản gốc. Điều đó khá ấn tượng đối với tôi.
Ngoài ra, nếu bạn đang muốn chuyển đổi một hình ảnh thành văn bản, thì OCR Trực tuyến(Online OCR) có thể làm điều đó dễ dàng như trích xuất văn bản từ các tệp PDF .
OCR trực tuyến miễn phí
Vì đã nói về OCR từ hình ảnh sang văn bản , hãy để tôi đề cập đến một trang web tốt khác hoạt động rất tốt trên hình ảnh. OCR trực tuyến miễn phí(Free Online OCR) rất tốt và rất chính xác khi trích xuất văn bản từ hình ảnh thử nghiệm của tôi. Tôi đã chụp một vài bức ảnh từ iPhone của mình về các trang từ sách, tờ rơi, v.v. và tôi ngạc nhiên về khả năng chuyển đổi văn bản của nó.
Chọn tệp của bạn và sau đó nhấp vào nút Tải lên(Upload button) . Trên màn hình tiếp theo, có một số tùy chọn và bản xem trước của hình ảnh. Bạn có thể cắt nó nếu bạn không muốn OCR toàn bộ. Sau đó, chỉ cần nhấp vào nút OCR(OCR button) và văn bản đã chuyển đổi của bạn sẽ xuất hiện bên dưới bản xem trước hình ảnh(image preview) . Nó cũng không có bất kỳ giới hạn nào, điều này thực sự tốt.
Ngoài các dịch vụ trực tuyến, có hai trình chuyển đổi PDF phần mềm miễn phí mà tôi muốn đề cập trong trường hợp bạn cần phần mềm chạy cục bộ trên máy tính của mình để thực hiện chuyển đổi. Với các dịch vụ trực tuyến, bạn sẽ luôn cần kết nối Internet(Internet connection) và điều đó có thể không thực hiện được đối với tất cả mọi người. Tuy nhiên, tôi nhận thấy rằng chất lượng chuyển đổi từ các chương trình phần mềm miễn phí kém hơn đáng kể so với chất lượng của các trang web.
A-PDF Text Extractor
A-PDF Text Extractor là phần mềm miễn phí thực hiện khá tốt công việc trích xuất văn bản từ tệp PDF(PDF file) . Sau khi(Once) bạn tải xuống và cài đặt, hãy nhấp vào nút Mở(Open button) để chọn tệp PDF(PDF file) của bạn . Sau đó nhấp vào Trích xuất văn bản(Extract text) để bắt đầu quá trình.
Nó sẽ hỏi bạn một vị trí để lưu tệp đầu ra văn bản(text output file) và sau đó nó sẽ bắt đầu giải nén. Bạn cũng có thể nhấp vào nút Tùy chọn(Option) , cho phép bạn chỉ chọn một số trang nhất định để trích xuất và loại trích xuất(extraction type) . Tùy chọn thứ hai rất thú vị vì nó trích xuất văn bản theo các bố cục khác nhau và bạn nên thử cả ba để xem tùy chọn nào mang lại cho bạn kết quả tốt nhất.
Thí điểm PDF2Text
PDF2Text Pilot thực hiện tốt công việc trích xuất văn bản. Nó không có bất kỳ tùy chọn nào; bạn chỉ cần thêm tệp hoặc thư mục, chuyển đổi và hy vọng(convert and hope) điều tốt nhất. Nó hoạt động tốt trên một số tệp PDF(PDFs) , nhưng đối với phần lớn chúng, có rất nhiều vấn đề.
Chỉ cần nhấp vào Thêm tệp(Add Files) và sau đó nhấp vào Chuyển đổi(Convert) . Khi quá trình chuyển đổi hoàn tất, hãy nhấp vào Duyệt(Browse) để mở tệp. Số dặm của bạn sẽ thay đổi khi sử dụng chương trình này, vì vậy đừng mong đợi nhiều.
Ngoài ra, điều đáng nói là nếu bạn đang ở trong môi trường công ty hoặc có thể có được bản sao của Adobe Acrobat từ nơi làm việc, thì bạn thực sự có thể đạt được kết quả tốt hơn nhiều. Acrobat rõ ràng là không miễn phí, nhưng nó có các tùy chọn để chuyển đổi PDF sang Word , Excel và định dạng HTML(Excel and HTML format) . Nó cũng thực hiện tốt nhất công việc duy trì cấu trúc của tài liệu gốc và chuyển đổi văn bản phức tạp.
Related posts
Cách kết hợp hoặc hợp nhất nhiều tệp văn bản
Trình xem PDF thay thế miễn phí tốt nhất cho Adobe Reader
Chuyển đổi PC Windows thành Máy ảo bằng Hyper-V
Cách thay đổi màu biểu tượng thư mục trong Windows
Công cụ chống phân mảnh miễn phí tốt nhất cho Windows là chính nó
Tự động chụp ảnh chụp màn hình ở các khoảng thời gian xác định trong Windows
Cách xóa Password khỏi PDF với Free Software or Online Tool
Cách chân Text and Image lên Clipboard History trong Windows 10
Ánh xạ một thư mục với một ký tự Drive trong Windows
Các tài nguyên tốt nhất về âm nhạc miễn phí tiền bản quyền để sử dụng cho các video trên YouTube
7 ứng dụng tốt nhất để mở tệp JAR trên Windows
Best Free PDF Editor Online Tools dựa trên đám mây
Chuyển đổi Thư mục Windows sang Danh sách HTML
Sao chép tệp lớn qua mạng nhanh hơn với TeraCopy
Trình quản lý khay nhớ tạm miễn phí tốt nhất dành cho Windows
5 ứng dụng VR không phải là trò chơi
Tách hoặc chia màn hình nền của bạn thành nhiều phần
Trình dọn dẹp sổ đăng ký Windows miễn phí tốt nhất
Cách chia sẻ tệp giữa PC, điện thoại thông minh và máy tính bảng
Cách đồng bộ hóa hai thư mục trong thời gian thực trong Windows