Làm thế nào để trích xuất văn bản được đánh dấu từ PDF dưới dạng tệp văn bản?
Đánh dấu văn bản trong tài liệu PDF rất tiện lợi để đánh dấu các khu vực quan trọng mà bạn có thể truy cập sau này một cách nhanh chóng. Bạn có thể sử dụng Microsoft Edge để đánh dấu PDF(Microsoft Edge to highlight PDF) hoặc bất kỳ phần mềm nào khác đi kèm với tính năng đánh dấu PDF . Đôi khi, bạn cũng có thể cảm thấy cần chỉ có văn bản được đánh dấu để bạn có thể có bản tóm tắt PDF chứa tất cả các văn bản cần thiết. Nếu bạn đang tìm kiếm một số cách để chỉ lưu văn bản được đánh dấu từ PDF dưới dạng tệp TXT , thì bài đăng này có thể hữu ích.
Trích xuất văn bản được đánh dấu từ PDF
Có một số phần mềm miễn phí và dịch vụ để trích xuất văn bản được đánh dấu từ tệp PDF và lưu dưới dạng tệp văn bản:
- PDF Highlight Extractor
- Foxit Reader
- Sumnotes.net
- DyAnnotationExtractor.
Hãy kiểm tra từng phần mềm PDF Highlight Extractor này.(PDF Highlight Extractor)
1] Trình trích xuất tô sáng PDF
PDF Highlight Extractor là một trong những tùy chọn dễ dàng nhất để trích xuất văn bản được đánh dấu từ tệp PDF . Trình trích xuất đánh dấu văn bản PDF (PDF text highlight extractor)mã nguồn mở(open-source) này có hai tính năng thu hút sự chú ý. Bạn có thể xem trước văn bản(preview highlighted text) PDF được đánh dấu trên giao diện phần mềm.
Tính năng thứ hai là bạn có thể đặt trang bắt đầu hoặc trang kết thúc hoặc phạm vi trang để trích xuất văn bản(set start or end page or page range to extract the text) . Vì vậy, thay vì quét toàn bộ PDF , bạn có thể xác định số trang để lấy văn bản được đánh dấu.
Một tính năng tốt khác là bạn có tùy chọn lưu văn bản dưới dạng văn bản thuần túy(save text as plain text) hoặc tệp Excel(Excel file) .
Trên giao diện của nó, thêm tệp PDF của bạn bằng cách sử dụng tùy chọn đã cho, rồi nhấn nút Trích xuất(Extract) . Bỏ chọn tùy chọn Tất cả các trang(All Pages) nếu bạn muốn đặt phạm vi trang hoặc để nguyên. Khi văn bản được tìm nạp, bạn có thể xem trước nó. Cuối cùng, nhấn nút Văn bản(Text) hoặc Excel để lưu văn bản được đánh dấu.
Bạn có thể tải xuống phần mềm này từ đây(here) . Java cũng cần thiết để sử dụng phần mềm này. Vì vậy, hãy cài đặt Java (nếu chưa có) và thực thi phần mềm này để sử dụng.
2] Foxit Reader
Foxit Reader là một trong những trình đọc PDF miễn phí tốt nhất . Bạn có thể mở nhiều tệp PDF(PDF) trong các tab riêng biệt, đánh dấu PDF , thêm ghi chú, xuất nhận xét(export comments) , thêm chữ ký(add signatures) , v.v. Trong số danh sách khổng lồ các tính năng, trích xuất văn bản được đánh dấu từ PDF cũng có ở đó. Phần tốt nhất của tính năng này là nó cũng lưu số trang cùng với văn bản được trích xuất(saves page numbers along with the extracted text) .
Để tìm nạp văn bản được đánh dấu từ PDF , hãy mở tệp PDF(PDF) trên giao diện của nó và truy cập tab Nhận xét . (Comment)Trong tab đó, nhấp vào tùy chọn Xuất(Export) có sẵn trong phần Quản lý nhận xét(Manage Comments) . Bạn sẽ thấy tùy chọn Văn bản được đánh dấu(Highlighted Text) . Sử dụng tùy chọn đó và sau đó bạn có thể lưu tất cả văn bản được đánh dấu dưới dạng tệp văn bản.
Đây(Here) là liên kết tải xuống cho phần mềm này. Trong quá trình cài đặt, bạn nên chọn cài đặt tùy chỉnh(custom installation) để chỉ bao gồm các thành phần bắt buộc của phần mềm này.
3] Sumnotes.net
Sumnotes.net là một dịch vụ miễn phí cho phép bạn chú thích PDF cũng như trích xuất văn bản được đánh dấu. Tất cả văn bản được đánh dấu sẽ hiển thị riêng biệt trên thanh bên trái. Sử dụng thanh bên đó, bạn cũng có thể xóa văn bản được đánh dấu mà bạn không cần(remove highlighted text that you don’t need) và sau đó tải xuống phần còn lại của văn bản được đánh dấu.
Trước khi tải xuống văn bản được đánh dấu, bạn cũng có thể bao gồm số trang và loại trừ(exclude) văn bản được đánh dấu có màu cụ thể(highlighted text of specific color) .
Bạn cũng có tùy chọn lưu văn bản được đánh dấu từ PDF dưới dạng tệp Excel(save highlighted text from PDF as Excel) hoặc Word . Vì vậy, các tính năng là tốt. Bạn có thể đăng ký với một gói miễn phí và sau đó trích xuất 50 điểm nổi bật(extract 50 highlights) hoặc chú thích cho mỗi lần tải xuống(per download) , điều này là đủ trong hầu hết các trường hợp.
Đây(Here) là liên kết đến trang chủ của nó. Để trích xuất văn bản được đánh dấu từ PDF , hãy thêm PDF từ PC hoặc Google Drive . Khi tệp PDF(PDF) được tải lên, chú thích và văn bản được đánh dấu sẽ hiển thị ở phía bên trái. Sử dụng tùy chọn Tải xuống Chú thích(Download Annotations) và sau đó bạn có thể lưu văn bản được đánh dấu trong tệp định dạng TXT , XLSX hoặc DOC .
4] DyAnnotationExtractor
Phần mềm DyAnnotationExtractor(DyAnnotationExtractor) có thể giúp bạn trích xuất văn bản và nhận xét(comments) được đánh dấu từ tài liệu PDF. Nó là một phần mềm dòng lệnh(command-line) , nhưng sử dụng nó rất đơn giản. Chỉ một lệnh duy nhất sẽ tìm nạp văn bản được đánh dấu trong tệp PDF đầu vào .
Bạn có thể lấy phần mềm này bằng cách sử dụng liên kết này(this link) . Tải xuống tệp (Download)ZIP của nó và sau đó giải nén nó. Để chạy lệnh dễ dàng hơn, bạn cũng nên đặt PDF vào cùng thư mục nơi bạn đã giải nén phần mềm này. Sau đó, mở cửa sổ Command Prompt trong thư mục đó. Bạn có thể làm điều đó bằng cách nhập cmd vào hộp địa chỉ của thư mục đó rồi nhấn phím Enter .
Khi cửa sổ CMD được mở, hãy thêm tệp BAT của phần mềm này, lệnh đầu vào bao gồm đường dẫn của (BAT)tệp PDF(PDF) đầu vào , lệnh đầu ra và tên của tệp đầu ra cùng với phần mở rộng '.txt'. Lệnh đầy đủ sẽ là-
DyAnnotationExtractor.bat -input path of input PDF -output outputfilename.txt
Thực hiện lệnh. Chờ(Wait) trong vài giây và tệp văn bản thuần túy sẽ sẵn sàng chứa tất cả văn bản được đánh dấu và nhận xét được tải xuống từ tệp PDF(PDF) đó . Tệp đầu ra được lưu trong cùng một thư mục đầu vào.
Vì vậy, đây là một số tùy chọn bạn có thể sử dụng để trích xuất văn bản được đánh dấu từ PDF và sau đó lưu đầu ra dưới dạng tệp văn bản. Hy vọng(Hope) những sự giúp đỡ.
Related posts
Cách sao chép văn bản từ tệp PDF
Cách tạo tệp văn bản trên máy Mac
Lưu danh sách các tiến trình đang chạy vào tệp văn bản trong Windows
Cách mã hóa và giải mã tệp văn bản trong Windows 10
Cách chuyển đổi Plain Text thành Musical Notation PDF trong Windows 10
Cách lưu email dưới dạng tệp PDF
Download Windows Command Reference PDF Guide từ Microsoft
Cách tìm kiếm Text or Contents của Any File trên Windows 10
5 Way Để trích xuất Images từ PDF File
Cách tạo tệp PDF có thể lấp đầy miễn phí
Cách viết hoặc vẽ trên tệp PDF trong Mac và Windows
Cách chuyển đổi Documents sang PDF với Google Docs bằng trình duyệt
7 Best Ways Để chuyển đổi PDF File thành Word Format
PDF text biến mất khi chỉnh sửa hoặc lưu tệp trong Windows 10
Cách quét nhiều trang vào một tệp PDF
Text Highlighter không làm việc trong Microsoft Edge
Trích xuất văn bản từ tệp PDF và tệp hình ảnh
Document Converter: Convert DOC, PDF, DOCX, RTF, TXT, HTML
Optimize, nén và giảm PDF File size trong Windows 10
Làm thế nào để mở Any ASPX File (Convert ASPX Để PDF)