Cách trích xuất Bảng từ tài liệu PDF
Bài viết này sẽ hướng dẫn bạn cách trích xuất bảng từ tài liệu PDF(extract tables from PDF documents) . Bạn có thể có nhiều tệp PDF(PDF) chứa nhiều bảng mà bạn muốn sử dụng riêng. Sao chép(Copying) và dán các bảng đó không phải là một lựa chọn tốt vì nó có thể không cho kết quả như mong đợi, do đó bạn cần một số tùy chọn đơn giản khác có thể trích xuất các bảng từ tệp PDF và lưu các bảng đó thành các tệp riêng biệt.
Hầu hết các công cụ trích xuất bảng PDF(PDF table extractor tools) này không thể giúp được gì nếu bảng PDF được quét. Trong trường hợp như vậy, trước tiên bạn nên làm cho tệp PDF có thể tìm kiếm được(make the PDF searchable) và sau đó thử các tùy chọn này.
Trích xuất Bảng từ tài liệu PDF
Trong bài đăng này, chúng tôi đã thêm 2 dịch vụ trực tuyến miễn phí và 3 phần mềm miễn phí để trích xuất bảng từ tệp PDF :
- PDF sang XLS
- PDFtoExcel.com
- Tabula
- ByteScout PDF Multitool
- Sejda PDF trên Máy tính để bàn.
1] PDF sang XLS
PDF to XLS là một trong những tùy chọn tốt nhất để trích xuất bảng từ PDF . Nó có hai tính năng làm cho nó trở nên tiện dụng. Bạn có thể tìm nạp các bảng từ 20 tài liệu PDF(20 PDF) cùng nhau. Ngoài ra, việc trích xuất bảng PDF là tự động. (PDF)Nó tạo ra đầu ra dưới dạng tệp XLSX . Nếu một tệp PDF(PDF) có nhiều bảng, thì mỗi bảng được lưu trữ riêng biệt trong các trang tính khác nhau của tệp XLSX đầu ra.(XLSX)
Mở trang chủ(Open the homepage) của dịch vụ này. Sau đó, kéo thả các tệp PDF hoặc sử dụng nút TẢI LỌC(UPLOAD FILES) . Mỗi tệp PDF(PDF) được tải lên sẽ được tự động chuyển đổi sang tệp định dạng XLSX. Khi các tệp đầu ra đã sẵn sàng, bạn có thể tải xuống từng tệp một hoặc tải xuống tệp ZIP sẽ chứa tất cả các tệp đầu ra.
2] PDFtoExcel.com
Dịch vụ PDFtoExcel.com(PDFtoExcel.com) có thể trích xuất các bảng từ một tệp PDF(PDF) cùng một lúc nhưng nó hỗ trợ nhiều nền tảng để tải lên PDF . Nó hỗ trợ các nền tảng OneDrive , máy tính để bàn(desktop) , Google Drive và Dropbox để tải lên một (Dropbox)tệp PDF(PDF) . Ngoài ra, quá trình chuyển đổi là tự động.
Trang chủ dịch vụ này ở đây(here) . Tại đó, chọn một tùy chọn tải lên để thêm PDF . Sau đó, nó tự động tải lên và chuyển đổi tệp PDF(PDF) sang Excel ( XLSX ). Khi đầu ra đã sẵn sàng, bạn sẽ nhận được liên kết tải xuống để lưu tệp đầu ra có chứa (các) bảng PDF .
Lưu ý:(Note: ) Mặc dù dịch vụ này đề cập rằng nó cũng có thể trích xuất các bảng từ các tệp PDF được quét, nhưng nó không hoạt động với tôi. Bạn vẫn có thể thử nó cho PDF được quét .
3] Tabula
Tabula là một phần mềm mạnh mẽ có thể tự động phát hiện các bảng có trong PDF và sau đó cho phép bạn lưu các bảng đó dưới dạng tệp TSV , JSON hoặc CSV . Bạn có thể chọn tùy chọn để lưu các tệp CSV(CSV) riêng biệt cho từng bảng PDF hoặc lưu tất cả các bảng trong một tệp CSV(CSV) duy nhất .
Để tải xuống trình trích xuất bảng PDF mã nguồn mở này, (open-source)hãy nhấp vào đây(click here) . Nó cũng yêu cầu Java(requires Java) để chạy và sử dụng thành công.
Giải nén tệp ZIP mà bạn đã tải xuống và chạy tệp tabula.exe . Nó sẽ mở một trang trong trình duyệt mặc định của bạn. Nếu trang chưa được mở, hãy thêm http: // localhost: 8080 vào trình duyệt của bạn và nhấn Enter .
Bây giờ bạn sẽ thấy giao diện của nó, nơi bạn có thể sử dụng tùy chọn Duyệt(Browse) để thêm tệp PDF(PDF) . Sau đó, nhấn nút Nhập(Import) . Khi PDF được thêm vào, bạn có thể thấy các trang PDF trên giao diện của nó.
Sử dụng nút Autodetect Tables và nó sẽ tự động đánh dấu tất cả các bảng có trong PDF đó . Bạn cũng có thể đánh dấu một bảng theo cách thủ công bằng cách chọn một bảng cụ thể. Nếu muốn, bạn cũng có thể loại bỏ các bảng đã chọn(remove selected tables) mà bạn chọn.
Điều này sẽ giúp bạn chỉ lưu những bảng mà bạn muốn. Khi bảng PDF được đánh dấu, hãy nhấp vào nút Xem trước & Xuất dữ liệu đã trích xuất(Preview & Export Extracted Data) .
Cuối cùng, sử dụng menu thả xuống có sẵn ở phần trên cùng để chọn định dạng đầu ra và nhấn nút Xuất(Export) . Thao tác này sẽ lưu các bảng PDF ở tệp định dạng đầu ra do bạn chọn.
4] ByteScout PDF Multitool
Như tên cho thấy, phần mềm này đi kèm với nhiều công cụ. Nó có các công cụ như chuyển đổi PDF sang TIFF nhiều trang(convert PDF to multipage TIFF) , xoay tài liệu PDF(rotate PDF document) , làm cho PDF không thể tìm kiếm được(make PDF unsearchable) , tối ưu hóa PDF(optimize PDF) , thêm hình ảnh vào PDF(add an image to PDF) và hơn thế nữa. Tính năng dò tìm bảng PDF(PDF) cũng có ở đó, khá tuyệt vời. Ưu điểm của công cụ này là bạn cũng có thể trích xuất các bảng từ PDF được quét(extract tables from scanned PDF) . Bạn có thể phát hiện các bảng trong nhiều trang và sau đó trích xuất các bảng đó dưới dạng tệp định dạng CSV , XLS , XML , TXT hoặc JSON . Trước khi trích xuất, nó cũng cho phép bạn đặt phạm vi trang(page range)để chỉ trích xuất các bảng từ các trang được chỉ định.
Bạn có thể lấy phần mềm này tại đây(here) . Nó chỉ miễn phí cho mục đích sử dụng phi thương mại(free for non-commercial use) . Sau khi cài đặt, hãy chạy phần mềm này và sử dụng tùy chọn Open Document để thêm PDF . Sau đó, nhấp vào công cụ Phát hiện bảng(Detect tables) như được đánh dấu trong hình trên. Công cụ này có trong danh mục Trích xuất dữ liệu(Data Extraction) .
Nó sẽ mở một hộp nơi bạn có thể đặt điều kiện để phát hiện bảng. Ví dụ: bạn có thể đặt số cột, hàng tối thiểu, ngắt dòng tối thiểu giữa các bảng, đặt chế độ phát hiện bảng thành bảng có viền hoặc không có viền, v.v. Sử dụng các tùy chọn hoặc giữ cài đặt mặc định.
Sau đó, nhấn nút Phát hiện bảng tiếp theo(Detect next table) trong ô đó. Nó sẽ xác định và chọn một bảng trên trang hiện tại. Bằng cách đó, bạn có thể chuyển sang trang khác và phát hiện nhiều bảng hơn.
Khi bạn hoàn tất, hãy sử dụng nút Tiến hành trích xuất(Proceed to extraction) và chọn định dạng đầu ra. Cuối cùng, bạn có thể sử dụng các tùy chọn để lưu các bảng từ trang hiện tại hoặc xác định phạm vi trang và lưu kết quả đầu ra.
Công cụ cho kết quả đầu ra đạt yêu cầu. Nhưng đôi khi, nó có thể phát hiện nội dung khác trong PDF và không thể trích xuất bảng từ nhiều trang. Trong trường hợp đó, bạn nên sử dụng nó để tìm nạp và lưu từng bảng một.
5] Máy tính để bàn Sejda PDF
Sejda PDF Desktop cũng là một phần mềm đa năng. Nó có thể tối ưu hóa hoặc nén PDF(compress PDF) , thêm watermark vào PDF, xóa các hạn chế khỏi PDF(remove restrictions from PDF) , chỉnh sửa tài liệu PDF , v.v. Tuy nhiên, gói miễn phí của nó có những hạn chế. Trong gói miễn phí, chỉ có thể thực hiện 3 nhiệm vụ mỗi ngày. Ngoài ra, giới hạn kích thước PDF là (PDF)50 MB hoặc 10 trang(10 pages) .
Bạn có thể sử dụng công cụ chuyển đổi PDF sang Excel(PDF to Excel) của nó để trích xuất các bảng PDF . Nó tự động phát hiện các bảng trong các trang PDF và cho phép bạn lưu các bảng đó dưới dạng XLSX hoặc CSV .
Liên kết tải xuống của nó ở đây(here) . Sau khi cài đặt, sử dụng công cụ PDF to Excel từ giao diện chính của nó. Sau khi chọn công cụ đó, hãy sử dụng nút Chọn tệp PDF . (Choose PDF files)Chỉ có thể thêm một tệp PDF vào gói miễn phí.(PDF)
Khi tệp PDF(PDF) được thêm vào, nó sẽ cung cấp các nút Chuyển đổi PDF sang CSV(Convert PDF to CSV) và Chuyển đổi PDF sang Excel(Convert PDF to Excel) . Sử dụng một nút và sau đó bạn có thể lưu đầu ra vào vị trí mong muốn trên PC của mình.
Công cụ phát hiện bảng PDF của nó rất tốt. Bạn không cần phải dò tìm các bảng theo cách thủ công. Tuy nhiên, đôi khi nó có thể bao gồm nội dung văn bản khác dưới dạng bảng PDF và lưu trữ nó trong đầu ra. Nhưng kết quả chung là tốt.
Đó là tất cả.
Đây là một số công cụ tốt để trích xuất bảng từ PDF . Phần mềm Tabula(Tabula) hiệu quả hơn các công cụ khác. Tuy nhiên, bạn có thể thử tất cả các công cụ và kiểm tra xem cách nào hữu ích.
Lần đọc tương tự:(Similar reads:)
- Trích xuất tệp đính kèm từ PDF(Extract attachments from PDF)
- Trích xuất văn bản được đánh dấu từ PDF(Extract highlighted text from PDF) .
Related posts
Document Converter: Convert DOC, PDF, DOCX, RTF, TXT, HTML
một PPS file là gì? Làm thế nào để chuyển đổi PPS để PDF trong Windows 11/10?
PDF text biến mất khi chỉnh sửa hoặc lưu tệp trong Windows 10
Best Free PDF Editor Online Tools dựa trên đám mây
PDF Editor Online Tool miễn phí để chỉnh sửa các tệp PDF - PDF Yeah
Convert PDF để PPT (PowerPoint) sử dụng các software & online tools miễn phí
LightPDF là một PDF Editor tool trực tuyến toàn diện cho tất cả các nhu cầu của bạn PDF
Best Free PDF Editing software cho Windows 10
Cách chuyển đổi PDF document sang MultiPage TIFF image trong Windows
PDFTK Builder là một phần mềm miễn phí để sửa đổi & chia PDF file & tài liệu
Kích hoạt hai trang View mode cho PDF trong Google Chrome PDF Viewer
Best trực tuyến miễn phí PDF để PDF/A converter công cụ
Miễn phí PDF Compressor để giảm PDF file kích thước trong Windows 10
Encrypt PDF file Sử dụng PDF Page Lock cho Windows PC
Best PDF word counter software and online tools
Làm thế nào để bảo vệ bằng mật khẩu và đảm bảo PDf tài liệu với LibreOffice
Compress PDF Software: Compress PDF Tệp sử dụng công cụ PDF Reducer online
Add, Xóa hoặc Chỉnh sửa siêu liên kết trong PDF Files với PDF Link Editor
Best Free PDF Stamp Creator software cho Windows 10
Best PDF Voice Readers miễn phí cho Windows 10