Cách mở Tệp CSV và Văn bản Thực sự Lớn

MS Excel có thể hiển thị 1.048.576 hàng. Mặc dù đó có vẻ là một con số thực sự lớn trong mức sử dụng bình thường, nhưng vẫn có rất nhiều trường hợp mà điều đó vẫn chưa đủ.

Cho dù bạn đang xem tệp nhật ký hay tập dữ liệu lớn, thật dễ dàng bắt gặp tệp CSV(CSV) với hàng triệu hàng hoặc tệp văn bản khổng lồ. Vì Excel không thể hỗ trợ các tệp lớn như vậy, chính xác thì bạn mở chúng bằng cách nào? Hãy cùng tìm hiểu.

Tại sao các trình soạn thảo văn bản bình thường(Normal Text Editors) không thể mở các tệp thực sự lớn(Open Really Large Files) ?

Máy tính có dung lượng lưu trữ hàng gigabyte, vậy tại sao trình soạn thảo văn bản không thể mở các tệp lớn?

Có hai yếu tố đang diễn ra ở đây. Một số ứng dụng có giới hạn mã cứng về lượng dữ liệu mà chúng có thể hiển thị. Không quan trọng PC của bạn có bao nhiêu bộ nhớ, chỉ là chúng sẽ không sử dụng nó.

Vấn đề thứ hai là RAM . Nhiều trình soạn thảo văn bản không có giới hạn cứng về số hàng, nhưng không thể hiển thị các tệp lớn do giới hạn bộ nhớ. Chúng tải toàn bộ tệp vào RAM hệ thống , vì vậy nếu bộ nhớ này không đủ lớn, quá trình sẽ không thành công.

Phương pháp # 1: Sử dụng trình chỉnh sửa miễn phí

Cách tốt nhất để xem các tệp văn bản cực lớn là sử dụng… trình soạn thảo văn bản. Không chỉ là bất kỳ trình soạn thảo văn bản nào, mà còn là các công cụ dùng để viết mã. Các ứng dụng như vậy thường có thể xử lý các tệp lớn mà không gặp trở ngại và miễn phí.

Large Text File Viewer có lẽ là ứng dụng đơn giản nhất trong số các ứng dụng này. Nó thực sự dễ sử dụng, hoạt động nhanh và ít tốn tài nguyên. Nhược điểm duy nhất? Nó không thể chỉnh sửa các tập tin. Nhưng nếu bạn chỉ muốn xem các tệp CSV(CSV) lớn , đây là công cụ tốt nhất cho công việc.

Để chỉnh sửa các tệp văn bản lớn, bạn nên thử Emacs . Ban đầu được tạo ra cho các hệ thống Unix , nó hoạt động hoàn toàn tốt trên Windows và có thể xử lý các tệp lớn. Tương tự, NeovimSublime Text là hai IDE nhẹ có thể được sử dụng để mở các tệp văn bản (IDEs)CSV có kích thước gigabyte .

Nếu tất cả những gì bạn đang tìm kiếm là tìm kiếm dữ liệu thông qua các tệp nhật ký lớn, thì klogg chính(klogg) là công cụ dành cho bạn. Là một nhánh cập nhật của glogg phổ biến , ứng dụng này cho phép bạn thực hiện các thao tác tìm kiếm phức tạp thông qua các tệp văn bản khổng lồ một cách dễ dàng. Vì các tệp nhật ký do máy tính tạo ra thường có thể có hàng triệu hàng, klogg được thiết kế để hoạt động với các kích thước tệp như vậy mà không gặp sự cố.

Phương pháp(Method) # 2: Chia thành nhiều phần(Into Multiple Parts)

Toàn bộ vấn đề khi cố gắng mở các tệp CSV(CSV) lớn là chúng quá lớn. Nhưng điều gì sẽ xảy ra nếu bạn chia chúng thành nhiều tệp nhỏ hơn?

Đây là một giải pháp phổ biến, vì nó thường không liên quan đến việc phải học giao diện của một trình soạn thảo văn bản mới. Thay vào đó, bạn có thể sử dụng một trong nhiều bộ tách CSV có sẵn trực tuyến(one of the many CSV splitters available online) để chia tệp lớn thành một số tệp dễ mở. Mỗi tệp này sau đó có thể được truy cập bình thường.

Tuy nhiên, đây không phải là cách tốt nhất để giải quyết vấn đề này. Việc chia nhỏ một tệp lớn thường có thể dẫn đến lỗi chính tả kỳ lạ hoặc các tệp được định cấu hình không đúng cách. Hơn nữa, việc mở từng đoạn riêng biệt ngăn bạn lọc toàn bộ dữ liệu cùng một lúc.

Phương pháp # 3: Nhập vào cơ sở dữ liệu

Các tệp văn bản và .csv mở rộng đến nhiều gigabyte thường là các tập dữ liệu lớn. Vậy tại sao không chỉ nhập chúng vào cơ sở dữ liệu?

SQL là ngôn ngữ đánh dấu cơ sở dữ liệu phổ biến nhất được sử dụng ngày nay. Có nhiều phiên bản SQL(many versions of SQL) được sử dụng, nhưng dễ nhất có lẽ là MySQL . Và may mắn thay, có thể chuyển đổi tệp CSV thành một bảng MySQL(convert a CSV file into a MySQL table) .

Đây hoàn toàn không phải là phương pháp dễ dàng nhất để xử lý các tệp CSV(CSV) lớn , vì vậy chúng tôi chỉ đề xuất phương pháp này nếu bạn muốn xử lý các tập dữ liệu lớn một cách thường xuyên. Nếu MySQL nghe có vẻ quá khó, bạn luôn có thể nhập các tệp .csv của mình vào MS Access .

Phương pháp(Method) # 4: Phân tích với thư viện Python

Khi bạn đang làm việc với tệp .csv với hàng triệu hàng dữ liệu, rõ ràng là bạn sẽ không thể hiểu rõ về nó theo cách thủ công. Bạn có thể muốn lọc dữ liệu và chạy các truy vấn cụ thể để hiểu xu hướng.

Vậy tại sao không viết mã Python(write Python code) để làm điều đó?

Một lần nữa, đây không phải là phương pháp thân thiện với người dùng nhất. Mặc dù Python không phải là ngôn ngữ lập trình khó học nhất(Python isn’t the hardest programming language to learn) , nhưng nó là ngôn ngữ viết mã, vì vậy nó có thể không phải là cách tiếp cận tốt nhất cho bạn. Tuy nhiên, nếu bạn thấy mình phải phân tích cú pháp qua các tệp CSV(CSV) thực sự lớn hàng ngày, bạn có thể muốn tự động hóa tác vụ bằng một số mã Python(automate the task with some Python code) .

Phương pháp # 5: Với các công cụ cao cấp

Các trình soạn thảo văn bản mà chúng tôi thấy trong phương pháp đầu tiên không phải là các công cụ chuyên dụng dành cho xử lý CSV . Chúng là những công cụ có mục đích chung cũng có thể được sử dụng để làm việc với các tệp .csv lớn.

Nhưng những ứng dụng chuyên biệt thì sao? Không có ứng dụng nào được tạo ra để giải quyết vấn đề này?

Thực ra là có. Ví dụ: CSV Explorer(CSV Explorer) xây dựng dựa trên quá trình mà chúng tôi đã mô tả trong hai phương pháp cuối cùng ( cơ sở dữ liệu SQL và mã Python ) để tạo một ứng dụng có khả năng xem và chỉnh sửa các tệp CSV(CSV) ở bất kỳ kích thước nào. Bạn có thể làm mọi thứ bạn mong đợi từ công cụ bảng tính như tạo đồ thị hoặc lọc dữ liệu trong CSV Explorer .

Một tùy chọn khác là UltraEdit . Không giống như công cụ trước, điều này không chỉ dành cho các tệp .csv mà còn cho bất kỳ loại tệp văn bản nào. Nó có thể dễ dàng xử lý các tệp văn bản và tệp CSV(CSV) có dung lượng tới vài gigabyte, với giao diện tương tự như nhiều trình chỉnh sửa miễn phí mà chúng tôi đã thảo luận trước đó. 

Hạn chế duy nhất của các công cụ này là chúng là các ứng dụng cao cấp, yêu cầu bạn phải có giấy phép trả phí để có thể sử dụng chúng. Bạn luôn có thể dùng thử các phiên bản dùng thử miễn phí của chúng để kiểm tra các tính năng của chúng hoặc nếu bạn chỉ sử dụng một lần.

Cách tốt nhất để mở tệp văn bản lớn(Large Text)tệp CSV(CSV Files) là gì?

Trong thời đại Dữ liệu lớn(Big Data) này, không có gì lạ khi bạn gặp phải các tệp văn bản có dung lượng hàng gigabyte, thậm chí khó có thể xem được bằng các công cụ tích hợp sẵn như Notepad hoặc MS Excel . Để có thể mở các tệp CSV(CSV) lớn như vậy , bạn cần tải xuống và sử dụng ứng dụng của bên thứ ba.

Nếu tất cả những gì bạn muốn là xem các tệp như vậy, thì Trình xem tệp văn bản lớn(Large Text File Viewer) là lựa chọn tốt nhất cho bạn. Để thực sự chỉnh sửa chúng, bạn có thể thử một trình soạn thảo văn bản giàu tính năng như Emacs hoặc sử dụng một công cụ cao cấp như CSV Explorer .

Các kỹ thuật như chia nhỏ tệp CSV(CSV) hoặc nhập tệp đó vào cơ sở dữ liệu chỉ bao gồm quá nhiều bước. Tốt hơn hết bạn nên nhận được giấy phép trả phí của một công cụ cao cấp chuyên dụng nếu bạn thấy mình làm việc nhiều với các tệp văn bản lớn.



About the author

Tôi là một chuyên gia máy tính với hơn 10 năm kinh nghiệm. Khi rảnh rỗi, tôi thích giúp việc tại bàn văn phòng và dạy bọn trẻ cách sử dụng Internet. Kỹ năng của tôi bao gồm nhiều thứ, nhưng điều quan trọng nhất là tôi biết cách giúp mọi người giải quyết vấn đề. Nếu bạn cần ai đó có thể giúp bạn trong việc khẩn cấp hoặc chỉ muốn một số mẹo cơ bản, vui lòng liên hệ với tôi!



Related posts