Sử dụng Excel làm công cụ để sao chép dữ liệu từ web

Gỡ trang web(Web scraping) là hành động trích xuất dữ liệu, thông tin hoặc hình ảnh từ một trang web bằng phương pháp tự động. Hãy(Think) coi nó như sao chép và dán(copy and paste) hoàn toàn tự động.

Chúng tôi viết hoặc sử dụng một ứng dụng để truy cập các trang web mà chúng tôi muốn và tạo một bản sao của những thứ cụ thể mà chúng tôi muốn từ các trang web đó. Nó chính xác hơn nhiều so với việc tải xuống toàn bộ trang web.

Giống như bất kỳ công cụ nào, việc cạo trên web có thể được sử dụng cho mục đích tốt hoặc xấu. Một số lý do tốt hơn để loại bỏ các trang web là xếp hạng nó trong một công cụ tìm kiếm(search engine) dựa trên nội dung của nó, việc mua sắm so sánh giá cả(price comparison shopping) hoặc theo dõi thông tin thị trường chứng khoán(stock market information) . Bạn thậm chí có thể sử dụng nó như một công cụ nghiên cứu(research tool) .

Làm cách nào tôi có thể sửa trang web bằng Excel ?

Tin hay không thì tùy bạn, Excel đã có khả năng trích xuất dữ liệu từ các trang web từ lâu, ít nhất là kể từ Excel 2003 . Chỉ là việc tìm kiếm trên web là điều mà hầu hết mọi người không nghĩ(t think) đến, chứ đừng nói đến việc sử dụng một chương trình bảng tính(spreadsheet program) để thực hiện công việc. Nhưng nó dễ dàng và mạnh mẽ một cách đáng ngạc nhiên. Hãy cùng tìm hiểu cách thực hiện bằng cách tạo một bộ sưu tập các phím tắt của Microsoft Office .(Microsoft Office keyboard)

Tìm các trang web bạn muốn cạo

Điều đầu tiên chúng tôi sẽ làm là tìm các trang web cụ thể mà chúng tôi muốn lấy thông tin. Hãy vào nguồn và tìm kiếm(source and search) tại https://support.office.com/ . Chúng tôi sẽ sử dụng cụm từ tìm kiếm(search term) “các phím tắt được sử dụng thường xuyên”. Chúng tôi có thể làm cho nó cụ thể hơn bằng cách sử dụng tên của ứng dụng cụ thể, như Outlook , Excel , Word , v.v. Bạn nên đánh dấu trang kết quả để chúng tôi có thể dễ dàng quay lại trang đó.

Nhấp(Click) vào kết quả tìm kiếm(search result) , “Các phím tắt trong Excel cho Windows”. Khi ở trên trang đó, hãy tìm danh sách các phiên bản Excel và nhấp vào Phiên bản mới hơn(Newer Versions) . Bây giờ chúng tôi đang làm việc với những gì mới nhất và tuyệt vời nhất.

Chúng tôi có thể quay lại trang kết quả tìm kiếm của mình và mở kết quả cho tất cả các ứng dụng Office(Office apps) khác trong các tab của riêng chúng và đánh dấu trang. Đó là một ý kiến ​​hay, ngay cả đối với bài tập này. Đây là nơi mà hầu hết mọi người sẽ dừng lại trong việc thu thập các phím tắt Office , nhưng không phải chúng tôi. Chúng tôi sẽ đưa chúng vào Excel để chúng tôi có thể làm bất cứ điều gì chúng tôi muốn với chúng, bất cứ khi nào chúng tôi muốn.

Mở Excel và Scrape

Mở Excel và bắt đầu một sổ làm việc mới. Lưu sổ làm việc dưới dạng Phím tắt Office(Office Shortcuts) . Nếu bạn có OneDrive, hãy lưu nó ở đó để tính năng AutoSave hoạt động.

Sau khi sổ làm việc được lưu, hãy bấm vào tab Dữ liệu .(Data)

Trong ruy-băng của tab Dữ liệu(Data tab) , bấm vào Từ Web(From Web) .

Cửa sổ hướng dẫn Từ Web sẽ mở ra. (From Web )Đây là nơi chúng tôi đặt địa chỉ web hoặc URL(web address or URL) của trang web mà chúng tôi muốn lấy dữ liệu từ đó. Chuyển sang trình duyệt web của bạn và sao chép(copy) URL.

Dán URL vào trường URL của trình hướng dẫn Từ Web(From Web wizard) . Chúng tôi có thể chọn sử dụng điều này ở chế độ Cơ bản(Basic) hoặc Nâng cao(Advanced) . Chế độ Nâng cao(Advanced mode) cung cấp cho chúng tôi nhiều tùy chọn hơn về cách truy cập dữ liệu từ trang web. Đối với bài tập này, chúng ta chỉ cần chế độ Cơ bản. Bấm (Click) OK .

Bây giờ Excel(Excel) sẽ cố gắng kết nối với trang web. Điều này có thể mất một vài giây. Chúng tôi sẽ thấy một cửa sổ tiến trình(progress window) , nếu có.

Cửa sổ Bộ điều hướng(Navigator) sẽ mở ra và chúng ta sẽ thấy danh sách các bảng từ trang web ở bên trái. Khi chúng tôi chọn một bảng, chúng tôi sẽ thấy bản xem trước bảng ở bên phải. Hãy chọn bảng các phím tắt thường được sử dụng(Frequently used shortcuts ) .

Chúng ta có thể nhấp vào tab Web View để xem trang web thực tế, nếu chúng ta cần tìm kiếm bảng mà chúng ta muốn. Khi chúng tôi tìm thấy nó, chúng tôi có thể nhấp vào nó và nó sẽ được chọn để nhập.

Bây giờ, chúng ta nhấp vào nút Load ở cuối cửa sổ này. Có những tùy chọn khác mà chúng tôi có thể chọn, phức tạp hơn và nằm ngoài phạm vi thực hiện lần cạo đầu tiên của chúng tôi. Chỉ cần lưu ý rằng họ đang ở đó. Khả năng quét web của Excel rất mạnh mẽ.

Bảng web(web table) sẽ được tải trong Excel sau một vài giây. Chúng ta sẽ thấy dữ liệu ở bên trái, vị trí số 1 trong hình bên dưới. Số 2 nêu bật Truy vấn(Query) được sử dụng để lấy dữ liệu từ trang web. Khi chúng tôi có nhiều truy vấn trong một sổ làm việc, đây là nơi chúng tôi chọn một truy vấn mà chúng tôi cần sử dụng.

Lưu ý(Notice) rằng dữ liệu được đưa vào bảng tính dưới dạng bảng Excel. Nó đã được thiết lập để chúng tôi có thể lọc hoặc sắp xếp dữ liệu.

Chúng tôi có thể lặp lại quy trình này cho tất cả các trang web khác có phím tắt Office mà chúng tôi muốn cho Outlook , Word , Access , PowerPoint và bất kỳ ứng dụng Office(Office app) nào khác .

Giữ cho dữ liệu có sẵn(Scraped Data Current) trong Excel

Như một phần thưởng dành cho bạn, chúng ta sẽ tìm hiểu cách giữ cho dữ liệu cóp nhặt của chúng ta luôn mới trong Excel . Đây là một cách tuyệt vời để minh họa Excel mạnh mẽ như thế nào trong việc thu thập dữ liệu. Ngay cả với điều này, chúng tôi chỉ đang thực hiện những thao tác cơ bản nhất mà Excel có thể làm.

Đối với ví dụ này, hãy sử dụng trang web thông tin chứng khoán như (stock information)https://www.cnbc.com/stocks/ .

Xem qua những gì chúng tôi đã làm trước đó, sao chép và dán (copy and paste)URL mới từ thanh địa chỉ(address bar) .

Bạn sẽ đến cửa sổ Bộ điều hướng(Navigator window) và xem các bảng có sẵn. Hãy chọn các Chỉ số Chứng khoán Chính của Hoa Kỳ(Major U.S. Stock Indices) .

Sau khi dữ liệu được thu thập, chúng ta sẽ thấy bảng tính sau.

Ở bên phải, chúng ta thấy truy vấn về Chỉ số chứng khoán chính của Hoa Kỳ(Major U.S. Stock Indexes) . Chọn(Select) nó để nó được đánh dấu. Đảm(Make) bảo rằng chúng ta đang ở trong tab Công cụ bảng và trong vùng (Table Tools)Thiết kế(Design) . Sau đó nhấp vào mũi tên xuống bên dưới Làm mới(Refresh) . Sau đó nhấp vào Thuộc tính kết nối(Connection Properties) .

Trong cửa sổ Thuộc tính Truy vấn(Query Properties ) , dưới tab Sử dụng , chúng ta có thể kiểm soát cách thông tin này làm mới. (Usage)Chúng tôi có thể đặt một khoảng thời gian cụ thể để làm mới hoặc để làm mới khi chúng tôi mở sổ làm việc vào lần tiếp theo hoặc để làm mới trong nền hoặc bất kỳ sự kết hợp nào của những điều này. Sau khi chúng tôi chọn những gì chúng tôi cần, nhấp vào OK để đóng cửa sổ và tiếp tục.

Đó là nó! Giờ đây, bạn có thể theo dõi giá cổ phiếu, tỷ số thể thao hoặc bất kỳ dữ liệu nào khác thường xuyên thay đổi từ bảng tính Excel(Excel spreadsheet) . Nếu bạn thành thạo với các phương trình và hàm Excel , bạn có thể làm hầu hết mọi thứ bạn muốn với dữ liệu.

Có thể cố gắng xác định xu hướng chứng khoán, chạy một hồ bơi thể thao tưởng tượng tại nơi làm việc hoặc có thể chỉ theo dõi thời tiết. Ai biết? Trí tưởng tượng của bạn và dữ liệu có sẵn trên Internet là giới hạn duy nhất.



About the author

Tôi là kỹ sư phần mềm với hơn 10 năm kinh nghiệm thiết kế, xây dựng và bảo trì các ứng dụng dựa trên Windows. Tôi cũng là một chuyên gia thành thạo về xử lý văn bản, xử lý bảng tính và thuyết trình. Tôi có thể viết mô tả rõ ràng và ngắn gọn về mã, giải thích các khái niệm phức tạp cho các nhà phát triển mới làm quen và khắc phục sự cố nhanh chóng cho khách hàng.



Related posts