Khai thác dữ liệu là gì? Khái niệm cơ bản và Kỹ thuật của nó.

Nền tảng của cuộc cách mạng công nghiệp lần thứ tư sẽ phụ thuộc phần lớn vào Dữ liệu(Data) và Khả năng kết nối(Connectivity) . Dịch vụ Phân tích(Analysis Services) có khả năng phát triển hoặc tạo ra các giải pháp khai thác dữ liệu sẽ đóng một vai trò quan trọng trong vấn đề này. Nó có thể hỗ trợ phân tích và dự đoán kết quả của hành vi mua hàng(customer purchasing behavior) của khách hàng để nhắm mục tiêu người mua tiềm năng. Dữ liệu(Data) sẽ trở thành một nguồn tài nguyên thiên nhiên mới và quá trình trích xuất thông tin liên quan từ dữ liệu chưa được sắp xếp này sẽ có tầm quan trọng to lớn. Do đó, hiểu đúng về thuật ngữ - (term –) Khai phá dữ liệu(Data Mining) , các quy trình và ứng dụng của nó có thể giúp chúng tôi phát triển một cách tiếp cận toàn diện cho từ thông dụng này.

Kiến thức cơ bản về khai thác dữ liệu(Data Mining Basics) và các kỹ thuật của nó

khai thác dữ liệu

Khai phá dữ liệu, còn được gọi là Khám phá tri thức trong dữ liệu(Knowledge Discovery in Data) ( KDD ) là việc tìm kiếm các kho dữ liệu lớn để phát hiện ra các mẫu và xu hướng vượt ra ngoài phân tích đơn giản. Tuy nhiên, đây không phải là một giải pháp một bước mà là một quá trình gồm nhiều bước và được hoàn thành trong nhiều giai đoạn khác nhau. Bao gồm các:

1] Thu thập và chuẩn bị dữ liệu

Nó bắt đầu với việc thu thập dữ liệu và tổ chức thích hợp của nó. Điều này giúp cải thiện đáng kể cơ hội tìm kiếm thông tin có thể được khám phá thông qua khai thác dữ liệu

2] Xây dựng và Đánh giá Mô hình

Bước thứ hai trong quá trình khai thác(mining process) dữ liệu là áp dụng các kỹ thuật mô hình hóa khác nhau. Chúng được sử dụng để hiệu chỉnh các tham số đến giá trị tối ưu. Các kỹ thuật được sử dụng phần lớn phụ thuộc vào khả năng phân tích cần thiết để giải quyết một loạt các nhu cầu của tổ chức và đi đến quyết định.

Hãy để chúng tôi xem xét tóm tắt một số kỹ thuật khai thác dữ liệu. Người ta thấy rằng hầu hết các tổ chức kết hợp hai hoặc nhiều kỹ thuật khai thác dữ liệu với nhau để tạo thành một quy trình thích hợp đáp ứng các yêu cầu kinh doanh của họ.

Đọc(Read) : Dữ liệu lớn là gì?

Kỹ thuật khai thác dữ liệu

  1. Hiệp hội -  (Association – )Association là một trong những kỹ thuật khai thác dữ liệu được biết đến rộng rãi. Theo đó, một mẫu được giải mã dựa trên mối quan hệ giữa các mục trong cùng một giao dịch. Do đó(Hence) , nó còn được gọi là kỹ thuật quan hệ(relation technique) . Các nhà bán lẻ thương hiệu lớn dựa vào kỹ thuật này để nghiên cứu thói quen / sở thích mua hàng của khách hàng. Ví dụ: khi theo dõi thói quen mua hàng của mọi người, các nhà bán lẻ có thể xác định rằng khách hàng luôn mua kem khi họ mua sôcôla và do đó gợi ý rằng lần sau khi mua sôcôla, họ cũng có thể muốn mua kem.
  2. Phân loại(Classification) - Kỹ thuật khai phá dữ liệu này(data mining technique) khác với kỹ thuật trên ở chỗ dựa trên máy học(machine learning) và sử dụng các kỹ thuật toán học như Lập trình tuyến tính(Linear programming) , Cây quyết định , (Decision)Mạng nơron(Neural network) . Trong phân loại, các công ty cố gắng xây dựng phần mềm có thể học cách phân loại các mục dữ liệu thành các nhóm. Ví dụ: một công ty có thể xác định một phân loại trong ứng dụng “dựa trên tất cả hồ sơ của những nhân viên đã đề nghị từ chức khỏi công ty, dự đoán số lượng cá nhân có khả năng sẽ từ chức khỏi công ty trong tương lai.” Theo một kịch bản như vậy, công ty có thể phân loại hồ sơ của nhân viên thành hai nhóm đó là “nghỉ việc” và “ở lại”. Sau đó, nó có thể sử dụng dữ liệu của nóphần mềm khai thác(mining software) để phân loại nhân viên thành các nhóm riêng biệt đã tạo trước đó.
  3. Phân cụm(Clustering) - Các(Different) đối tượng khác nhau thể hiện các đặc điểm tương tự được nhóm lại với nhau trong một cụm duy nhất thông qua tự động hóa. Nhiều cụm như vậy được tạo ra dưới dạng các lớp và các đối tượng (với các đặc điểm tương tự) được đặt trong đó tương ứng. Để hiểu rõ hơn điều này, chúng ta hãy xem xét một ví dụ về quản lý sách(book management) trong thư viện. Trong thư viện, bộ sưu tập sách khổng lồ được liệt kê đầy đủ. Các mặt hàng cùng loại được liệt kê cùng nhau. Điều này giúp chúng tôi dễ dàng tìm thấy một cuốn sách mà chúng tôi quan tâm. Tương tự, bằng cách sử dụng kỹ thuật phân cụm(clustering technique) , chúng ta có thể giữ các sách có một số loại tương tự trong một cụm và đặt tên phù hợp cho nó. Vì vậy, nếu một độc giả đang tìm kiếm một cuốn sách có liên quan(book relevant)đối với sở thích của mình, anh ta chỉ phải đi đến giá sách đó thay vì tìm kiếm toàn bộ thư viện. Do đó, kỹ thuật phân cụm(clustering technique) xác định các lớp và đặt các đối tượng vào mỗi lớp, trong khi trong kỹ thuật phân loại, các đối tượng được gán vào các lớp được xác định trước.
  4. Dự đoán(Prediction) - Dự đoán là một kỹ thuật khai thác dữ liệu(data mining technique) thường được sử dụng kết hợp với kỹ thuật khai thác dữ liệu(data mining technique) khác . Nó liên quan đến việc phân tích xu hướng, phân loại, đối sánh mẫu(pattern matching) và mối quan hệ. Bằng cách phân tích các sự kiện hoặc trường hợp trong quá khứ theo một trình tự thích hợp, người ta(sequence one) có thể dự đoán một cách an toàn sự kiện trong tương lai. Ví dụ: kỹ thuật phân tích dự đoán(prediction analysis technique) có thể được sử dụng trong việc bán hàng để dự đoán lợi nhuận trong tương lai nếu việc bán hàng được chọn là một biến độc lập và lợi nhuận(variable and profit) là một biến số phụ thuộc vào việc bán hàng. Sau đó, dựa trên dữ liệu bán hàng và lợi nhuận(sale and profit data) trước đây, người ta có thể vẽ một đường cong hồi quy(regression curve) phù hợp được sử dụng chodự đoán lợi nhuận(profit prediction) .
  5. Cây quyết định(Decision trees) - Trong cây quyết định(decision tree) , chúng ta bắt đầu với một câu hỏi đơn giản có nhiều câu trả lời. Mỗi câu trả lời dẫn đến một câu hỏi khác để giúp phân loại hoặc xác định dữ liệu để có thể phân loại dữ liệu hoặc để có thể đưa ra dự đoán dựa trên mỗi câu trả lời. Ví dụ: Chúng tôi sử dụng cây quyết định(decision tree) sau để xác định có chơi cricket ODI hay không : Cây quyết định khai thác dữ liệu(Data Mining Decision Tree) : Bắt đầu từ nút gốc(root node) , nếu dự báo thời tiết dự(weather forecast) đoán có mưa thì chúng ta nên tránh trận đấu trong ngày. Ngoài ra, nếu dự báo thời tiết(weather forecast) rõ ràng, chúng tôi nên chơi trận đấu.

Khai thác dữ liệu(Data Mining) là trọng tâm của các nỗ lực phân tích trong nhiều ngành và lĩnh vực khác nhau như truyền thông, Bảo hiểm(Insurance) , Giáo dục(Education) , Sản xuất(Manufacturing) , Ngân hàng và Bán lẻ(Banking and Retail) , v.v. Do đó, có thông tin chính xác về nó là điều cần thiết trước khi áp dụng các kỹ thuật khác nhau.



About the author

Tôi có hơn 10 năm kinh nghiệm trong ngành phát triển ứng dụng iOS và Windows Phone. Các kỹ năng của tôi bao gồm phát triển các ứng dụng di động cho cả App Store của Apple và nền tảng Windows 7 của Microsoft. Tôi là chuyên gia trong việc tạo giao diện người dùng đơn giản, nhanh nhạy và dễ sử dụng. Tôi cũng có kinh nghiệm làm việc với các framework front-end như React Native và HTML5.



Related posts