Dữ liệu lớn là gì - Giải thích đơn giản với ví dụ

Thuật ngữ Dữ liệu lớn(Big Data) ngày càng được sử dụng rộng rãi ở hầu hết mọi nơi trên hành tinh - trực tuyến và ngoại tuyến. Và nó không chỉ liên quan đến máy tính. Nó có một thuật ngữ chung gọi là Công nghệ thông tin(Information Technology) , hiện là một phần của hầu hết các công nghệ và lĩnh vực nghiên cứu và kinh doanh khác. Dữ liệu lớn(Big Data) không phải là một vấn đề lớn. Những lời thổi phồng xung quanh nó chắc chắn là một vấn đề khá lớn khiến bạn bối rối. Bài viết này sẽ giới thiệu cho các bạn về Dữ liệu lớn(Big Data) là gì . Nó cũng chứa một ví dụ về cách NetFlix sử dụng dữ liệu của mình, hay đúng hơn là Dữ liệu lớn(Big Data) , để phục vụ nhu cầu của khách hàng tốt hơn.

Dữ liệu lớn là gì

Dữ liệu lớn là gì

Dữ liệu nằm trong máy chủ của công ty bạn chỉ là dữ liệu cho đến ngày hôm qua - đã được phân loại và lưu trữ. Đột nhiên, từ lóng Big Data trở nên phổ biến và bây giờ dữ liệu trong công ty của bạn là Big Data . Thuật ngữ này bao hàm từng và mọi phần dữ liệu mà tổ chức của bạn đã lưu trữ cho đến nay. Nó bao gồm dữ liệu được lưu trữ trong các đám mây và thậm chí cả các URL(URLs) mà bạn đã đánh dấu. Công ty của bạn có thể chưa số hóa tất cả dữ liệu. Bạn có thể chưa cấu trúc tất cả dữ liệu. Nhưng sau đó, tất cả dữ liệu kỹ thuật số, giấy tờ, dữ liệu có cấu trúc và phi cấu trúc với công ty của bạn hiện là Dữ liệu lớn(Big Data) .

Nói tóm lại, tất cả dữ liệu - cho dù được phân loại hay không - hiện diện trong máy chủ của bạn đều được gọi chung là DỮ LIỆU LỚN(BIG DATA) . Tất cả dữ liệu này có thể được sử dụng để thu được các kết quả khác nhau bằng cách sử dụng các loại phân tích khác nhau. Không nhất thiết tất cả các phân tích đều sử dụng tất cả dữ liệu. Các phân tích khác nhau sử dụng các phần khác nhau của DỮ LIỆU LỚN(BIG DATA) để tạo ra các kết quả và dự đoán cần thiết.

Dữ liệu lớn(Big Data) về cơ bản là dữ liệu mà bạn phân tích để tìm ra kết quả mà bạn có thể sử dụng cho các dự đoán và các mục đích sử dụng khác. Khi sử dụng thuật ngữ Dữ liệu lớn(Big Data) , đột nhiên công ty hoặc tổ chức của bạn đang làm việc với Công nghệ thông tin cấp cao nhất để(Information) suy ra các loại kết quả khác nhau bằng cách sử dụng cùng một dữ liệu mà bạn đã lưu trữ một cách cố ý hoặc vô ý trong nhiều năm.

Dữ liệu lớn lớn như thế nào

Về cơ bản, tất cả dữ liệu kết hợp là Dữ liệu lớn(Big Data) , nhưng nhiều nhà nghiên cứu đồng ý rằng Dữ liệu lớn -(Big Data –) như vậy - không thể được thao tác bằng bảng tính thông thường và các công cụ quản lý cơ sở dữ liệu thông thường. Họ cần các công cụ phân tích đặc biệt như Hadoop (chúng tôi sẽ nghiên cứu vấn đề này trong một bài đăng riêng) để tất cả dữ liệu có thể được phân tích cùng một lúc (có thể bao gồm nhiều lần phân tích).

Trái ngược với điều trên, mặc dù tôi không phải là chuyên gia về chủ đề này, tôi sẽ nói rằng dữ liệu của bất kỳ tổ chức nào - lớn hay nhỏ, có tổ chức hay không có tổ chức - là Dữ liệu lớn cho tổ chức đó và tổ chức đó có thể chọn các công cụ của riêng mình để phân tích dữ liệu.(Contrary to the above, though I am not an expert on the subject, I would say that data with any organization – big or small, organized or unorganized – is Big Data for that organization and that the organization may choose its own tools to analyze the data.)

Thông thường, để phân tích dữ liệu, trước đây người ta thường tạo các tập dữ liệu khác nhau dựa trên một hoặc nhiều trường chung để việc phân tích trở nên dễ dàng. Trong trường hợp Dữ liệu lớn(Big Data) , không cần tạo các tập hợp con để phân tích nó. Giờ đây, chúng tôi có các công cụ có thể phân tích dữ liệu bất kể nó khổng lồ như thế nào. Có thể, các công cụ này tự phân loại dữ liệu ngay cả khi chúng đang phân tích nó.

Tôi thấy điều quan trọng là phải đề cập đến hai câu trong cuốn sách “Dữ liệu lớn” của Jimmy Guterman :

Big Data: when the size and performance requirements for data management become significant design and decision factors for implementing a data management and analysis system.”

-Và-

“For some organizations, facing hundreds of gigabytes of data for the first time may trigger a need to reconsider data management options. For others, it may take tens or hundreds of terabytes before data size becomes a significant consideration.”

Vì vậy, bạn thấy rằng cả khối lượng và phân tích đều là một phần quan trọng của Dữ liệu lớn(Big Data) .

Đọc(Read) : Khai thác dữ liệu là gì?(What is Data Mining?)

Khái niệm dữ liệu lớn

Đây là một điểm khác mà hầu hết mọi người không đồng ý. Một số chuyên gia nói rằng các khái niệm dữ liệu lớn(Big Data Concepts) là ba chữ V:

  1. Âm lượng
  2. Vận tốc
  3. Đa dạng

Một số người khác thêm vài chữ V nữa vào khái niệm:

  1. Hình dung
  2. Tính xác thực (Độ tin cậy)
  3. Sự thay đổi và
  4. Giá trị

Tôi sẽ trình bày các khái niệm về Dữ liệu lớn(Big Data) trong một bài viết riêng vì bài đăng này đã trở nên lớn. Theo tôi, ba chữ V đầu tiên là đủ để giải thích khái niệm Dữ liệu lớn(Big Data) .

Ví dụ về Dữ liệu lớn - Cách NetFlix(Big Data Example – How NetFlix) sử dụng nó để khắc phục sự cố

Vào năm 2008, NetFlix bị ngừng hoạt động do nhiều khách hàng bị bỏ lại trong bóng tối. Trong khi một số vẫn có thể truy cập các dịch vụ phát trực tuyến, hầu hết trong số họ không thể. Một số khách hàng đã có được đĩa DVD(DVDs) đã thuê của họ trong khi những người khác không thành công. Một bài đăng blog trên Wall Street Journal cho biết Netflix vừa bắt đầu phát trực tuyến theo yêu cầu.

Sự cố ngừng hoạt động khiến ban quản lý phải suy nghĩ về các vấn đề có thể xảy ra trong tương lai và do đó; nó đã chuyển sang Dữ liệu lớn(Big Data) . Nó đã phân tích các khu vực có lưu lượng truy cập cao, các điểm nhạy cảm và thông lượng mạng, v.v. bằng cách sử dụng dữ liệu đó và làm việc trên đó để giảm thời gian ngừng hoạt động nếu một vấn đề trong tương lai phát sinh khi nó trở nên toàn cầu. Đây là liên kết(the link) đến Blog của Tạp chí Phố Wall(Wall Street Journal Blog) , nếu bạn muốn xem các ví dụ về Dữ liệu lớn(Big Data) .

Ở trên tóm tắt dữ liệu lớn là gì trong ngôn ngữ của người dân. Bạn có thể gọi nó là một phần giới thiệu rất cơ bản. Mình dự định sẽ viết thêm một vài bài về các yếu tố liên quan như - Khái niệm(Concepts) , Phân tích(Analysis) , Công cụ(Tools)cách sử dụng Dữ liệu(uses of Big Data) lớn , Dữ liệu lớn 3 V’s ,… Trong khi đó, nếu bạn muốn bổ sung thêm điều gì ở trên, hãy bình luận và chia sẻ với chúng tôi.

Đọc tiếp(Read next) : Web Scraping là gì?



About the author

Tôi có kiến ​​thức nền tảng về kỹ thuật máy tính và công nghệ thông tin, điều này đã cho tôi một góc nhìn độc đáo về nền tảng Windows 10 và 11. Đặc biệt, tôi được trải nghiệm với cả "Trải nghiệm máy tính để bàn" của Windows 10 và trình duyệt Microsoft Edge. Kinh nghiệm của tôi với hai nền tảng này giúp tôi hiểu sâu sắc về cách chúng hoạt động và kiến ​​thức chuyên môn của tôi trong các lĩnh vực này cho phép tôi đưa ra lời khuyên đáng tin cậy về cách cải thiện chúng.



Related posts