Dữ liệu lớn: Cơ hội lớn cho ai?

Chúng ta ít nhiều đã nghe nói đến những dự báo về sự bùng nổ dữ liệu trong thời gian tới. Dữ liệu lớn – Big Data như được gọi và được cho là mang lại những cơ hội lớn và rất lớn… nhưng cho những ai?


Theo Công ty IDC, lượng dữ liệu lưu trữ dưới dạng điện tử sẽ đạt 35.000 tỉ gigabyte vào năm 2020, tăng gấp 44 lần so với năm 2009. Đây được xem là mỏ vàng thông tin cho những ai muốn khai thác chúng, dẫn đến sự phát triển của công nghệ “dữ liệu lớn”.

 

Tiêu chí 3V


“Dữ liệu lớn” là một nhóm các công nghệ khai phá dữ liệu giúp việc lưu trữ, thao tác và phân tích dữ liệu trở nên rẻ và nhanh hơn bao giờ hết. Từng chỉ xuất hiện trong môi trường siêu điện toán, công nghệ dữ liệu lớn giờ đây có thể được sử dụng tại nhiều doanh nghiệp, từ đó làm thay đổi cách thức kinh doanh của nhiều ngành công nghiệp.

 

Công nghệ dữ liệu lớn cho doanh nghiệp đang ngày càng phổ biến, một phần nhờ chi phí điện toán hạ trong lúc các hệ thống có thể thực hiện đa xử lý. Giá thành của bộ nhớ chính cũng giảm và các công ty có thể xử lý nhiều dữ liệu “trong bộ nhớ” hơn bao giờ hết. Thêm vào đó, việc gắn kết máy tính với nhau vào trong những cụm máy chủ cũng trở nên dễ dàng hơn. Ông Carl Olofson, một nhà phân tích về quản lý cơ sở dữ liệu tại IDC, cho biết sự kết hợp của ba điều nói trên đã tạo ra dữ liệu lớn. Ông cho biết: “Chúng ta không chỉ làm tốt những công việc này mà còn làm với chi phí hợp lý hơn”.

 

Không phải công ty nào có kho dữ liệu lớn cũng có thể nói họ đang sử dụng công nghệ dữ liệu lớn. Để đáp ứng tiêu chuẩn của dữ liệu lớn, công nghệ này trước hết phải có giá thành hợp lý, đồng thời đáp ứng hai trong ba tiêu chí mà IBM gọi là 3V: variety (sự đa dạng), volume (dung lượng lớn) và velocity (tốc độ). Sự đa dạng có nghĩa là dữ liệu có dạng cấu trúc và dạng phi cấu trúc. Dung lượng lớn có nghĩa là dung lượng dữ liệu được thu thập và phân tích là rất lớn. Trong khi đó, tốc độ ở đây chính là tốc độ xử lý dữ liệu.

 

Chỉ mới cách đây một năm, những người sử dụng công nghệ dữ liệu lớn chủ yếu là các công ty web lớn, như Facebook và Yahoo!. Giờ đây, công nghệ này đã hiện diện trong bất kỳ doanh nghiệp, tổ chức nào có lượng dữ liệu lớn, như ngân hàng, công ty điện, cộng đồng tình báo… Theo ông Olofson, nhiều doanh nghiệp bắt đầu nhận thấy giá trị của những thông tin mà họ nắm giữ và điều này sẽ cho phép công nghệ dữ liệu lớn ngày càng được chú ý. Kết hợp công nghệ này với phần cứng, phần mềm có giá cả hợp lý, các doanh nghiệp nhận thấy mình có nhiều cơ hội chuyển đổi cách thức hoạt động, kinh doanh.

 

Thay đổi cách thức hoạt động, kinh doanh


Công ty TRA, tại thành phố New York, giúp các tổ chức đo lường giá trị của quảng cáo trên truyền hình. Hệ thống dữ liệu lớn của TRA xử lý luồng dữ liệu về thói quen xem truyền hình của 1,7 triệu hộ gia đình theo từng giây một – điều không thể làm nếu không có công nghệ dữ liệu lớn. Ông Mark Lieberman, Giám đốc điều hành TRA, nhận định rằng công nghệ dữ liệu lớn có tiềm năng cách mạng hóa ngành công nghiệp mua quảng cáo truyền hình trị giá 70 tỉ đô la nhờ chính xác hơn các phương pháp đo lường truyền thống.

 

Tương tự, công nghệ dữ liệu lớn cũng đang cách mạng hóa hoạt động kinh doanh tại công ty Catalina Marketing, đặt trụ sở ở bang Florida (Mỹ). Công ty này quản lý một cơ sở dữ liệu có dung lượng 2,5 petabyte, chứa đựng lịch sử mua sắm của hơn 190 triệu khách hàng tại các cửa hàng tạp hóa ở Mỹ trong nhiều năm qua. Cơ sở dữ liệu đơn lẻ lớn nhất của công ty có đến 425 tỉ dòng dữ liệu, và công ty quản lý 625 triệu dòng trong cơ sở dữ liệu này mỗi ngày. Bằng cách phân tích kho dữ liệu của mình, Catalina giúp các nhà sản xuất hàng tiêu dùng và chuỗi siêu thị lớn dự báo người tiêu dùng có thể mua gì và những ai sẽ quan tâm đến sản phẩm mới.

 

Trong khi đó, ngành công nghiệp điện cũng bắt đầu hiểu được những giá trị mà lượng dữ liệu khổng lồ họ đang nắm giữ có thể mang lại. Một công ty điện sử dụng Hadoop, môi trường ứng dụng cho dữ liệu lớn, để phân tích dữ liệu đi vào đồng hồ điện thông minh. Thiết bị này ban đầu được dùng để tự động thực hiện quá trình thanh toán tiền điện, nhưng giờ đây còn thu thập thông tin về bất kỳ dao động nào của cường độ dòng điện trên đường dây. Ông Olofson nói: “Một vụ mất điện sẽ gây ra sự dao động của cường độ dòng điện, và các công ty có thể phát hiện, xử lý sự cố trước khi khách hàng gọi điện thoại đến thông báo vụ việc”. Ông Olofson dự báo rằng các công ty điện sẽ sử dụng dữ liệu lớn để cải thiện dịch vụ cung cấp cho khách hàng và giảm bớt chi phí hoạt động thông qua việc giám sát lưới điện và phát hiện những vấn đề phát sinh.

 

Riêng các nhà tiếp thị thương hiệu đang thử nghiệm công nghệ dữ liệu lớn vào việc “phân tích tình cảm” trong truyền thông xã hội. Chẳng hạn họ theo dõi những nội dung trên mạng xã hội Twitter để phát hiện những thành viên trên đó đang nói và suy nghĩ gì về một sản phẩm cụ thể nào đó.

 

Dù vậy, việc khai thác hữu hiệu công nghệ dữ liệu lớn không phải dễ. Để làm điều này, theo giới chuyên gia, các công ty cần sở hữu một đội ngũ nhân viên công nghệ thông tin giỏi chuyên môn và có thể thích ứng với những tiến bộ của công nghệ cũng như những yêu cầu của công ty. Ông Olofson gợi ý: “Nếu công ty bạn chưa sẵn sàng thì hãy làm việc với một nhà cung cấp dịch vụ – có thể là một dịch vụ đám mây – hoặc chờ đến khi xuất hiện những sản phẩm phần mềm, dịch vụ được hỗ trợ”. Ngoài ra, các nhà phân tích cho rằng công nghệ dữ liệu lớn vẫn chưa thể thay thế hoàn toàn công nghệ kho dữ liệu và những công cụ khai phá dữ liệu hiện nay.

 

Theo TBKTSG(Computerworld)