Tài liệu Dữ liệu lớn (Big data) - Phần 2

207 trang Đức Chiến 03/01/2024 5830 Free

Download

Bạn đang xem 20 trang mẫu của tài liệu "Tài liệu Dữ liệu lớn (Big data) - Phần 2", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

tai_lieu_du_lieu_lon_big_data_phan_2.pdf

Nội dung text: Tài liệu Dữ liệu lớn (Big data) - Phần 2

5. DỮ LIỆU HÓA Matthew Fontaine Maury là một sĩ quan Hải quân Hoa Kỳ đầy triển vọng. Trên đường nhận một nhiệm vụ mới tại Consort vào năm 1839, xe ngựa của ông đột nhiên trượt khỏi đường, lật nhào, và ném ông vào không khí. Ông bị ngã đau, gãy xương đùi và trẹo khớp gối. Khớp được một bác sĩ địa phương chỉnh lại vào vị trí, nhưng xương đùi thì được xếp rất tồi và vài ngày sau bị tháo ra để đặt lại. Những vết thương đã làm Maury, lúc đó mới 33 tuổi, bị liệt một phần và không còn thích hợp với biển. Sau gần ba năm hồi phục, Hải quân xếp cho ông công việc bàn giấy, phụ trách một nơi nghe chẳng hấp dẫn chút nào - Kho Bản đồ và Khí giới. Hóa ra đó lại là nơi hoàn hảo cho ông. Là một hoa tiêu trẻ, Maury từng rất bực bội vì các con tàu cứ chạy ngoằn ngoèo trên đại dương thay vì đi theo những tuyến đường trực tiếp hơn. Khi ông hỏi các thuyền trưởng về chuyện này, họ trả lời rằng việc đi theo một tuyến đường quen thuộc sẽ tốt hơn là chấp nhận may rủi với một tuyến đường mình không nắm rõ bằng, vốn dĩ tiềm ẩn những nguy hiểm. Họ xem đại dương như là một địa hạt không thể đoán trước, nơi các thủy thủ phải đối mặt những bất ngờ với tất cả gió và sóng. Tuy nhiên, từ những chuyến đi của ông, Maury biết rằng điều này không hoàn toàn đúng, ông nhìn ra những khuôn mẫu ở khắp mọi nơi. Trong một chặng dừng kéo dài tại Valparaiso, Chile, ông đã chứng kiến những cơn gió hoạt động chính xác cứ như đồng hồ. Một cơn gió mạnh vào chiều muộn sẽ đột nhiên dịu đi lúc mặt trời lặn và trở thành một làn gió nhẹ, cứ như thể ai đó vừa ngắt van. Trong một chuyên đi khác ông đã vượt qua dòng hải lưu xanh ấm áp Gulf Stream khi nó chảy giữa những khoảng tối của nước biển Đại Tây Dương. Trông nó thật khác biệt và ổn định, cứ như thể đó là dòng sông Mississippi vậy. Thật ra, người Bồ Đào Nha đã đi lại trên Đại Tây Dương hàng thế kỷ bằng cách
dựa vào các luồng gió đông và tây đều đặn được gọi là “gió mậu dịch”. Bất cứ khi nào chuẩn úy hải quân Maury đến một cảng mới, ông đều tìm kiếm những thuyền trưởng già để thu thập kiến thức của họ, dựa trên các trải nghiệm được truyền lại qua các thế hệ. Ông đã học được những kiến thức về thủy triều, gió, và hải lưu hoạt động theo quy luật, nhưng không hề được tìm thấy trong các sách và bản đồ mà Hải quân cấp cho các thủy thủ. Thay vào đó, họ dựa trên những bản đồ đôi khi cũ cả trăm năm, nhiều bản đồ có rất nhiều thiếu sót hoặc hoàn toàn không chính xác. Trong cương vị mới là người quản lý Kho Bản đồ và Quân dụng, ông tập trung khắc phục điều đó. Khi nhận nhiệm vụ, ông kiểm kê các phong vũ biểu, la bàn, kính lục phân, và đồng hồ bấm giờ trong bộ sưu tập của kho. Ông cũng chú ý tới vô số những cuốn sách, bản đồ, và biểu đồ hàng hải có trong kho. Ông đã tìm thấy những thùng mốc đầy các sổ ghi chép cũ từ tất cả những chuyến đi trước đây của các thuyền trưởng Hải quân. Người tiền nhiệm của ông đã xem chúng là rác. Với những lời hài hước hoặc những hình phác thảo kỳ quặc trên lề các trang giấy, chúng đôi khi có vẻ giống như một cách để thoát khỏi sự nhàm chán của chuyến đi hơn là một sự ghi chép về hành trình của con tàu. Nhưng khi Maury phủi bụi những cuốn sách ố màu nước biển và xem kỹ bên trong, ông thật sự thích thú. Đây là những thông tin ông cần: hồ sơ về gió, nước và thời tiết tại những địa điểm cụ thể trong những ngày cụ thể. Mặc dù một số bản ghi cung cấp được ít giá trị, nhiều bản khác đã cho thấy bạt ngàn thông tin hữu ích. Ghép tất cả chúng lại, Maury nhận thấy một hình thức hoàn toàn mới của biểu đồ điều hướng sẽ hoàn toàn khả thi. Maury và cả tá “máy tính” của ông - chức danh của những người tính toán số liệu - bắt đầu quá trình cần mẫn trích xuất và lập bảng các thông tin đã bị giam cầm bên trong các cuốn sổ ghi chép đang bị
hủy hoại. Maury tổng hợp các dữ liệu và phân chia toàn bộ Đại Tây Dương thành các khối năm độ kinh tuyến và vĩ tuyến. Với từng phân khúc ông ghi nhiệt độ, tốc độ, hướng của gió và sóng, cùng với tháng, vì những điều kiện này khác nhau tùy thuộc vào thời gian trong năm. Khi kết hợp lại, dữ liệu cho thấy những mô hình và chỉ ra được những tuyến đường hiệu quả hơn. Lời khuyên của nhiều thế hệ thủy thủ đôi khi đã đưa những con tàu thẳng tiến vào những vùng yên ả hoặc khiến chúng phải đọ sức với gió và dòng chảy ngược chiều. Trên một tuyến đường thông thường, từ New York đến Rio de Janeiro, các thủy thủ từ lâu đã có tư tưởng phải chống lại thiên nhiên thay vì dựa vào nó. Các hoa tiêu Mỹ được dạy tránh các nguy hiểm của một hành trình về phía nam thẳng đến Rio. Vì vậy, những con tàu của họ đã lướt theo dòng đông nam trước khi chuyển qua dòng tây nam sau khi vượt qua đường xích đạo. Khoảng cách đi thuyền thường lên tới ba lần xuyên suốt toàn bộ Đại Tây Dương. Tuyến đường phức tạp hóa ra lại là vô nghĩa. Một đường đơn giản trực tiếp về phía nam cũng đã là tốt. Để tăng độ chính xác, Maury cần nhiều thông tin hơn. Ông đã tạo ra một phiếu chuẩn để ghi nhật ký dữ liệu của tàu và yêu cầu tất cả các tàu Hải quân Mỹ sử dụng và nộp lại khi kết thúc chuyến đi. Các tàu buôn rất muốn có được những sơ đồ của ông, nhưng Maury kiên quyết yêu cầu đổi lại họ phải nộp các phiếu ghi nhật ký tàu của họ (một phiên bản sớm của một mạng xã hội lan truyền). “Mỗi con tàu đi trên đại dương”, ông tuyên bố, “có thể từ nay về sau được xem như một đài quan sát nổi, một ngôi đền của khoa học”. Để tinh chỉnh các sơ đồ, ông đã tìm kiếm các điểm dữ liệu khác (giống như Google xây dựng trên thuật toán PageRank để bao gồm nhiều tín hiệu hơn). Ông yêu cầu các thuyền trưởng ném chai với các ghi chú cho thấy ngày, vị trí, gió, và dòng chảy phổ biến trên biển theo định kỳ, và vớt những chai như vậy khi
phát hiện ra chúng. Nhiều tàu cắm một lá cờ đặc biệt để cho thấy họ đã hợp tác với việc trao đổi thông tin (tiền thân của các biểu tượng chia sẻ liên kết sau này xuất hiện trên một số trang web). Từ các dữ liệu, các tuyến đường biển tự nhiên đã tự thể hiện, nơi mà gió và dòng chảy là đặc biệt thuận lợi. Các sơ đồ của Maury cắt giảm được những hành trình dài, thường khoảng một phần ba, giúp các thương gia tiết kiệm được rất nhiều chi phí. “Cho đến khi có được những tài liệu của ông, tôi đã vượt qua đại dương trong mịt mù”, một thuyền trưởng đã viết lời tán thưởng như vậy. Và thậm chí cả những người đi biển sành sỏi, vẫn từ chối các sơ đồ mới lạ và dựa trên những cách truyền thống hoặc trực giác của họ, cũng đóng một vai trò hữu ích: nếu hành trình của họ mất nhiều thời gian hơn hoặc gặp thảm họa, xem như họ đã chứng minh tính tiện ích cho hệ thống của Maury. Đến năm 1855, khi xuất bản tác phẩm có uy tín The Physical Geography of the Sea, Maury đã vẽ được 1,2 triệu điểm dữ liệu. “Do đó, một thủy thủ trẻ, thay vì mò mẫm theo cách của mình cho đến khi ánh sáng của kinh nghiệm đến với anh ta thì qua đây sẽ thấy rằng anh ta đã có kinh nghiệm của một ngàn hoa tiêu để hướng dẫn cho mình, cùng một lúc”, ông đã viết. Công trình của ông có ý nghĩa quan trọng cho việc lắp đặt cáp điện báo xuyên Đại Tây Dương đầu tiên. Và, sau một vụ va chạm thảm khốc trên biển, ông đã nhanh chóng sắp đặt hệ thống các làn tàu vận chuyển mà ngày nay đã trở thành phổ biến. Thậm chí ông còn áp dụng phương pháp của mình cho thiên văn học: khi hành tinh Neptune được phát hiện vào năm 1846, Maury đã có ý tưởng tuyệt vời là phối hợp các tài liệu lưu trữ đã nhầm lẫn nhắc đến nó như một ngôi sao, và chúng đã giúp vẽ được quỹ đạo của Neptune. Maury đã hầu như bị bỏ qua trong các sách lịch sử Mỹ, có lẽ bởi con người gốc Virginia này đã từ chức khỏi Hải quân trong thời kỳ Nội chiến và phục vụ như một điệp viên ở Anh cho phe Liên minh. Nhưng nhiều năm trước đó, khi ông đến châu Âu để kêu gọi sự hỗ trợ quốc tế cho các sơ đồ của mình, bốn quốc gia
đã phong tước hiệp sĩ cho Maury, và ông đã nhận được huy chương vàng từ tám nước khác, bao gồm cả Vatican. Vào thời kỳ đầu của thế kỷ XXI, biểu đồ dẫn đường do Hải quân Mỹ xuất bản vẫn mang tên ông. Trung tá Maury, “Thám tử của đại dương”, là một trong những người đầu tiên nhận ra rằng có một thứ giá trị đặc biệt trong một gói tổng hợp rất lớn của dữ liệu, điều không thể có được với lượng dữ liệu nhỏ hơn - một nguyên lý cốt lõi của dữ liệu lớn. Về cơ bản, ông hiểu rằng những tập nhật ký hàng hải mốc meo của Hải quân đã thực sự tạo nên “dữ liệu” có thể khai thác, trích xuất và lập bảng. Khi làm như vậy, ông là một trong những người tiên phong của dữ liệu hóa, khai quật dữ liệu từ một nguồn mà không ai nghĩ rằng có chứa bất kỳ giá trị nào. Giống như Oren Etzioni tại Farecast, người đã sử dụng thông tin về giá cũ của ngành công nghiệp hàng không để tạo ra một công việc kinh doanh sinh lợi, hay các kỹ sư tại Google, những người đã tận dụng những câu hỏi tìm kiếm cũ để hiểu về sự lây lan của dịch cúm, Maury đã lấy thông tin được tạo ra cho một mục đích và chuyển đổi nó thành một cái gì đó khác nữa. Phương pháp của ông, gần tương tự với các kỹ thuật dữ-liệu-lớn ngày hôm nay, thật đáng kinh ngạc nếu xét rằng nó đã được thực hiện chỉ với giấy và bút chì. Câu chuyện của ông làm nổi bật mức độ của việc sử dụng dữ liệu trước thời đại số hóa. Ngày nay chúng ta có xu hướng kết hợp hai thứ này, nhưng điều quan trọng là giữ chúng tách biệt. Để có được một sự hình dung đầy đủ hơn về cách dữ liệu được trích xuất từ những nơi ít ngờ đến nhất, hãy xem một ví dụ hiện đại hơn. Đánh giá tư thế của con người là môn nghệ thuật cả khoa học của Shigeomi Koshimizu, một giáo sư tại Học viện cao cấp Nhật Bản về Công nghệ ở Tokyo. Ít ai nghĩ rằng cách một người ngồi lại chứa đựng thông tin, nhưng thật ra là có. Khi một người đang ngồi, những yếu tố như đường nét của cơ thể, tư thế, và phân
phối trọng lượng đều có thể được định lượng và lập bảng. Koshimizu và đội ngũ kỹ sư của ông chuyển đổi các phần phía sau cơ thể thành dữ liệu bằng cách đo áp lực tại 360 điểm khác nhau từ cảm biến trong ghế ngồi xe và lập chỉ số mỗi điểm trên thang điểm từ 0 đến 256. Kết quả là mỗi cá nhân sẽ có một mã số duy nhất. Trong một thử nghiệm, hệ thống đã có thể phân biệt giữa khá nhiều người với độ chính xác 98 phần trăm. Nghiên cứu kể trên không phải thứ ngớ ngẩn. Công nghệ này đang được phát triển thành một hệ thống chống trộm trong xe hơi. Một chiếc xe được trang bị công nghệ này sẽ nhận ra một người nào đó, khác với người lái xe đã được xác nhận, đang ngồi sau tay lái. Khi đó nó sẽ yêu cầu một mật khẩu để cho phép tiếp tục lái xe hoặc ngắt động cơ. Việc chuyển các tư thế ngồi thành dữ liệu đã tạo ra một dịch vụ khả thi và một công việc kinh doanh có khả năng sinh lợi. Và tính hữu dụng của nó có thể đi xa hơn cả việc ngăn chặn hành vi trộm cắp xe hơi. Ví dụ các dữ liệu tổng hợp có thể tiết lộ những manh mối về sự liên hệ giữa tư thế của người lái và mức an toàn giao thông, chẳng hạn như tư thế ngồi trước khi xảy ra tai nạn. Hệ thống cũng có thể cảm nhận được khi người lái xe có dấu hiệu mệt mỏi để gửi một cảnh báo hoặc tự động nhấn phanh. Và có thể nó không chỉ ngăn chặn một vụ ăn cắp xe mà còn xác định được kẻ trộm từ cặp mông của hắn (có thể nói như vậy). Giáo sư Koshimizu đã chọn một thứ chưa bao giờ được xem như dữ liệu - hoặc thậm chí từng được hình dung rằng có khả năng cung cấp thông tin - và chuyển đổi nó thành một dạng số liệu. Tương tự như vậy, thuyền trưởng Maury đã chọn những tài liệu dường như rất ít có khả năng sử dụng để trích thông tin, biến nó thành dữ liệu vô cùng hữu ích. Việc này giúp các thông tin được sử dụng theo cách mới mẻ và tạo ra một giá trị độc đáo. Từ “dữ liệu” mang nghĩa “đã có” trong tiếng Latin, theo nét nghĩa là một “điều thực tế”. Nó đã trở thành tiêu đề của một công
trình kinh điển của Euclid, trong đó ông giải thích hình học từ những gì được biết đến hoặc có thể được chứng minh là được biết đến. Ngày nay dữ liệu ám chỉ một cái gì đó cho phép nó được ghi lại, phân tích, và tổ chức. Chưa có thuật ngữ chính xác cho các loại chuyển đổi như của thuyền trưởng Maury và giáo sư Koshimizu. Vì vậy, hãy tạm gọi chúng là dữ liệu hóa (datafication). Dữ liệu hóa một hiện tượng là đặt nó trong một dạng định lượng để nó có thể được phân tích và lập bảng. Một lần nữa, điều này rất khác với việc số hóa - quá trình chuyển đổi thông tin dạng tương tự thành những số 0 và 1 của mã nhị phân để máy tính có thể xử lý được, số hóa không phải là thứ đầu tiên chúng ta làm với máy tính. Thời kỳ ban đầu của cuộc cách mạng máy tính là tính toán, như từ nguyên của nó cho thấy. Chúng ta sử dụng máy để làm các phép tính toán từng đòi hỏi rất nhiều thời gian nếu bằng các phương pháp trước đây: chẳng hạn như bảng quỹ đạo tên lửa, tổng điều tra dân số, và dự báo thời tiết. Chỉ sau đó mới đến việc lấy nội dung tương tự và số hóa nó. Do đó khi Nicholas Negroponte của MIT Media Lab xuất bản cuốn sách mang tính bước ngoặt của ông năm 1995 tên là BeingDigital, một trong những chủ đề lớn của ông là sự chuyển đổi từ các nguyên tử sang các bit. Về căn bản, chúng ta đã số hóa văn bản trong những năm 1990. Gần đây hơn, khi khả năng lưu trữ, sức mạnh xử lý, và băng thông đã tăng lên, chúng ta đã thực hiện nó với các hình dạng nội dung khác như hình ảnh, video, và âm nhạc. Ngày nay có một niềm tin tuyệt đối trong các chuyên gia công nghệ rằng dữ liệu lớn bắt nguồn từ cuộc cách mạng Silicon. Nhưng tất nhiên không phải vậy. Các hệ thống công nghệ thông tin hiện đại chắc chắn đã làm cho dữ liệu lớn trở nên khả thi, nhưng cốt lõi của việc chuyển đổi sang dữ liệu lớn là sự tiếp nối của cuộc tìm kiếm cổ xưa của loài người để đo lường, ghi lại và phân tích thế giới. Cuộc cách mạng IT là điều hiển nhiên khắp xung quanh chúng ta, nhưng sự nhấn mạnh chủ yếu vẫn trên
chữ T (technology), công nghệ. Đã tới lúc phải thay đổi cách nhìn của chúng ta để tập trung vào chữ I (information), thông tin. Để nắm bắt thông tin có thể định lượng, để dữ liệu hóa, chúng ta cần biết cách đo lường và ghi lại những gì chúng ta đo. Điều này đòi hỏi các công cụ thích hợp. Nó cũng đòi hỏi một khao khát được định lượng và ghi chép lại. Cả hai đều là điều kiện tiên quyết của việc dữ liệu hóa, và chúng ta đã phát triển các yếu tố cơ sở cần thiết cho dữ liệu hóa từ nhiều thế kỷ trước buổi bình minh của thời đại kỹ thuật số. Định lượng thế giới Khả năng ghi thông tin là một trong những đường ranh phân giới giữa xã hội nguyên thủy và xã hội tiên tiến. Đếm và đo lường cơ bản về chiều dài và trọng lượng là một trong những công cụ mang tính khái niệm lâu đời nhất của các nền văn minh sớm. Vào thiên niên kỷ thứ ba trước Công nguyên, ý tưởng về ghi chép lại thông tin đã tiến bộ đáng kể trong vùng thung lũng Indus, Ai Cập và Lưỡng Hà. Độ chính xác tăng lên, cũng như việc sử dụng đo lường trong cuộc sống hàng ngày. Sự phát triển của chữ viết ở vùng Lưỡng Hà đã mang đến một phương pháp chính xác cho việc theo dõi sản xuất và các giao dịch kinh doanh. Ngôn ngữ viết cho phép các nền văn minh sớm đo lường được những yếu tố thực tại, ghi lại chúng, và truy tìm chúng sau này. Kết hợp với nhau, việc đo lường và ghi nhận đã hỗ trợ việc tạo ra dữ liệu. Chúng là những nền tảng đầu tiên của dữ liệu hóa. Điều này tạo ra khả năng tái tạo hoạt động của con người. Ví dụ các tòa nhà có thể được sao lại từ hồ sơ các kích thước và vật liệu của chúng. Nó cũng cho phép thử nghiệm: một kiến trúc sư hay một nhà xây dựng có thể thay đổi một số kích thước nhất định trong khi vẫn giữ những kích thước khác không thay đổi, tạo ra một thiết kế mới - mà sau đó có thể được ghi lại. Các giao dịch thương mại có thể được ghi nhận, vì vậy người ta biết sản lượng
từ một vụ thu hoạch hay trên một cánh đồng (và bao nhiêu bị nhà nước lấy đi trong các loại thuế). Định lượng cho phép dự đoán và do đó lập kế hoạch, ngay cả khi chỉ là thô như đơn giản đoán xem mùa thu hoạch năm tiếp theo có dồi dào như các năm trước không. Nó cho phép các đối tác trong một giao dịch ghi nhận những gì họ còn nợ nhau. Nếu không có đo lường và ghi chép thì có thể đã không có tiền, vì sẽ không có được dữ liệu để hỗ trợ nó. Qua nhiều thế kỷ, việc đo lường được mở rộng từ chiều dài và trọng lượng đến diện tích, khối lượng và thời gian. Vào đầu thiên niên kỷ thứ nhất sau Công nguyên, các tính năng chính của đo lường đã có ở phương Tây. Nhưng có một thiếu sót đáng kể về cách thức đo lường của các nền văn minh sớm. Nó không được tối ưu hóa cho việc tính toán, thậm chí cả những phép tính toán tương đối đơn giản. Hệ thống đếm với các chữ số La Mã không phù hợp cho việc phân tích số. Nếu không có một hệ thống cơ số mười hay số thập phân, các phép nhân và chia những số lớn là rất khó khăn ngay cả đối với các chuyên gia, và các phép đơn giản cộng và trừ sẽ khó hiểu đối với hầu hết những người còn lại. Một hệ thống số khác đã được phát triển ở Ấn Độ vào khoảng thế kỷ thứ nhất sau Công nguyên. Nó đã lan đến Ba Tư và được cải thiện, rồi sau đó được chuyển sang những người Ả Rập, là những người đã tinh chỉnh nó rất nhiều. Nó là cơ sở của các chữ số Ả Rập chúng ta sử dụng ngày nay. Cuộc Thập tự chinh có thể đã hủy diệt các vùng đất mà người châu Âu xâm chiếm, nhưng kiến thức đã di chuyển từ Đông sang Tây, và có lẽ sự di chuyển quan trọng nhất là chữ số Ả Rập. Giáo hoàng Sylvester II, người từng nghiên cứu chúng, đã ủng hộ việc sử dụng chúng vào cuối thiên niên kỷ thứ nhất. Tới thế kỷ XII, các văn bản tiếng Ả Rập mô tả hệ thống này đã được dịch sang tiếng Latin và lan khắp châu Âu. Kết quả là toán học đã cất cánh. Ngay cả trước khi chữ số Ả Rập đến với châu Âu, việc tính toán
đã được cải thiện thông qua các bàn tính. Đó là những khay nhẵn, trên đó các thẻ được đặt để biểu thị số lượng. Bằng việc trượt các thẻ trong những vùng nhất định, người ta có thể cộng hoặc trừ. Tuy nhiên, phương pháp này có những hạn chế nghiêm trọng. Thật khó để tính toán những con số rất lớn và rất nhỏ cùng một lúc. Quan trọng nhất, những con số trên bàn tính này không rõ ràng. Một bước di chuyển sai hoặc một va chạm bất cẩn có thể thay đổi một con số, dẫn đến những kết quả không chính xác. Bàn tính có thể được chấp nhận cho việc tính toán, nhưng chúng rất kém để ghi chép. Và cách duy nhất để ghi lại, lưu trữ các số hiển thị trên các bàn tính là chuyển chúng trở lại vào chữ số La Mã không mấy hiệu quả. (Những người châu Âu chưa bao giờ được tiếp xúc với các bàn tính của phương Đông - trong nhận thức muộn màng thì đó là một điều tốt, vì các thiết bị này có thể đã kéo dài việc sử dụng chữ số La Mã ở phương Tây.) Toán học đã mang lại cho dữ liệu một ý nghĩa mới - bây giờ nó có thể được phân tích, chứ không chỉ được ghi lại và trích xuất. Việc áp dụng rộng rãi chữ số Ả Rập ở châu Âu đã phải mất hàng trăm năm, từ khi chúng xuất hiện vào thế kỷ XII đến cuối thế kỷ XVI. Vào thời điểm đó, các nhà toán học tự hào rằng họ có thể tính toán sáu lần nhanh hơn bằng chữ số Ả Rập so với bàn tính. Những gì cuối cùng đã giúp làm cho chữ số Ả Rập thành công là sự tiến hóa của một công cụ khác của dữ liệu hóa: kế toán kép. Các nhà kế toán đã phát minh ra sổ sách kế toán vào thiên niên kỷ thứ ba trước công nguyên. Trong khi sổ sách kế toán phát triển qua nhiều thế kỷ sau đó, chủ yếu nó vẫn là một hệ thống ghi chép một giao dịch cụ thể ở một nơi. Những gì nó không thể làm được là cho các nhà kế toán và các ông chủ của họ biết một cách dễ dàng vào bất cứ lúc nào những gì họ quan tâm nhất: liệu một tài khoản cụ thể hoặc toàn bộ một công việc làm ăn có lợi nhuận hay không. Điều này bắt đầu thay đổi vào thế kỷ XIV, khi các nhà kế toán tại Ý bắt đầu ghi các giao dịch sử dụng hai mục, một cho các khoản có và một cho các khoản nợ, do đó tổng thể
các tài khoản là cân bằng, vẻ đẹp của hệ thống này là nó cho phép dễ dàng nhìn thấy lợi nhuận và thua lỗ. Và đột nhiên dữ liệu vô tri vô giác bắt đầu biết nói. Ngày nay kế toán kép thường chỉ được dùng nhờ công dụng của nó đối với kế toán và tài chính. Nhưng nó cũng đại diện cho một bước ngoặt trong sự phát triển của việc sử dụng dữ liệu. Nó cho phép thông tin được ghi lại theo hình thức các “hạng mục” liên kết các tài khoản với nhau. Nó vận hành bằng một bộ quy tắc về cách ghi dữ liệu như thế nào - một trong những ví dụ sớm nhất của việc ghi chuẩn của thông tin. Một kế toán viên có thể nhìn vào sổ sách của người khác và hiểu được chúng. Nó được tổ chức để thực hiện một loại hình cụ thể của việc truy vấn dữ liệu - tính toán lợi nhuận hoặc lỗ cho mỗi tài khoản - nhanh chóng và đơn giản. Và nó cung cấp những bằng chứng kiểm toán của các giao dịch để dữ liệu được dễ dàng theo dõi hơn. Các chuyên gia công nghệ có lẽ sẽ đánh giá cao nó hôm nay: nó có tính năng “sửa lỗi” được tích hợp. Nếu một bên của sổ kế toán trông không ổn, người ta có thể kiểm tra các mục tương ứng bên kia. Tuy nhiên, cũng như chữ số Ả Rập, kế toán kép không phải là một thành công ngay lập tức. Hai trăm năm sau khi phương pháp này lần đầu tiên được nghĩ ra, nó đã cần một nhà toán học và một gia đình thương gia để làm thay đổi lịch sử của dữ liệu hóa. Nhà toán học đó là một tu sĩ dòng Phanxicô, Luca Pacioli. Năm 1494 ông xuất bản một cuốn sách giáo khoa, viết cho đại chúng, về toán học và ứng dụng thương mại của nó. Cuốn sách này là một thành công lớn và thật ra có vai trò như cuốn sách giáo khoa toán học của thời đó. Nó cũng là cuốn sách đầu tiên sử dụng chữ số Ả Rập, và do đó sự phổ biến của nó đã tạo điều kiện cho việc chấp nhận chữ số Ả Rập ở châu Âu. Tuy nhiên, đóng góp lâu dài nhất của nó là phần dành cho sổ sách kế toán, trong đó Pacioli giải thích cặn kẽ hệ thống kế toán kép. Trong nhiều thập kỷ kế
tiếp, tư liệu về sổ sách kế toán đã được xuất bản riêng bằng sáu ngôn ngữ, và nó đã là tài liệu tham khảo tiêu chuẩn về chủ đề này trong nhiều thế kỷ. Còn về gia đình thương gia, đó là những thương nhân Venetian nổi tiếng và những nhà bảo hộ nghệ thuật: gia tộc Medici. Trong thế kỷ XVI, họ đã trở thành những chủ ngân hàng có ảnh hưởng nhất ở châu Âu, một phần không nhỏ vì họ đã sử dụng một phương pháp ưu việt để ghi dữ liệu: hệ thống kép. Cùng với nhau, sách giáo khoa của Pacioli và sự thành công của Medici trong việc áp dụng nó đã chốt lại chiến thắng của kế toán kép - và rộng hơn đã thiết lập được việc sử dụng chữ số Ả Rập ở phương Tây. Song song với những tiến bộ trong việc ghi chép dữ liệu, những cách thức đo lường thế giới - biểu thị thời gian, khoảng cách, diện tích, khối lượng, và trọng lượng - đã tiếp tục đạt được độ chính xác ngày càng tăng. Lòng khao khát muốn hiểu được bản chất của sự vật thông qua định lượng đã định hình khoa học trong thế kỷ XIX, khi các học giả phát minh ra các công cụ và các đơn vị mới mẻ để đo và ghi lại dòng điện, áp suất không khí, nhiệt độ, tần số âm thanh Đó là một thời đại mà tuyệt nhiên tất cả mọi thứ đều phải được xác định, lập ranh giới, và ký hiệu. Niềm đam mê đó còn đi xa tới mức đo sọ người để đo lường cho khả năng trí tuệ của họ. May mắn là cái môn giả-khoa-học nghiên cứu về sọ đã hầu như chết yểu, nhưng mong muốn định lượng mọi thứ cứ ngày càng tăng. Việc đo lường hiện thực và ghi dữ liệu được phát triển mạnh là do sự kết hợp của các công cụ và một tư duy luôn sẵn sàng tiếp thu. Sự kết hợp này chính là mảnh đất màu mỡ từ đó dữ liệu hóa hiện đại đã phát triển. Các thành tố cho dữ liệu hóa đã tồn tại, mặc dù trong một thế giới của dữ liệu dạng tương tự, nó vẫn còn đắt đỏ và tốn thời gian. Trong nhiều trường hợp nó đòi hỏi dường như sự kiên nhẫn vô hạn, hoặc ít nhất là một sự cống hiến
lâu dài, như việc quan sát các ngôi sao và các hành tinh về đêm đầy nhọc nhằn của Tycho Brahe trong những năm 1500. Trong một số ít các trường hợp dữ liệu hóa thành công, như lược đồ hàng hải của trung tá Maury, nó thường là một sự trùng hợp may mắn: chẳng hạn Maury được giao một công việc bàn giấy nhưng với quyền truy cập vào một kho tàng nhật ký hàng hải. Tuy nhiên, bất cứ khi nào dữ liệu hóa thật sự thành công, nó đều tạo ra được những giá trị khổng lồ từ các thông tin cơ bản và mở ra những hiểu biết phi thường. Sự xuất hiện của máy tính đã mang đến những thiết bị đo lường và lưu trữ kỹ thuật số giúp dữ liệu hóa trở nên hiệu quả hơn rất nhiều. Nó cũng giúp khám phá được những giá trị tiềm ẩn từ việc phân tích toán học đối với dữ liệu. Tóm lại, số hóa tăng tốc cho dữ liệu hóa. Nhưng nó không phải là một sự thay thế. Hoạt động số hóa - chuyển thông tin dạng tương tự thành dạng máy tính đọc được - tự nó không phải là dữ liệu hóa. Khi từ ngữ trở thành dữ liệu Sự khác biệt giữa số hóa và dữ liệu hóa trở nên rõ ràng khi chúng ta xem xét một lĩnh vực mà cả hai hiện tượng đã xảy ra và so sánh kết quả của chúng: sách. Năm 2004 Google đã công bố một kế hoạch táo bạo. Họ sẽ lấy tất cả các trang của tất cả các cuốn sách mà họ có được (trong khuôn khổ pháp luật về bản quyền) và cho phép tất cả mọi người trên toàn thế giới tìm kiếm và truy cập miễn phí qua Internet. Để đạt được điều này công ty hợp tác với một số thư viện lớn nhất và uy tín nhất trên thế giới và phát triển những máy quét có thể tự động lật các trang, để việc quét hàng triệu cuốn sách vừa có thể thực hiện được và vừa khả thi về mặt tài chính. Đầu tiên, Google số hóa văn bản: từng trang được quét và ghi trong một tập tin hình ảnh có độ phân giải kỹ thuật số cao, được
lưu trữ trên máy chủ của Google. Trang sách được chuyển thành một bản sao kỹ thuật số có thể dễ dàng được bất kỳ ai ở bất kỳ đâu truy cập thông qua Web. Tuy nhiên, việc truy cập sẽ đòi hỏi người đọc phải biết cuốn sách nào có thông tin mình quan tâm, hoặc phải đọc nhiều để tìm ra thông tin cần thiết. Người ta không thể tìm kiếm văn bản theo từ khóa, hoặc phân tích nó, bởi vì văn bản chưa được dữ liệu hóa. Tất cả những gì Google có là những hình ảnh mà chỉ con người mới có thể biến đổi thành thông tin hữu ích - bằng cách đọc. Dù nó vẫn là một công cụ tuyệt vời - một Thư viện Alexandria kỹ thuật số hiện đại, toàn diện hơn bất kỳ thư viện nào trong lịch sử - Google vẫn muốn nhiều hơn nữa. Họ hiểu rằng thông tin chứa đựng những giá trị mà chỉ có thể được chuyển tải một khi nó được dữ liệu hóa. Và do vậy Google đã sử dụng phần mềm nhận dạng ký tự quang học để đọc một hình ảnh kỹ thuật số và nhận dạng ra các chữ cái, từ, câu, và đoạn văn trên đó. Kết quả là văn bản đã được dữ liệu hóa chứ không chỉ là một hình ảnh kỹ thuật số của trang sách. Bây giờ các thông tin trên trang sách mới có thể được sử dụng không chỉ cho người đọc, mà còn cho các máy tính để xử lý và cho các thuật toán để phân tích. Dữ liệu hóa làm cho văn bản có thể lập chỉ mục và do đó có thể tìm kiếm được. Và nó cho phép một dòng phân tích văn bản bất tận. Bây giờ chúng ta có thể khám phá khi nào thì những từ hoặc cụm từ nhất định được sử dụng lần đầu tiên, hoặc trở nên phổ biến. Đó chính là thứ kiến thức làm sáng tỏ sự lan truyền của những ý tưởng và quá trình tiến hóa của tư duy con người qua nhiều thế kỷ và trong nhiều ngôn ngữ khác nhau. Bạn có thể tự thử nghiệm. Ngram Viewer của Google ( sẽ tạo ra một đồ thị của việc sử dụng các từ hoặc cụm từ theo thời gian, bằng cách sử dụng toàn bộ chỉ mục Sách của Google như một nguồn dữ liệu. Trong vòng vài giây chúng ta khám phá ra rằng cho đến năm 1900 thuật ngữ “nhân quả” được sử dụng thường xuyên
hơn “tương quan”, nhưng sau đó tỷ lệ này đã đảo ngược. Chúng ta có thể so sánh phong cách văn bản và xác định được tác giả khi có tranh chấp tác quyền. Dữ liệu hóa cũng giúp cho việc phát hiện đạo văn trong các công trình hàn lâm trở nên dễ dàng hơn, kết quả là một số chính trị gia châu Âu, trong đó có một bộ trưởng quốc phòng Đức, đã bị buộc phải từ chức. Ước tính có khoảng 130 triệu đầu sách đã được xuất bản kể từ khi in ấn được phát minh ra vào giữa thế kỷ XV. Đến năm 2012, bảy năm sau khi Google bắt đầu dự án sách, họ đã sao chụp hơn 20 triệu đầu sách, hơn 15 phần trăm di sản in ấn của thế giới - một khối lượng đáng kể. Điều này đã tạo ra một ngành học mới được gọi là “Culturomics”: từ vựng học tính toán để cố gắng hiểu hành vi con người và các xu hướng văn hóa thông qua việc phân tích định lượng các văn bản số hóa. Trong một nghiên cứu, các chuyên gia tại Đại học Harvard khảo sát hàng triệu cuốn sách (tương đương với hơn 500 tỷ từ) và phát hiện ra rằng chỉ có chưa đến một nửa số lượng các từ tiếng Anh xuất hiện trên sách là có trong các từ điển. Thay vào đó, họ viết, sự dồi dào của từ ngữ “bao gồm cả từ vựng‘ngoài lề’ vốn không được ghi chép trong các nguồn tham khảo chuẩn”. Hơn nữa, bằng việc phân tích theo thuật toán các tài liệu tham khảo về nghệ sĩ Marc Chagall, người có các tác phẩm bị Đức Quốc xã cấm vì là người Do Thái, các nhà nghiên cứu đã chỉ ra rằng sự đàn áp hoặc kiểm duyệt một ý tưởng hoặc cá nhân để lại “dấu vết có thể định lượng được”. Từ ngữ cũng giống như hóa thạch được bọc trong các trang viết thay vì trầm tích đá. Các nhà nghiên cứu culturomics có thể khai thác chúng như các nhà khảo cổ. Việc chuyển từ ngữ thành dữ liệu mở ra rất nhiều công dụng. Tất nhiên, dữ liệu có thể được con người sử dụng để đọc, còn máy móc dùng chúng để phân tích. Nhưng là mẫu mực của một công ty dữ-liệu-lớn, Google biết rằng thông tin còn có nhiều khả năng tiềm ẩn khác, có thể giúp ích cho bộ sưu tập của mình và cho dữ
liệu hóa. Vì vậy, Google khéo léo sử dụng các văn bản được dữ liệu hóa từ dự án quét sách để cải thiện dịch vụ dịch máy của mình. Như đã giải thích trong Chương Ba, hệ thống sẽ lấy những cuốn sách được dịch và phân tích những từ và cụm từ nào được các dịch giả sử dụng như những lựa chọn thay thế từ một ngôn ngữ sang một ngôn ngữ khác. Hiểu biết được điều này thì sau đó có thể xử lý việc dịch như một vấn đề toán học khổng lồ, với các máy tính tìm ra xác suất để xác định từ nào là thay thế tốt nhất cho từ kia giữa các ngôn ngữ. Tất nhiên Google không phải là tổ chức duy nhất mơ ước mang đến sự phong phú của di sản in ấn của thế giới vào thời đại máy tính, và nó hầu như không phải là nơi đầu tiên thử việc này. Dự án Gutenberg, một sáng kiến tình nguyện để đưa các tác phẩm thuộc sở hữu công cộng lên trực tuyến sớm có từ năm 1971, nhằm giúp mọi độc giả dễ tiếp cận các văn bản này. Tuy nhiên, dự án đã không xem xét một chức năng phụ trợ của từ ngữ nên không xem chúng như dữ liệu. Tương tự như vậy, các nhà xuất bản trong nhiều năm qua đã thử nghiệm với các phiên bản sách điện tử. Họ cũng nhìn thấy giá trị cốt lõi của sách là nội dung, chứ không phải là dữ liệu - mô hình kinh doanh của họ dựa vào điều này. Vì vậy, họ không bao giờ sử dụng hoặc cho phép người khác sử dụng các dữ liệu vốn có trong văn bản của một cuốn sách. Họ không bao giờ thấy sự cần thiết, hoặc đánh giá cao tiềm năng đó. Nhiều công ty hiện nay đang cạnh tranh để chiếm lĩnh thị trường sách điện tử. Amazon, với máy đọc sách điện tử Kindle của mình, dường như là người dẫn đầu sớm. Nhưng đây là một lĩnh vực mà chiến lược của Amazon và Google khác nhau rất nhiều. Amazon đã dữ liệu hóa sách - nhưng không giống như Google, họ đã thất bại trong việc khai thác những chức năng mới của văn bản với vai trò dữ liệu. Jeff Bezos, người sáng lập và giám đốc điều hành của công ty, đã thuyết phục hàng trăm nhà xuất bản để phát hành sách của họ dưới dạng Kindle. Sách Kindle
không phải được tạo từ ảnh của trang sách. Nếu như vậy, người đọc sẽ không thể thay đổi kích thước chữ hoặc hiển thị trang sách cả trên màn hình màu và trắng đen. Văn bản được dữ liệu hóa, không chỉ là số hóa. Thật ra, Amazon đã làm việc đó cho hàng triệu cuốn sách mới, những gì Google đang cố gắng cẩn thận đạt được đối với nhiều cuốn sách cũ hơn. Tuy nhiên, khác với dịch vụ tuyệt vời của Amazon với “những từ ngữ quan trọng về mặt thống kê” - trong đó sử dụng các thuật toán để tìm liên kết giữa các chủ đề của sách mà bình thường có thể không rõ ràng - nhà bán lẻ trực tuyến đã không tận dụng sự giàu có của từ ngữ cho phân tích dữ-liệu-lớn. Amazon xem việc kinh doanh sách của mình là dựa trên nội dung độc giả xem, chứ không phải trên phân tích văn bản dữ liệu hóa. Và để công bằng, Amazon có thể phải đối mặt với những hạn chế từ các nhà xuất bản bảo thủ về việc Amazon có thể sử dụng thông tin chứa đựng trong các cuốn sách của họ như thế nào. Google, một cậu bé dữ- liệu-lớn hư hỏng sẵn sàng đẩy xa các giới hạn, không nhận thấy những hạn chế như vậy: bánh mĩ của Google được phết bơ bằng những cú nhấp chuột, chứ không phải bằng việc truy cập các đầu sách của người sử dụng. Có lẽ là công bằng khi nói rằng ít nhất trong lúc này, Amazon hiểu được giá trị của việc số hóa nội dung, trong khi Google hiểu được giá trị của việc dữ liệu hóa nó. Khi vị trí trở thành dữ liệu Một trong những phần cơ bản nhất của thông tin trong thế giới này chính là bản thân thế giới. Nhưng qua gần hết lịch sử, lĩnh vực không gian chưa bao giờ được định lượng hoặc sử dụng ở dạng dữ liệu. Vị trí địa lý của thiên nhiên, các vật thể, và con người tất nhiên cấu thành thông tin. Dãy núi là ở đó; người là ở đây. Nhưng để trở nên hữu ích nhất, thông tin này phải được trở thành dữ liệu. Việc dữ liệu hóa vị trí đòi hỏi một vài điều kiện tiên quyết. Chúng ta cần một phương pháp để đo mỗi inch vuông của bề mặt Trái đất. Chúng ta cần một cách chuẩn hóa để ghi chú
các phép đo. Chúng ta cần một công cụ để theo dõi và ghi lại các dữ liệu. Định lượng, tiêu chuẩn hóa, thu thập. Chỉ khi đó chúng ta mới có thể lưu trữ và phân tích vị trí không chỉ như nơi chốn, mà như dữ liệu. Ở phương Tây, việc định lượng vị trí bắt đầu với người Hy Lạp. Khoảng năm 200 trước Công nguyên, Eratosthenes đã phát minh ra một hệ thống các đường lưới để phân ranh giới vị trí, giống như vĩ độ và kinh độ. Nhưng cũng giống như rất nhiều ý tưởng hay từ thời cổ đại, việc thực hành đã phai nhạt dần theo thời gian. Một thiên niên kỷ rưỡi sau, khoảng năm 1400 sau Công nguyên, một bản sao Geographia của Ptolemy đến Florence từ Constantinople, cũng giống như thời kỳ Phục hưng và buôn bán vận chuyển đã khơi dậy mối quan tâm đến khoa học và bí quyết từ người xưa. Luận thuyết của Ptolemy đã gây một sự náo động, và những bài học cũ của ông đã được áp dụng để giải quyết những thách thức trong hàng hải hiện đại. Từ đó, bản đồ xuất hiện với kinh độ, vĩ độ và tỷ lệ. Hệ thống sau đó đã được một nhà bản đồ học người Flanders, Gerardus Mercator, cải thiện vào năm 1570, cho phép các thủy thủ lập một tuyến đường thẳng trong một thế giới hình cầu. Mặc dù thời điểm đó đã có phương tiện để ghi lại vị trí, nhưng chưa có định dạng được chấp nhận phổ biến để chia sẻ những thông tin này. Một hệ thống nhận diện chung là cần thiết, cũng giống như Internet hưởng lợi từ tên miền để làm những thứ như email hoạt động được một cách phổ dụng. Việc tiêu chuẩn hóa kinh độ và vĩ độ mất một thời gian dài. Cuối cùng nó được ghi nhận vào năm 1884 tại Hội nghị quốc tế Meridian ở Washington, DC, nơi mà 25 quốc gia đã chọn Greenwich, Anh, như kinh tuyến chính và điểm không của kinh độ (người Pháp, vốn tự xem mình là những nhà lãnh đạo về các tiêu chuẩn quốc tế, bỏ phiếu trắng). Trong những năm 1940 hệ tọa độ Universal Transverse Mercator (UTM) đã được tạo ra, phân chia thế giới thành 60 vùng để tăng độ chính xác.
Vị trí không gian địa lý bây giờ có thể được xác định, ghi nhận, đo đếm, phân tích, và chuyển tải trong một định dạng số chuẩn. Vị trí có thể được dữ liệu hóa. Nhưng vì chi phí để đo và ghi lại các thông tin trong môi trường dữ liệu ở dạng tương tự sẽ cao, nên nó hiếm khi được thực hiện. Để việc dữ liệu hóa diễn ra, người ta phải phát minh các công cụ đo vị trí với giá rẻ. Cho đến những năm 1970, cách duy nhất để xác định vị trí địa lý là sử dụng các điểm mốc, các chòm sao thiên văn, hoặc công nghệ radio định vị hạn chế. Một sự thay đổi lớn đã xảy ra vào năm 1978, khi vệ tinh đầu tiên trong số 24 vệ tinh tạo nên hệ thống định vị toàn cầu (GPS) được phóng lên. Các thiết bị thu trên mặt đất có thể lập lưới tam giác vị trí của chúng bằng cách ghi nhận sự khác biệt về thời gian cần để nhận được một tín hiệu từ các vệ tinh cách xa 12.600 dặm trên không. Được Bộ Quốc phòng Hoa Kỳ phát triển, hệ thống lần đầu tiên được mở ra cho các mục đích phi quân sự trong những năm 1980 và được vận hành đầy đủ vào những năm 1990. Độ chính xác của nó được tăng cường cho các ứng dụng thương mại một thập kỷ sau đó. Chính xác đến từng mét, GPS đánh dấu thời điểm một phương thức đo vị trí, giấc mơ của các nhà hàng hải, các nhà làm bản đồ, và các nhà toán học từ thời cổ đại, cuối cùng đã được hợp nhất với các phương tiện kỹ thuật để thành công một cách nhanh chóng, với giá (tương đối) rẻ, và không yêu cầu bất kỳ kiến thức chuyên môn nào. Tuy nhiên, các thông tin phải thực sự được tạo ra. Không có gì ngăn Eratosthenes và Mercator ước tính vị trí của họ mỗi phút trong ngày, nếu họ thích. Dù khả thi nhưng điều đó lại phi thực tế. Tương tự như vậy, những máy thu GPS ban đầu vừa phức tạp vừa đắt, thích hợp cho một chiếc tàu ngầm nhưng không phải cho tất cả mọi người ở mọi thời điểm. Tuy nhiên điều này đã thay đổi, nhờ vào sự phổ biến của các chip rẻ tiền nhúng trong các tiện ích kỹ thuật số. Giá của một mô-đun GPS giảm từ hàng trăm đôla trong những năm 1990 xuống khoảng một đôla ngày
nay với số lượng lớn. Thường chỉ mất vài giây để GPS xác định được một vị trí, và tọa độ được chuẩn hóa. Vì vậy, 37° 14’ 06” Bắc, 115° 48’ 40” Tây chỉ có thể nghĩa là ta đang ở một căn cứ quân sự siêu bí mật của Mỹ ở một vùng hẻo lánh của bang Nevada được gọi là “Vùng 51”, nơi người ngoài hành tinh (có lẽ!) đang bị giam giữ. Ngày nay GPS chỉ là một trong số nhiều hệ thống để nắm bắt vị trí. Các hệ thống vệ tinh đối thủ đang được tiến hành tại Trung Quốc và châu Âu. Và thậm chí độ chính xác tốt hơn có thể được thiết lập bởi lập lưới tam giác giữa các tháp di động hoặc các bộ định tuyến wifi để xác định vị trí dựa trên cường độ tín hiệu, vì GPS không hoạt động bên trong nhà hoặc giữa các tòa nhà cao tầng. Điều đó giúp giải thích tại sao các công ty như Google, Apple và Microsoft: đã thiết lập những hệ thống vị trí địa lý riêng của họ để bổ sung cho GPS. Các xe Street View của Google thu thập thông tin bộ định tuyến wifi khi họ chụp ảnh, và iPhone là một “spyPhone” (điện thoại do thám) thu thập dữ liệu vị trí và wifi và gửi nó trở lại Apple, mà người dùng không hề nhận ra. (Điện thoại Android của Google và hệ điều hành di động của Microsoft cũng thu thập loại dữ liệu này.) Không chỉ người mà các vật thể cũng có thể bị theo dõi. Với những module vô tuyến đặt bên trong xe, việc dữ liệu hóa vị trí sẽ làm thay đổi các ý tưởng về bảo hiểm. Dữ liệu cho biết một cách chi tiết về thời gian, địa điểm, và khoảng cách xe chạy thực tế để định giá rủi ro tốt hơn. Ở Mỹ và Anh, người lái xe có thể mua bảo hiểm xe định giá theo thực tế xe được lái ở đâu và lúc nào, chứ không chỉ trả giá hàng năm theo tuổi tác, giới tính và hồ sơ quá khứ. Cách tiếp cận này để định giá bảo hiểm tạo ra những ưu đãi cho hành vi tốt. Nó thay đổi bản chất của bảo hiểm từ dựa trên sự tổng hợp nguy cơ sang một cái gì đó dựa trên hành động cá nhân. Việc theo dõi cá nhân thông qua chiếc xe cũng thay đổi bản chất của các chi phí cố định, như đường giao thông và cơ sở hạ tầng khác, bằng cách gắn việc sử dụng những tài
nguyên này với những người lái xe và những người khác “tiêu thụ” chúng. Người ta đã không thể làm điều này trước khi chuyển vị trí địa lý trở thành một dạng dữ liệu liên tục cho tất cả mọi người và tất cả mọi thứ - nhưng đó là thế giới chúng ta đang đi tới. Ví dụ UPS sử dụng dữ liệu ‘Vị-trí-địa-lý” theo nhiều cách. Xe của hãng được trang bị cảm biến, mô-đun vô tuyến, và GPS để trụ sở có thể dự đoán sự cố động cơ, như chúng ta đã thấy trong chương trước. Hơn nữa, nó cho phép công ty biết nơi chốn của xe tải trong trường hợp chậm trễ, để giám sát nhân viên, và theo dõi hành trình của họ để tối ưu hóa các tuyến đường. Phim minh họa cơ chế phân tích của UPS Chương trình phân tích này có tác động rất đặc biệt. Theo Jack
Levis, giám đốc quản lý quy trình của UPS, năm 2011 UPS đã thu ngắn các tuyến đường cho xe của công ty tới 30 triệu dặm, tiết kiệm 3 triệu gallon nhiên liệu và 30 ngàn tấn carbon dioxide khí thải. Nó cũng cải thiện tính an toàn và hiệu quả: thuật toán tạo ra các tuyến đường với ít đoạn rẽ qua các giao lộ, yếu tố vốn thường dẫn đến tai nạn, lãng phí thời gian, và tiêu thụ nhiều nhiên liệu hơn vì xe thường xuyên phải dừng trước khi rẽ. “Việc dự báo đã cho chúng ta kiến thức”, Levis của hãng UPS nói. “Nhưng phía sau kiến thức là một cái gì đó nhiều hơn nữa: sự khôn ngoan và sáng suốt. Tại một thời điểm nào đó, hệ thống sẽ thông minh tới mức nó sẽ dự đoán các vấn đề và sửa chữa chúng trước khi người dùng nhận ra rằng có điều gì đó sai”. Đáng chú ý nhất là việc dữ liệu hóa vị trí theo thời gian được áp dụng cho con người. Trong nhiều năm qua, các nhà khai thác vô tuyến đã thu thập và phân tích thông tin để nâng tầm dịch vụ của mạng lưới của họ. Nhưng dữ liệu ngày càng được sử dụng nhiều cho các mục đích khác và được thu thập bởi bên thứ ba cho những dịch vụ mới. Ví dụ một số ứng dụng điện thoại thông minh thu thập thông tin vị trí cho dù bản thân ứng dụng có một tính năng dựa trên địa điểm hay không. Trong những trường hợp khác, ứng dụng chỉ được dùng để xây dựng một doanh nghiệp tận dụng kiến thức về địa điểm của người sử dụng. Một ví dụ là Foursquare, cho phép mọi người “đăng nhập” tại các địa điểm yêu thích của họ. Nó kiếm được thu nhập từ các chương trình khách hàng trung thành, giới thiệu nhà hàng, và các dịch vụ khác liên quan đến vị trí. Khả năng thu thập dữ liệu vị trí địa lý của người sử dụng đang trở nên vô cùng giá trị. Ở mức độ cá nhân, nó giúp cho việc quảng cáo nhắm đến mục tiêu dựa trên việc khách hàng đang ở đâu và dự đoán sẽ đi tới đâu. Hơn nữa, thông tin có thể được tổng hợp để cho biết các xu hướng. Ví dụ việc tích lũy dữ liệu vị trí cho phép các công ty phát hiện ùn tắc giao thông mà không cần
trông thấy những chiếc xe, nhờ số lượng và tốc độ của các máy điện thoại di chuyển trên một đường cao tốc tiết lộ thông tin này. Công ty AirSage xử lý 15 tỷ bản ghi thông tin vị trí địa lý mỗi ngày từ sự di chuyển của hàng triệu thuê bao điện thoại di động để tạo các báo cáo giao thông thời gian thực ở hơn 100 thành phố trên khắp nước Mỹ. Hai công ty vị trí địa lý khác, Sense Networks và Skyhook, có thể sử dụng dữ liệu vị trí để cho biết các khu vực của một thành phố có cuộc sống về đêm nhộn nhịp nhất, hoặc để ước tính có bao nhiêu người đã có mặt tại một cuộc biểu tình. Tuy nhiên, những ứng dụng phi thương mại của vị trí địa lý mới chứng tỏ tầm quan trọng nhất. Sandy Pentland, Giám đốc Phòng thí nghiệm Động lực học Con người của MIT, và Nathan Eagle đã cùng nhau đi tiên phong trong lĩnh vực họ gọi là “khai thác thực tế”. Nó đề cập đến việc xử lý những lượng lớn dữ liệu từ điện thoại di động để đưa ra những kết luận và dự đoán về hành vi con người. Trong một nghiên cứu, việc phân tích các chuyển động và các mô hình cuộc gọi đã cho phép họ xác định thành công những người đã mắc bệnh cúm trước khi bản thân họ biết rằng họ bị bệnh. Trong trường hợp của một dịch cúm chết người, khả năng này có thể cứu hàng triệu sinh mạng bằng cách cho các nhân viên y tế công biết các khu vực bị ảnh hưởng nhất vào bất cứ lúc nào. Nhưng nếu đặt vào những bàn tay vô trách nhiệm thì sức mạnh của “khai thác thực tế” có thể gây nên những hậu quả khủng khiếp, như chúng ta sẽ thấy sau này. Eagle, người sáng lập của công ty khởi động dữ liệu vô tuyến Jana, đã tập hợp dữ liệu điện thoại di động từ hơn 200 nhà khai thác trong hơn 100 quốc gia - khoảng 3,5 tỷ người ở châu Mỹ Latin, châu Phi, và châu Âu - để trả lời những câu hỏi mà các nhà quản lý tiếp thị quan tâm, như mỗi tuần một hộ gia đình giặt bao nhiêu lần. Nhưng ông cũng sử dụng dữ liệu lớn để kiểm tra các câu hỏi như các thành phố phát triển thịnh vượng như thế nào. Ông và một đồng nghiệp đã kết hợp dữ liệu vị trí trên các thuê
bao điện thoại di động trả trước ở châu Phi với số tiền họ bỏ ra khi họ có nhiều tiền nhất trong tài khoản. Giá trị này tương quan mạnh với thu nhập: người giàu hơn mua nhiều phút hơn tại một thời điểm. Nhưng một trong những phát hiện ngược lại với lẽ thường mà Eagle thu được là những khu nhà ổ chuột, không chỉ là những khu trung tâm của sự nghèo nàn, mà còn hoạt động như những bàn đạp kinh tế. Điều quan trọng là những ứng dụng gián tiếp của dữ liệu vị trí không có gì liên quan tới việc định tuyến của truyền thông di động, mục đích ban đầu mà vì nó thông tin đã được tạo ra. Thay vào đó, khi vị trí được dữ liệu hóa, những công dụng mới sẽ nảy mầm và giá trị mới có thể được tạo ra. Khi việc tương tác trở thành dữ liệu Biên giới tiếp theo của dữ liệu hóa sẽ mang tính cá nhân hơn: các mối quan hệ, kinh nghiệm, và tâm trạng của chúng ta. Ý tưởng của dữ liệu hóa là xương sống của nhiều công ty truyền thông xã hội trên Web. Các diễn đàn mạng xã hội không chỉ đơn giản cung cấp cho chúng ta một cách để tìm và giữ liên lạc với bạn bè và đồng nghiệp, chúng lấy các yếu tố vô hình trong cuộc sống hàng ngày của chúng ta và biến thành dữ liệu có thể được sử dụng để làm những điều mới mẻ. Facebook dữ liệu hóa các mối quan hệ. Chúng luôn luôn tồn tại và cấu thành thông tin, nhưng chưa bao giờ được chính thức định nghĩa như là dữ liệu cho đến khi có “đồ thị xã hội” của Facebook. Twitter giúp dữ liệu hóa cảm xúc bằng cách tạo ra một cách dễ dàng cho người dùng ghi lại và chia sẻ những điều bận tâm của họ, mà trước đó đã bị “cuốn trôi” vào những con gió của thời gian. Linkedln dữ liệu hóa các kinh nghiệm chuyên môn trong quá khứ của chúng ta (giống như Maury đã chuyển những cuốn nhật ký hàng hải cũ), biến thông tin đó thành những dự đoán về hiện tại và tương lai: người mà chúng ta có thể biết, hoặc một công việc mà chúng ta có thể mong muốn.
Những cách sử dụng dữ liệu như vậy vẫn ở dạng phôi thai. Trong trường hợp của Facebook, điều này đã được thực hiện kiên nhẫn một cách khôn ngoan, vì công ty hiểu rằng việc tiết lộ quá nhiều mục đích mới cho dữ liệu của người sử dụng quá sớm có thể sẽ làm họ hoảng sợ. Bên cạnh đó, Facebook vẫn đang điều chỉnh mô hình kinh doanh của mình (và chính sách bảo mật) cho số lượng và loại hình thu thập dữ liệu nó muốn tiến hành. Do đó đa phần những lời chỉ trích mà nó phải đối mặt tập trung vào những thông tin nào nó có khả năng thu thập hơn là về những gì nó đã thực sự làm được với dữ liệu đó. Facebook có khoảng hơn một tỷ người sử dụng vào năm 2013, những người đã kết nối với nhau thông qua hơn 100 tỷ mối quan hệ bạn bè. Kết quả là đồ thị xã hội thu được đại diện cho hơn 10 phần trăm tổng dân số thế giới, được dữ liệu hóa và dễ tiếp cận đối với duy nhất một công ty. Các ứng dụng tiềm năng của nó rất có triển vọng. Một số công ty mới thành lập đã cân nhắc việc tùy biến các đồ thị xã hội để sử dụng như những chỉ báo cho việc thiết lập điểm số tín dụng. Nó xuất phát từ ý tưởng là những con chim cùng loại thường tụ đàn: người thận trọng kết bạn với những người thận trọng, trong khi những kẻ trác táng thì lòng thòng với nhau. Nếu mở rộng, Facebook có thể là FICO tiếp theo, một cơ quan lập điểm tín dụng. Các bộ dữ liệu phong phú từ các công ty truyền thông xã hội cũng có thể tạo nên cơ sở của các doanh nghiệp mới, vượt xa việc chia sẻ hình ảnh, cập nhật trạng thái, và “thích”. Twitter cũng nhận thấy dữ liệu của mình được sử dụng theo nhiều cách thú vị. Với một số người, việc 400 triệu tweet ngắn gọn được gửi đi mỗi ngày trong năm 2012 bởi hơn 140 triệu người sử dụng hàng tháng có vẻ ít nhiều giống như sự ba hoa rỗng tuếch ngẫu nhiên. Và, trên thực tế, chúng thường chỉ là như vậy. Tuy nhiên, công ty này tạo điều kiện cho việc dữ liệu hóa những suy nghĩ, tâm trạng, và mối tương tác của mọi người, những thứ chưa hề được thu lượm trước đó. Twitter đã thỏa thuận với hai công ty, Data-Sift và Gnip, để bán quyền truy cập
vào dữ liệu. (Mặc dù tất cả các tweet là tài sản công cộng, việc truy cập vào “suối nguồn” phải tốn chi phí.) Nhiều doanh nghiệp phân tích cú pháp các tweet, đôi khi sử dụng một kỹ thuật gọi là phân tích cảm xúc, để thu thập toàn bộ phản hồi của khách hàng hoặc đánh giá tác động của chiến dịch tiếp thị. Hai quỹ phòng hộ, Derwent Capital ở London và MarketPsych ở California, đã bắt đầu phân tích các văn bản được dữ liệu hóa của tweet như các tín hiệu cho đầu tư vào thị trường chứng khoán. (Các chiến lược kinh doanh thực tế của họ được giữ bí mật. Thay vì đổ tiền vào các công ty được quảng cáo rùm beng, có lẽ họ đã đầu tư cho sự suy thoái của chúng.) Cả hai công ty bây giờ bán các thông tin cho các nhà đầu tư. MarketPsych hợp tác với Thomson Reuters để cung cấp không dưới 18.864 chỉ số riêng biệt trên 119 quốc gia, được cập nhật từng phút, dựa trên các trạng thái cảm xúc như lạc quan, u ám, vui vẻ, sợ hãi, giận dữ, và ngay cả các chủ đề như đổi mới, kiện tụng, và xung đột. Dữ liệu được sử dụng bởi con người không nhiều như bởi máy tính: các thần đồng toán học của Wall Street, được gọi là “những cây sào”, cắm dữ liệu vào các mô hình thuật toán của họ để tìm kiếm các mối tương quan vô hình có thể tận dụng để tạo ra lợi nhuận. Tần số của tweet về một chủ đề có thể dự đoán những điều khác nhau, chẳng hạn như doanh thu phòng vé của Hollywood, theo một trong những cha đẻ của phân tích mạng xã hội, Bernardo Huberman. Ông và một đồng nghiệp ở HP đã phát triển một mô hình xem xét tốc độ các tweet mới được đăng. Với điều này, họ đã có thể dự báo về thành công của một bộ phim tốt hơn so với các dự báo quen thuộc khác. Nhưng còn có thể làm được nhiều thứ hơn thế nữa. Các tin nhắn Twitter bị giới hạn trong 140 ký tự, nhưng các siêu dữ liệu - tức “thông tin về thông tin” - kết hợp với mỗi tweet lại phong phú. Nó bao gồm 33 mục riêng biệt. Một số mục dường như không hữu ích, như “hình nền” trên trang Twitter của người sử dụng
hoặc phần mềm họ dùng để truy cập vào dịch vụ. Nhưng những siêu dữ liệu khác lại vô cùng thú vị, chẳng hạn như ngôn ngữ của người sử dụng, vị trí địa lý của họ, số lượng và tên của những người họ “theo dõi”, hoặc những người “theo dõi” họ. Một nghiên cứu được đăng trên tạp chí Science năm 2011, phân tích 509 triệu tweet qua hai năm từ 2,4 triệu người ở 84 quốc gia, cho thấy tâm trạng của họ tuân theo các khuôn mẫu theo ngày và theo tuần tương tự nhau dù ở các nền văn hóa khác nhau trên thế giới - một điều không thể phát hiện được trước đây. Tâm trạng đã được dữ liệu hóa. Việc dữ liệu hóa không chỉ liên quan đến việc biểu thị thái độ và tình cảm thành một hình thức có thể phân tích được, mà cả hành vi của con người. Điều này khó theo dõi được theo cách khác, đặc biệt là trong bối cảnh của cộng đồng rộng lớn hơn và các nhóm con bên trong nó. Nhà sinh vật học Marcel Salathé của Đại học Penn State cùng kỹ sư phần mềm Shashank Khandelwal đã phân tích các tweet và phát hiện ra rằng thái độ của nhiều người về tiêm chủng cũng phù hợp với khả năng họ đã thực sự chích ngừa cúm. Tuy nhiên, điều quan trọng là nghiên cứu của họ sử dụng siêu dữ liệu về ai đã kết nối với ai trong số những người “theo dõi” nhau trên Twitter để đi thêm một bước xa hơn. Họ nhận thấy rằng những phân nhóm người chưa chích ngừa có thể vẫn tồn tại. Điều làm cho nghiên cứu này trở nên đặc biệt là trong khi các nghiên cứu khác, chẳng hạn như Xu hướng Dịch cúm của Google, sử dụng dữ liệu tổng hợp để đánh giá tình trạng sức khỏe của các cá nhân, thì phân tích cảm xúc của Salathé đã thực sự dự đoán hành vi liên quan đến sức khỏe. Những phát hiện sớm trên cho thấy dữ liệu hóa chắc chắn sẽ đi tiếp tới đâu. Cũng giống như Google, các mạng truyền thông xã hội như Facebook, Twitter, Linkedln, Foursquare, và nhiều mạng khác đang ngồi trên một rương khổng lồ các thông tin được dữ liệu hóa, mà một khi được phân tích, sẽ rọi ánh sáng lên các động lực xã hội ở tất cả mọi cấp độ, từ các cá nhân đến toàn bộ xã hội.
Dữ liệu hóa tất cả mọi thứ Chỉ cần vận dụng chút trí tưởng tượng, ta có thể hình dung một kho tàng đủ mọi thứ có thể được chuyển thành dạng dữ liệu - và khiến chúng ta kinh ngạc. Với cùng một tinh thần như công trình của giáo sư Koshimizu về dáng điệu, IBM đã được cấp bằng sáng chế ở Mỹ vào năm 2012 về “Bảo đảm an toàn nhà cửa bằng công nghệ máy tính dựa trên bề mặt”. Đó là bằng sáng chế cho một sàn nhà cảm ứng, phần nào giống như một màn hình điện thoại thông minh khổng lồ. Triển vọng của việc sử dụng nó rất khả quan. Sàn nhà kiểu này có thể xác định các vật thể trên đó. Về cơ bản, nó có thể biết bật đèn một phòng hoặc mở cửa khi có người đi vào. Tuy nhiên, quan trọng hơn, nó có thể xác định các cá nhân theo trọng lượng của họ hay cách họ đứng và đi. Nó có thể biết nếu một người nào đó ngã và không đứng dậy được, một tính năng quan trọng cho người cao tuổi. Các nhà bán lẻ có thể biết được dòng di chuyển của khách mua trong các cửa hàng của họ. Một khi sàn nhà được dữ liệu hóa thì chẳng có “nóc nhà” nào giới hạn được các ứng dụng tiềm tàng của nó. Việc dữ liệu hóa càng nhiều càng tốt không phải là chuyện xa vời như ta tưởng. Chẳng hạn số lượng “những-người-tự-theo-dõi- mình” là nhỏ tại thời điểm hiện nay nhưng sẽ ngày càng tăng. Nhờ điện thoại thông minh và công nghệ điện toán giá rẻ, việc dữ liệu hóa các hành vi quan trọng nhất của cuộc sống chưa bao giờ dễ dàng hơn. Rất nhiều công ty mới thành lập đã giúp mọi người theo dõi giấc ngủ của họ bằng cách đo sóng não suốt đêm. Công ty Zeo đã tạo ra cơ sở dữ liệu lớn nhất thế giới về giấc ngủ và những khác biệt về số giai đoạn “ngủ động mắt nhanh” (REM) của cả nam giới và nữ giới. Asthmapolis đã gắn một cảm biến lên một ống hít cho bệnh nhân hen suyễn để theo dõi vị trí thông qua GPS, tập hợp thông tin giúp công ty nhận rõ những yếu tố từ môi trường gây nên cơn hen suyễn, chẳng hạn như cự ly tới một số loại cây trồng nhất định.
Các công ty Fitbit và Jawbone giúp mọi người đo hoạt động thể chất và giấc ngủ của họ. Một công ty khác, Basis, cho phép người mang vòng đeo tay theo dõi các dấu hiệu sống của họ, trong đó có nhịp tim và độ dẫn của da - những thông số đo được sự căng thẳng. Việc có được dữ liệu ngày càng trở nên dễ dàng hơn và đơn giản hơn bao giờ hết. Năm 2009 Apple đã được cấp bằng sáng chế cho việc thu thập dữ liệu về mức ôxy trong máu, nhịp tim và nhiệt độ cơ thể bằng tai nghe của nó. Có rất nhiều thứ để học hỏi từ việc dữ liệu hóa cách thức cơ thể một con người hoạt động. Các nhà nghiên cứu tại Đại học Gjovik ở Na Uy và Derawi Biometrics đã phát triển một ứng dụng cho điện thoại thông minh có thể phân tích dáng đi của một cá nhân trong khi đi bộ và sử dụng thông tin này như một hệ thống bảo mật để mở khóa điện thoại. Trong khi đó hai giáo sư tại Viện Nghiên cứu Công nghệ Georgia, Robert Delano và Brian Parise, đang phát triển một ứng dụng điện thoại thông minh được gọi là iTrem sử dụng đồng hồ gia tốc gắn trong điện thoại để theo dõi các chấn động cơ thể cho bệnh Parkinson và những rối loạn thần kinh khác, ứng dụng này là một lợi ích cho cả bác sĩ và bệnh nhân. Nó cho phép bệnh nhân bỏ qua những cuộc kiểm tra tốn kém tại phòng khám, nó cũng cho phép các chuyên gia y tế giám sát từ xa tình trạng của bệnh nhân và phản ứng của họ với các bước điều trị. Theo các nhà nghiên cứu ở Kyoto, một điện thoại thông minh chỉ kém hiệu quả chút ít khi đo các chấn động so với đồng hồ gia tốc ba trục sử dụng trong ngành y tế, vì vậy người ta có thể yên tâm sử dụng nó. Một lần nữa, một chút hỗn độn đã chiến thắng tính chính xác. Trong hầu hết các trường hợp, chúng ta nắm bắt thông tin và chuyển thành dạng dữ liệu để cho phép nó được tái sử dụng. Điều này có thể xảy ra gần như ở khắp mọi nơi và gần như đối với tất cả mọi thứ. GreenGoose, một công ty mới thành lập ở San Francisco, bán các cảm biến nhỏ xíu phát hiện chuyển động, có thể được đặt trên các vật thể để theo dõi xem chúng được sử
dụng nhiều bao nhiêu. Nếu đặt cảm biến trên một hộp chỉ nha khoa, một bình tưới nước, hoặc một cái chuồng mèo thì có thể dữ liệu hóa được việc vệ sinh răng miệng, chăm sóc cây trồng hoặc vật nuôi. Người ta hăng hái với những gì liên quan đến Internet một phần là vì chuyện lập mạng lưới, nhưng cũng còn vì việc dữ liệu hóa tất cả những gì xung quanh chúng ta. Khi thế giới đã được dữ liệu hóa, tiềm năng sử dụng thông tin về cơ bản chỉ bị giới hạn bởi sự sáng tạo của mỗi người. Maury đã dữ liệu hóa những chuyên đi trước đây của thủy thủ thông qua việc lập bảng bằng tay rất siêng năng, và do đó đã mở khóa cho những hiểu biết và giá trị phi thường. Ngày nay chúng ta có các công cụ (số liệu thống kê và các thuật toán) và thiết bị cần thiết (những bộ xử lý kỹ thuật số và bộ nhớ) để thực hiện những công việc tương tự nhanh hơn, với quy mô lớn, và trong nhiều bối cảnh khác nhau. Trong thời đại của dữ liệu lớn, thậm chí những bộ phận xấu xí cũng có nhiều mặt tốt đẹp để sử dụng. Chúng ta đang ở trung tâm của một dự án cơ sở hạ tầng tuyệt vời mà theo nghĩa nào đó là đối thủ của những dự án trong quá khứ, từ cống dẫn nước La Mã tới Bách khoa toàn thư của sự Khai sáng. Chúng ta không đánh giá hết điều này bởi vì dự án ngày nay là rất mới mẻ, bởi vì chúng ta đang ở ngay giữa nó, và bởi vì không giống như nước chảy trong cống, sản phẩm lao động của chúng ta là vô hình. Dự án đó là dữ liệu hóa. Giống như những tiến bộ cơ sở hạ tầng khác, nó sẽ mang lại những thay đổi cơ bản cho xã hội. cống dẫn nước đã tạo điều kiện cho các thành phố phát triển; in ấn đã tạo điều kiện cho Khai sáng; và báo chí đã thúc đẩy sự phát triển của nhà nước độc lập. Nhưng những cơ sở hạ tầng này tập trung vào các dòng chảy - của nước, của kiến thức. Điện thoại và Internet cũng vậy. Ngược lại, dữ liệu hóa đại diện cho một sự làm giàu quan trọng đối với hiểu biết của con người. Với sự trợ giúp của dữ liệu lớn, chúng ta sẽ không còn xem thế giới như một chuỗi các diễn biến được giải thích như những hiện
tượng tự nhiên hoặc xã hội, mà như một vũ trụ bao gồm chủ yếu là thông tin. Trong hơn một thế kỷ, các nhà vật lý đã đề nghị như vậy - rằng không phải các nguyên tử mà thông tin mới là cơ sở của tất cả mọi thứ. Phải thừa nhận rằng điều này có vẻ bí hiểm. Tuy nhiên, thông qua dữ liệu hóa, trong nhiều trường hợp chúng ta có thể nắm bắt và tính toán các khía cạnh vật chất và phi vật thể của sự sống và tác động lên chúng, trên một quy mô toàn diện hơn nhiều. Việc xem thế giới như thông tin, như đại dương dữ liệu có thể được khám phá với bề rộng và chiều sâu lớn nhất từ trước đến nay, cho chúng ta một cái nhìn về thực tế mà chúng ta chưa hề có. Đây là một quan điểm có thể thâm nhập tất cả các lĩnh vực của đời sống. Ngày nay, chúng ta là một xã hội định lượng bởi chúng ta cho rằng có thể hiểu được thế giới bằng những con số và toán học. Và chúng ta thừa nhận kiến thức có thể được truyền tải qua thời gian và không gian vì ý tưởng của chữ viết ăn rất sâu vào trí não. Trong tương lai, có lẽ các thế hệ tiếp theo sẽ có một “ý thức dữ-liệu-lớn”. Khái niệm về chuyển đổi vô số chiều kích của thực tế thành dữ liệu có thể dường như mới mẻ đối với hầu hết mọi người hiện nay. Nhưng trong tương lai, chúng ta chắc chắn sẽ xem nó như một sự hiển nhiên (điều thú vị là nó trở lại nguồn gốc sâu xa của thuật ngữ “dữ liệu”). Theo thời gian, tầm vóc ý nghĩa của dữ liệu hóa có thể khiến sự phát minh ra cống dẫn nước và báo chí trở thành nhỏ nhoi. Nó có thể sánh ngang với in ấn và Internet, khi mang đến cho chúng ta những phương tiện để sắp xếp lại thế giới theo một cách định lượng và có thể phân tích được. Tuy nhiên, tại thời điểm này, những người tiến bộ nhất trong dữ liệu hóa lại đang thuộc giới kinh doanh, nơi dữ liệu lớn đang được sử dụng để tạo ra các hình thức giá trị mới. Đây cũng chính là chủ đề của chương kế tiếp.
6. GIÁ TRỊ VÀO CUỐI NHỮNG NĂM 1990, Web đã nhanh chóng trở thành một nơi chốn phóng túng, khó chịu và kém thân thiện. “Thư rác” tràn ngập các hộp thư điện tử và các diễn đàn trực tuyến. Năm 2000, Luis von Ahn, một thanh niên 22 tuổi, vừa tốt nghiệp đại học, đã có một ý tưởng để giải quyết vấn đề: bắt buộc những ai đăng ký phải chứng minh họ là con người. Do vậy, anh tìm cái gì đó rất dễ dàng để con người làm nhưng lại rất khó khăn cho máy. Anh đã đưa ra ý tưởng hiển thị những chữ nguệch ngoạc, khó đọc trong quá trình đăng ký. Con người sẽ có thể đọc được chúng và gõ vào chính xác trong một vài giây, nhưng máy móc sẽ bối rối. Yahoo áp dụng phương pháp của anh và giảm được mối họa của thư rác ngay lập tức. Von Ahn gọi sáng tạo của mình là Captcha (viết tắt của Completely Automated Public Turing Test to Tell Computers and Humans Apart - Phép kiểm tra Turing hoàn toàn tự động để phân biệt máy tính với con người). Năm năm sau, hàng triệu Captcha đã được gõ vào mỗi ngày. Captcha đã mang lại cho von Ahn sự nổi tiếng và công việc giảng dạy về khoa học máy tính tại Đại học Carnegie Mellon sau khi anh có bằng tiến sỹ. Nó cũng đóng vai trò giúp anh, khi mới 27 tuổi, nhận được một trong những giải thưởng uy tín cho “thiên tài” của Quỹ MacArthur với nửa triệu đôla. Tuy nhiên khi nhận ra mình chịu trách nhiệm cho việc hàng triệu người lãng phí rất nhiều thời gian mỗi ngày để gõ vào những chữ nguệch ngoạc gây phiền nhiễu - nhưng sau đó chẳng được dùng để làm gì - anh thấy như vậy chẳng thông minh cho lắm. Tìm cách để đưa toàn bộ sức mạnh tính toán của con người vào sử dụng hiệu quả hơn, von Ahn đã đưa ra một phiên bản kế nhiệm thích hợp có tên ReCaptcha. Thay vì gõ vào các chữ cái ngẫu nhiên, người ta gõ vào hai từ, thuộc trong số các dự án quét văn bản mà chương trình nhận dạng ký tự quang học của máy
tính không thể hiểu được. Một từ được dùng để xác nhận điều những người dùng khác đã gõ vào và do đó là tín hiệu cho biết đó là một con người, còn từ kia là một từ mới cần làm rõ nghĩa. Để đảm bảo tính chính xác, hệ thống hiển thị cùng một từ không rõ nghĩa cho khoảng năm người khác nhau để họ gõ vào một cách chính xác trước khi hệ thống tin tưởng đó là đúng. Dữ liệu này có một ứng dụng chính - để chứng minh người dùng là con người - nhưng nó cũng có một mục đích thứ hai: để giải mã những chữ không rõ ràng trong các văn bản số hóa. Giá trị mang lại là vô cùng lớn, khi ta nghĩ đến chi phí để thuê người thay thế. Mất khoảng 10 giây mỗi lần sử dụng, 200 triệu ReCaptcha mỗi ngày - mức hiện tại - sẽ nhân với nửa triệu giờ một ngày. Mức lương tối thiểu tại Hoa Kỳ là $7,25 một giờ vào năm 2012. Nếu dùng sức người để làm rõ nghĩa những từ mà máy tính không hiểu được, sẽ tốn 4 triệu đôla một ngày, hay hơn 1 tỷ đôla mỗi năm. Thay vào đó, von Ahn thiết kế một hệ thống để làm điều đó, và thật ra là miễn phí. Điều này có giá trị tới mức Google đã mua lại công nghệ từ von Ahn vào năm 2009, và sau đó cung cấp miễn phí cho bất kỳ trang web nào sử dụng. Ngày nay nó được đưa vào khoảng 200.000 trang web, trong đó có Facebook, Twitter, và Craigslist.
Phim minh họa ReCaptcha Câu chuyện của ReCaptcha nhấn mạnh tầm quan trọng của việc tái sử dụng dữ liệu. Với dữ liệu lớn, giá trị của dữ liệu đang thay đổi. Giá trị của dữ liệu chuyển từ ứng dụng cơ bản sang các ứng dụng tiềm năng của nó. Điều này có những hệ quả sâu sắc. Nó ảnh hưởng đến cách các doanh nghiệp đánh giá dữ liệu họ nắm giữ và cho phép những ai truy cập. Nó cho phép, và có thể buộc các công ty phải thay đổi các mô hình kinh doanh của họ. Nó làm thay đổi cách thức các tổ chức suy nghĩ về dữ liệu và việc sử dụng nó. Thông tin luôn luôn cần thiết cho các giao dịch thị trường. Ví dụ dữ liệu cho phép phát hiện giá cả, và đó là một tín hiệu để biết phải sản xuất bao nhiêu. Chúng ta hiểu rõ khía cạnh này của dữ liệu. Có một số loại thông tin từ lâu đã được giao dịch trên thị trường, ví dụ nội dung có trong các cuốn sách, bài viết, nhạc, và phim, hoặc thông tin tài chính như giá cổ phiếu. Những thứ này
đã được kết hợp với dữ liệu cá nhân trong vài thập kỷ qua. Những nhà môi giới chuyên ngành dữ liệu ở Hoa Kỳ như Acxiom, Experian và Equifax tính phí khá hào phóng đối với các hồ sơ đầy đủ của thông tin cá nhân về hàng trăm hàng triệu khách hàng. Nhờ Facebook, Twitter, Linkedln, và các nền tảng truyền thông xã hội khác, các kết nối cá nhân, ý kiến, sở thích, và mô hình cuộc sống hàng ngày của chúng ta đã tham gia vào vốn chung của thông tin cá nhân về chúng ta. Một cách ngắn gọn, mặc dù dữ liệu từ lâu đã có giá trị, nó chỉ được xem như phụ trợ cho các hoạt động cốt lõi của một doanh nghiệp, hoặc bị giới hạn trong các phạm trù tương đối hẹp như sở hữu trí tuệ hoặc thông tin cá nhân. Ngược lại, trong thời đại của dữ liệu lớn, tất cả dữ liệu sẽ được xem là có giá trị, cả về nội dung và chính bản thân dữ liệu đó. Khi nói “tất cả dữ liệu”, chúng ta ám chỉ ngay cả thứ thô nhất, dường như hầu hết các bit trần trụi của thông tin. Hãy nghĩ tới các số đo từ một cảm biến nhiệt trên một máy ở công xưởng. Hoặc dòng thời gian thực của các tọa độ GPS, các số đo từ đồng hồ gia tốc, và các mức nhiên liệu từ một chiếc xe giao hàng - hay một đội xe gồm 60.000 chiếc. Hoặc hãy nghĩ tới hàng tỷ truy vấn tìm kiếm cũ, hoặc giá của từng ghế trên mỗi chuyến bay thương mại ở Hoa Kỳ trong nhiều năm qua. Cho đến gần đây, không có cách dễ dàng để thu thập, lưu trữ, và phân tích những dữ liệu như vậy. Điều này hạn chế nghiêm trọng các cơ hội để tận dung giá trị tiềm năng của nó. Trong ví dụ nổi tiếng của Adam Smith về nhà sản xuất ghim, ông đã thảo luận về phân công lao động trong thế kỷ XVIII, phải đòi hỏi những người quan sát theo dõi tất cả các công nhân, không chỉ cho một nghiên cứu cụ thể, mà cho mọi thời điểm của mỗi ngày, lấy các số đo chi tiết, và đếm sản phẩm trên giấy dày với bút lông. Khi các nhà kinh tế cổ điển xem xét các yếu tố của sản xuất (đất đai, lao động và vốn), ý tưởng về khai thác dữ liệu hầu như
vắng bóng. Mặc dù chi phí để thu thập và sử dụng dữ liệu đã giảm trong hơn hai thế kỷ qua, cho đến khá gần đây nó vẫn còn tương đối tốn kém. Điều làm cho thời đại của chúng ta khác biệt là rất nhiều hạn chế cố hữu về thu thập dữ liệu không còn nữa. Công nghệ đã đạt tới điểm mà những lượng lớn thông tin thường xuyên có thể được ghi nhận với giá rẻ. Dữ liệu có thể thường xuyên được thu thập một cách thụ động mà không cần nhiều nỗ lực hoặc thậm chí những đối tượng được ghi lại cũng không hề hay biết. Và bởi chi phí lưu trữ đã giảm rất nhiều, việc giữ lại dữ liệu thay vì loại bỏ nó trở nên dễ dàng hơn. Tất cả những thứ đó làm cho dữ liệu dễ tiếp cận và với chi phí thấp chưa từng có. Trong nửa thế kỷ qua, cứ hai năm thì chi phí lưu trữ kỹ thuật số lại giảm khoảng một nửa, trong khi mật độ lưu trữ đã tăng 50 triệu lần. Theo quan điểm của các công ty thông tin như Farecast hoặc Google - nơi các chất liệu thô đi vào ở một đầu của dây chuyền kỹ thuật số và thông tin đã được xử lý đi ra ở đầu kia - dữ liệu bắt đầu trông giống như một nguồn nguyên liệu mới của sản xuất. Giá trị tức thời của hầu hết dữ liệu là hiển nhiên đối với những người thu thập. Thật ra, có lẽ họ tập hợp nó với một mục đích cụ thể. Các cửa hàng thu thập dữ liệu bán hàng để làm kế toán tài chính cho đúng. Các nhà máy theo dõi sản phẩm để đảm bảo chúng phù hợp với các tiêu chuẩn chất lượng. Các trang web ghi lại từng cú nhấp chuột của người dùng - đôi khi cả nơi con trỏ di chuyển - để phân tích và tối ưu hóa nội dung các trang web trình bày cho người ghé thăm. Những ứng dụng chính này của dữ liệu biện minh cho việc thu thập và xử lý nó. Khi lưu lại không chỉ những cuốn sách khách hàng mua mà cả các trang web họ đơn thuần nhìn vào, Amazon biết rằng họ sẽ sử dụng dữ liệu này để đua ra những khuyên nghị cá nhân hóa. Tương tự như vậy, Facebook theo dõi việc “cập nhật trạng thái” và nhấn nút “like” của người dùng nhằm xác định những quảng cáo phù hợp nhất để hiển thị trên trang web của mình và kiếm tiền từ đó.
Không giống như những thứ vật chất - ví dụ thực phẩm chúng ta ăn, một cây nến cháy - giá trị của dữ liệu không giảm đi khi nó được sử dụng. Nó có thể được xử lý lại và xử lý lại nữa. Thông tin là thứ các nhà kinh tế gọi là hàng hóa “không-cạnh-tranh”: việc sử dụng của một người không cản trở việc sử dụng của người khác. Và thông tin không hao mòn khi sử dụng như các loại vật chất khác. Do đó Amazon có thể sử dụng dữ liệu từ các giao dịch quá khứ khi đưa ra những khuyến nghị cho khách hàng của mình - và sử dụng nó nhiều lần, không chỉ cho khách hàng đã tạo ra dữ liệu mà còn cho cả nhiều người khác nữa. Dữ liệu có thể được sử dụng nhiều lần cho cùng một mục đích. Quan trọng hơn, nó còn có thể được khai thác cho nhiều mục đích khác nhau. Điểm này rất quan trọng khi chúng ta cố gắng hiểu thông tin sẽ có giá trị bao nhiêu đối với chúng ta trong thời đại của dữ liệu lớn. Chúng ta thấy một số tiềm năng này đã trở thành hiện thực, như khi Walmart tìm kiếm cơ sở dữ liệu các hóa đơn bán hàng cũ và phát hiện ra mối tương quan hấp dẫn giữa các cơn bão và việc bán Pop-Tarts. Tất cả những điều này cho thấy giá trị đầy đủ của dữ liệu là lớn hơn nhiều so với giá trị được trích xuất từ nó cho mục đích sử dụng ban đầu. Nó cũng có nghĩa là các công ty có thể khai thác dữ liệu một cách hiệu quả ngay cả khi việc sử dụng lần đầu hoặc mỗi lần tiếp theo chỉ mang lại một lượng nhỏ của giá trị, miễn là họ sử dụng dữ liệu nhiều lần. “Giá trị tùy chọn” của dữ liệu Để hiểu được ý nghĩa của việc tái sử dụng dữ liệu đối với giá trị cuối cùng của nó, hãy lấy ví dụ các xe hơi chạy điện. Khả năng để chúng thành công và trở thành một phương thức vận tải phụ thuộc vào một vô số các yếu tố hậu cần, mà tất cả đều liên quan tới hoạt động của bình điện. Người lái phải nạp được bình điện cho xe của họ một cách nhanh chóng và thuận tiện, và các công ty năng lượng cần đảm bảo rằng năng lượng dùng bởi những
chiếc xe này không làm mất ổn định lưới điện. Ngày nay, chúng ta có mạng phân phối khá hiệu quả các trạm xăng, nhưng chúng ta chưa hiểu được nhu cầu nạp điện và vị trí của các trạm cho xe hơi điện là như thế nào. Điều đáng lưu tâm là vấn đề này không phải thiên về cơ sở hạ tầng mà thiên về thông tin. Và dữ liệu lớn là một phần quan trọng của giải pháp. Trong một thử nghiệm vào năm 2012, IBM đã làm việc với Công ty điện lực và khí Thái Bình Dương ở California và nhà sản xuất xe hơi Honda để thu thập một lượng lớn thông tin nhằm trả lời các câu hỏi cơ bản về thời gian và địa điểm xe điện sẽ nạp điện, và điều này có nghĩa gì đối với việc cung cấp năng lượng. IBM đã phát triển một mô hình dự đoán được xây dựng dựa trên rất nhiều yếu tố: lượng điện trong bình, vị trí của xe, thời gian trong ngày, và các chỗ đỗ có sẵn tại các trạm nạp điện gần đó. Nó kết hợp dữ liệu với mức tiêu thụ hiện tại từ lưới điện cũng như mô hình sử dụng năng lượng trong quá khứ. Việc phân tích các dòng lớn dữ liệu theo thời gian hiện tại và quá khứ từ nhiều nguồn cho phép IBM xác định những thời gian và địa điểm tối ưu cho người lái nạp bình điện xe của họ. Nó cũng tiết lộ nơi tốt nhất để xây dựng các trạm nạp. Cuối cùng, hệ thống sẽ phải tính đến chênh lệch giá tại các trạm nạp gần đó. Ngay cả dự báo thời tiết cũng được xem là một yếu tố: chẳng hạn trường hợp trời nắng và một trạm năng lượng mặt trời gần đó đầy ắp điện, nhưng dự báo thời tiết cho biết sắp có một tuần mưa nên các tấm pin mặt trời sẽ không vận hành. Hệ thống lấy thông tin được tạo ra cho một mục đích và tái sử dụng nó cho một mục đích khác - nói cách khác, dữ liệu chuyển từ ứng dụng chính sang ứng dụng phụ. Điều này làm tăng giá trị của nó theo thời gian. Chỉ báo lượng điện của xe sẽ cho người lái biết khi nào thì cần nạp điện. Dữ liệu về sử dụng lưới điện được công ty dịch vụ tiện ích thu thập để quản lý sự ổn định của lưới điện. Đó là những ứng dụng chính. Cả hai bộ dữ liệu đều có những ứng dụng phụ - và giá trị mới - khi chúng được dùng cho
một mục đích hoàn toàn khác: xác định nên nạp điện khi nào và ở đâu, và nơi để xây dựng các trạm dịch vụ xe hơi điện. Thêm nữa, các thông tin phụ trợ được kết hợp, chẳng hạn như vị trí của xe và việc tiêu thụ lưới điện trong quá khứ. Và IBM xử lý dữ liệu không chỉ một lần mà còn xử lý lại và lại nữa, vì nó liên tục cập nhật hồ sơ tiêu thụ năng lượng của xe điện và ảnh hưởng của nó lên lưới điện. Giá trị thực sự của dữ liệu giống như một tảng băng trôi nổi trên đại dương. Chỉ một phần nhỏ của nó là có thể được nhìn thấy ngay từ cái nhìn đầu tiên, trong khi phần lớn của nó bị ẩn bên dưới bề mặt. Các công ty sáng tạo hiểu được điều này có thể tận dụng được những giá trị và gặt hái những lợi ích tiềm năng rất lớn. Tóm lại, giá trị của dữ liệu phải được xem xét trên tất cả các khía cạnh nó có thể được sử dụng trong tương lai, chứ không chỉ đơn giản trong hiện tại. Chúng ta từng thấy điều này trong nhiều ví dụ đã được nhấn mạnh. Farecast khai thác dữ liệu từ vé máy bay bán trước đó để dự đoán giá vé tương lai. Google tái sử dụng các từ khóa tìm kiếm để khám phá sự lây lan của bệnh cúm. Maury đã sử dụng lại các nhật ký đi biển cũ để phát hiện những dòng hải lưu. Tuy nhiên, tầm quan trọng của việc tái sử dụng dữ liệu vẫn chưa được đánh giá đầy đủ trong kinh doanh và xã hội. Rất ít nhà điều hành tại Con Edison ở New York có thể tưởng tượng được rằng thông tin về các cáp cũ hàng thế kỷ và các hồ sơ bảo trì có thể được sử dụng để ngăn ngừa tai nạn trong tương lai. Phải cần một thế hệ mới các nhà thống kê, và một làn sóng mới các phương pháp và công cụ để mở được khóa giá trị của dữ liệu. Ngay cả nhiều công ty Internet và công nghệ đến gần đây vẫn không hề biết việc tái sử dụng dữ liệu có thể có giá trị như thế nào. Việc hình dung dữ liệu theo cách các nhà vật lý xem xét năng lượng cũng là một cách hay. Họ đề cập đến năng lượng “lưu trữ” hoặc “tiềm ẩn” tồn tại bên trong một đối tượng nhưng nằm im.
Hãy hình dung một lò xo bị nén hoặc một quả bóng dừng tại đỉnh của một ngọn đồi. Năng lượng trong các đối tượng này vẫn còn âm ỉ - tiềm ẩn - cho đến khi nó được giải phóng, chẳng hạn, khi lò xo được bung ra hoặc quả bóng được đẩy nhẹ để nó lăn xuống dốc. Lúc này năng lượng của các đối tượng đã trở thành “động” vì chúng đang chuyển động và tác dụng lên các đối tượng trong thế giới. Sau ứng dụng chính của nó, giá trị của dữ liệu vẫn còn tồn tại, nhưng nằm im, giống như lò xo hoặc quả bóng, cho đến khi dữ liệu được dùng cho một ứng dụng phụ và sức mạnh của nó lại được giải phóng. Trong thời đại dữ-liệu-lớn, cuối cùng chúng ta đã có được cách suy nghĩ, sự khéo léo, và các công cụ để khai thác giá trị tiềm ẩn của dữ liệu. Cuối cùng, giá trị của dữ liệu là những gì người ta có thể đạt được từ tất cả các cách sử dụng nó. Những ứng dụng tiềm năng dường như vô hạn này cũng giống như những lựa chọn - không theo ý nghĩa của các công cụ tài chính, nhưng theo ý nghĩa thiết thực của sự lựa chọn. Giá trị của dữ liệu là tổng của các lựa chọn này: “giá trị lựa chọn” của dữ liệu, có thể nói như vậy. Trong quá khứ, một khi ứng dụng chính của dữ liệu đã đạt được, chúng ta thường nghĩ rằng dữ liệu đã hoàn thành mục đích của mình, và chúng ta sẵn sàng xóa nó, để cho nó mất đi. Xét cho cùng, dường như giá trị quan trọng đã được tận dụng. Trong thời đại dữ-liệu- lớn, dữ liệu giống như một mỏ kim cương huyền diệu vẫn tiếp tục sản xuất thêm lâu nữa sau khi giá trị chính của nó đã được khai thác. Có ba cách hiệu nghiệm để giải phóng giá trị tùy chọn của dữ liệu: tái sử dụng cơ bản, hợp nhất các tập dữ liệu, và tìm kiếm các “ích lợi kép”. TÁI SỬ DỤNG DỮ LIỆU Một ví dụ điển hình của việc tái sử dụng sáng tạo dữ liệu là các từ khóa tìm kiếm. Thoạt đầu, thông tin có vẻ vô giá trị sau khi mục đích chính của nó đã được hoàn thành. Sự tương tác tạm thời giữa người sử dụng và công cụ tìm kiếm đưa ra một danh sách
các trang web và quảng cáo phục vụ một chức năng đặc biệt duy nhất cho thời điểm đó. Nhưng những truy vấn cũ có thể có giá trị bất thường. Hitwise, một công ty đo lường lưu lượng web thuộc sở hữu của nhà môi giới dữ liệu Experian, cho phép khách hàng khai thác lưu lượng tìm kiếm để tìm hiểu sở thích của người tiêu dùng. Các nhà tiếp thị có thể sử dụng Hitwise để hình dung liệu màu hồng sẽ lên ngôi trong mùa xuân này hay màu đen sẽ trở lại. Google đưa ra một phiên bản của bộ phân tích từ khóa tìm kiếm để mọi người kiểm tra. Nó đã khải động một dịch vụ dự báo kinh doanh với ngân hàng lớn thứ hai của Tây Ban Nha, BBVA, để xem xét ngành du lịch cũng như bán các chỉ số kinh tế thời gian thực dựa trên dữ liệu tìm kiếm. Ngân hàng Anh sử dụng các truy vấn tìm kiếm liên quan đến bất động sản để hình dung tốt hơn về việc giá nhà đất tăng hay giảm. Các công ty thất bại trong việc đánh giá cao tầm quan trọng của tái sử dụng dữ liệu đã học được bài học của họ một cách khó khăn. Ví dụ, trong những ngày đầu của Amazon, họ đã ký một thỏa thuận với AOL để dùng công nghệ thương mại điện tử của AOL. Đối với hầu hết mọi người, nó trông giống như một thỏa thuận gia công bình thường. Nhưng những gì thực sự khiến Amazon quan tâm, như Andreas Weigend, cựu giám đốc khoa học của Amazon, giải thích là việc có được dữ liệu về những gì người dùng AOL đã xem và mua, điều sẽ cải thiện hiệu quả cho các khuyến nghị của Amazon. AOL tội nghiệp không hề nhận ra điều này. Họ chỉ nhìn thấy giá trị của dữ liệu trong mục đích sử dụng chính - bán hàng. Amazon thông minh biết họ có thể gặt hái lợi ích bằng cách đưa dữ liệu này vào một ứng dụng phụ. Hoặc hãy xét trường hợp Google đã nhảy vào lĩnh vực nhận dạng giọng nói với GOOG-411 cho các danh sách tìm kiếm địa phương, thực hiện từ 2007 đến 2010. Người khổng lồ về tìm kiếm không có công nghệ nhận dạng giọng nói riêng của mình nên phải mua bản quyền. Google đạt được thỏa thuận với Nuance, công ty hàng đầu trong lĩnh vực này đã vui mừng gặp
được vị khách cao giá. Nhưng Nuance lúc đó là một gã ngốc về dữ-liệu-lớn: hợp đồng không chỉ định ai là người sẽ giữ các bản ghi dịch tiếng nói, và Google đã giữ chúng cho riêng mình. Việc phân tích dữ liệu cho phép người ta đánh giá xác suất để một đoạn số hóa nhất định của tiếng nói tương ứng với một từ cụ thể. Đây là điều quan trọng để cải thiện công nghệ nhận dạng giọng nói hoặc tạo ra một dịch vụ mới mẻ hoàn toàn. Thời điểm đó, Nuance cho rằng họ kinh doanh bản quyền phần mềm, chứ không phải phân tích dữ liệu. Ngay sau khi thấy lỗi của mình, họ mới bắt đầu có những thỏa thuận đáng chú ý với các nhà khai thác di động và các nhà sản xuất thiết bị cầm tay để sử dụng dịch vụ nhận dạng giọng nói của mình - để có thể thu thập được dữ liệu. Giá trị trong việc tái sử dụng dữ liệu là tin tốt cho các tổ chức thu thập hoặc kiểm soát các bộ dữ liệu lớn nhưng hiện đang sử dụng chúng rất ít, chẳng hạn như những doanh nghiệp thường chủ yếu hoạt động ngoại tuyến (offline). Họ có thể ngồi trên những mỏ thông tin chưa được khai thác. Một số công ty có thể đã thu thập dữ liệu, sử dụng nó một lần (nếu có), và giữ nó ở đâu đó vi chi phí lưu trữ thấp - trong những “nấm mồ dữ liệu”, như các nhà khoa học dữ liệu gọi những nơi thông tin cũ cư trú. Các công ty Internet và công nghệ đang tiên phong khai thác hàng núi dữ liệu, vì họ thu thập được rất nhiều thông tin chỉ bằng cách hoạt động trực tuyến và đi trước các công ty khác trong việc phân tích nó. Nhưng tất cả các công ty đều được hưởng lợi. Các chuyên gia tư vấn tại McKinsey & Company cho biết một công ty hậu cần (giấu tên) nhận thấy trong quá trình cung cấp hàng hóa, nó đã tích lũy hàng đống thông tin về vận chuyển hàng hóa trên toàn cầu. Thấy được cơ hội, nó thành lập một bộ phận đặc biệt để bán dữ liệu tổng hợp ở dạng các dự báo kinh doanh và kinh tế. Nói cách khác, nó tạo ra một phiên bản ngoại tuyến của Google trong việc truy-vấn-tìm-kiếm-quá-khứ. Hoặc SWIFT, hệ thống liên ngân hàng toàn cầu để chuyển tiền,
đã phát hiện ra rằng các khoản thanh toán tương quan với các hoạt động kinh tế toàn cầu. Vì vậy, SWIFT cung cấp dự báo GDP dựa trên dữ liệu chuyển tiền đi qua mạng lưới của mình. Một số doanh nghiệp, nhờ vào vị trí của họ trong chuỗi giá trị thông tin, có thể thu thập được những lượng lớn dữ liệu, mặc dù họ có ít nhu cầu ngay lập tức đối với dữ liệu hoặc không thành thạo trong việc sử dụng lại nó. Ví dụ các nhà khai thác điện thoại di động thu thập thông tin về địa điểm của các thuê bao để phân tuyến các cuộc gọi. Đối với những công ty này, dữ liệu như vậy chỉ có các mục đích kỹ thuật hạn hẹp. Nhưng nó có giá trị hơn khi được tái sử dụng bởi các công ty phân phối quảng cáo và chương trình khuyến mãi được cá nhân hóa dựa trên địa điểm. Đôi khi giá trị không đến từ các điểm dữ liệu riêng lẻ mà từ những gì chúng tiết lộ trong quá trình tổng hợp. Do đó các doanh nghiệp bán thông tin vị trí địa lý như AirSage và Sense Networks mà chúng ta đã thấy trong chương trước có thể bán thông tin về nơi mà người dân đang tụ tập vào một tối thứ Sáu hoặc nơi những chiếc xe đang phải bò chậm chạp trên đường. Những kiểu thông tin tổng hợp này có thể được sử dụng để xác định giá trị bất động sản hoặc giá bảng hiệu quảng cáo. Ngay cả những thông tin tầm thường nhất cũng có thể có giá trị đặc biệt, nếu được áp dụng một cách đúng đắn. Hãy quay lại với các nhà khai thác điện thoại di động: họ lưu trữ về việc các điện thoại kết nối với các hạm cơ sở ở đâu và khi nào, với cường độ tín hiệu thế nào. Các nhà khai thác từ lâu đã sử dụng dữ liệu đó để tinh chỉnh hiệu suất mạng lưới của họ, quyết định nơi cần bổ sung hoặc nâng cấp cơ sở hạ tầng. Nhưng dữ liệu còn có nhiều ứng dụng tiềm năng khác nữa. Các nhà sản xuất thiết bị cầm tay có thể sử dụng nó để tìm hiểu những gì ảnh hưởng đến cường độ tín hiệu, ví dụ để nâng cao chất lượng tiếp nhận tín hiệu cho các thiết bị của họ. Các nhà khai thác điện thoại di động từ lâu đã không muốn kiếm tiền từ thông tin này vì sợ vi phạm các quy định bảo vệ quyền riêng tư. Nhưng họ bắt đầu mềm dẻo hơn
trong lập trường khi dữ liệu được xem như một nguồn thu nhập tiềm năng. Năm 2012, công ty Telefonica thậm chí còn lập ra một công ty riêng biệt, gọi là Telefonica Digital Insights, để bán dữ liệu vị trí thuê bao ẩn danh cho các nhà bán lẻ và những đối tượng khác. DỮ LIỆU TÁI TỔ HỢP Đôi khi giá trị tiềm ẩn chỉ có thể được giải phóng bằng cách kết hợp một bộ dữ liệu với một bộ khác, thậm chí hoàn toàn khác. Chúng ta có thể sáng tạo bằng cách trộn lẫn dữ liệu theo những cách mới. Một ví dụ để thấy cách này vận hành như thế nào là một nghiên cứu thông minh được công bố năm 2011 để xem liệu điện thoại di động có làm tăng nguy cơ ung thư. Với khoảng sáu tỷ điện thoại di động trên thế giới, gần như một máy cho mỗi người trên trái đất, câu hỏi này là rất quan trọng. Nhiều nghiên cứu đã cố tìm kiếm một liên kết, nhưng đều gặp trở ngại do có nhiều thiếu sót. Các cỡ mẫu là quá nhỏ, hoặc những khoảng thời gian họ đề cập là quá ngắn, hoặc họ đã dựa trên dữ liệu tự báo cáo mang đầy lỗi. Tuy nhiên, một nhóm các nhà nghiên cứu tại Hiệp hội Ung thư Đan Mạch đã phát minh ra một cách tiếp cận thú vị dựa trên dữ liệu đã thu thập được trước đó. Dữ liệu về tất cả các thuê bao từ khi có điện thoại di động ở Đan Mạch được thu thập từ các nhà khai thác di động. Nghiên cứu đã khảo sát những người có điện thoại di động từ năm 1987 đến 1995, loại trừ các thuê bao của công ty và những người không có sẵn dữ liệu kinh tế xã hội. Tổng cộng có 358.403 người. Quốc gia này cũng duy trì một cơ sở dữ liệu toàn quốc của tất cả các bệnh nhân ung thư, trong đó có 10.729 người có khối u ở hệ thống thần kinh trung ương trong những năm từ 1990 đến 2007. Nghiên cứu cũng sử dụng một cơ sở dữ liệu toàn quốc với thông tin về cấp giáo dục cao nhất và thu nhập của mỗi người dân Đan Mạch. Sau khi kết hợp ba bộ dữ liệu, các nhà nghiên cứu xem xét
liệu người sử dụng điện thoại di động có tỷ lệ ung thư cao hơn so với những người không sử dụng hay không. Và giữa các thuê bao, liệu những người đã sở hữu một điện thoại di động trong một thời gian dài hơn có nhiều khả năng bị ung thư hơn không? Dù nghiên cứu này ở quy mô lớn, dữ liệu thu được không hề lộn xộn hoặc thiếu chính xác: các bộ dữ liệu đòi hỏi những tiêu chuẩn chất lượng khắt khe cho các mục đích y tế, thương mại hoặc nhân khẩu học. Thông tin được thu thập không theo những cách có thể tạo ra định kiến liên quan đến chủ đề của nghiên cứu. Thật ra, dữ liệu đã có từ nhiều năm trước, vì những lý do không hề liên quan tới nghiên cứu này. Điều quan trọng nhất là nghiên cứu không dựa trên một mẫu mà trên cơ sở gần với N = tất cả: hầu hết các ca bệnh ung thư, và gần như tất cả người dùng điện thoại di động, với số lượng 3,8 triệu người và số năm sở hữu điện thoại di động. Việc nó bao gồm gần như tất cả các trường hợp nghĩa là các nhà nghiên cứu có thể kiểm soát các tiểu quần thể, chẳng hạn như những người có mức thu nhập cao. Cuối cùng, nhóm đã không phát hiện được bất kỳ sự gia tăng nguy cơ ung thu nào liên quan với việc sử dụng điện thoại di động. Vì lý do đó, các kết quả của nghiên cứu hầu nhu không gây được tiếng vang trên các phương tiện truyền thông khi chúng được công bố vào tháng 10 năm 2011 trên tạp chí y khoa của Anh BMJ. Nhưng nếu một mối liên hệ được phát hiện thì nghiên cứu này hẳn sẽ xuất hiện trên trang nhất của các tờ báo khắp thế giới, và phương pháp “dữ liệu tái tổ hợp” đã nổi tiếng. Với dữ liệu lớn, tổng thể sẽ có giá trị cao hơn các bộ phận của nó, và khi chúng ta kết hợp các tổng thể của nhiều bộ dữ liệu lại với nhau, tổng thể đó cũng là trị giá hơn các thành phần riêng lẻ. Ngày nay người dùng Internet quen thuộc với những “ứng dụng hỗn hợp” cơ bản, kết hợp hai hoặc nhiều nguồn dữ liệu theo một cách mới lạ. Ví dụ trang web bất động sản Zillow đã chèn thông tin bất động sản và giá cả lên bản đồ của các khu phố tại Hoa Kỳ.
Họ cũng xử lý hàng núi dữ liệu, chẳng hạn các giao dịch gần đây trong khu vực và chi tiết kỹ thuật của các bất động sản, để dự đoán giá trị của những ngôi nhà cụ thể trong một khu vực. Cách trình bày hình ảnh làm cho dữ liệu trở nên dễ tiếp cận hơn. Nhưng với dữ liệu lớn chúng ta còn có thể đi xa hơn nữa. Nghiên cứu về ung thư ở Đan Mạch đã cho chúng ta một gợi ý về những điều khả thi. DỮ LIỆU MỞ RỘNG Một cách khiến việc tái sử dụng dữ liệu dễ dàng hơn là thiết kế khả năng mở rộng cho nó ngay từ đầu, để nó phù hợp với nhiều mục đích sử dụng. Mặc dù điều này không phải luôn khả thi - bởi có thể rất lâu sau khi dữ liệu đã được thu thập người ta mới nhận ra những ứng dụng khác - vẫn có nhiều cách khuyên khích các ứng dụng khác nhau cho cùng một bộ dữ liệu. Ví dụ một số cửa hàng bán lẻ đặt các camera giám sát cửa hàng, không chỉ để phát hiện người lấy cắp đồ, mà quan trọng là để theo dõi dòng khách mua trong cửa hàng và nơi họ dừng lại nhìn ngắm. Các nhà bán lẻ có thể sử dụng nhóm thông tin này để thiết kế cửa hàng cũng như để đánh giá hiệu quả của các chiến dịch tiếp thị. Trước đó, camera chỉ phục vụ mục tiêu an ninh. Bây giờ chúng được xem là khoản đầu tư có thể làm tăng doanh thu. Một trong những công ty giỏi nhất trong việc thu thập dữ liệu, đồng thời tính đến khả năng mở rộng, đương nhiên chính là Google. Những chiếc xe Street View vốn gây tranh cãi đã đi khắp nơi chụp ảnh nhà ở và đường giao thông, nhưng cũng ngấu nghiên dữ liệu GPS, kiểm tra thông tin bản đồ, thậm chí lấy các tên mạng wifi (và cả nội dung truyền tải trên các mạng wifi mở, có lẽ một cách bất hợp pháp). Chỉ một chuyến đi của Google Street View đã tích lũy được vô số dòng dữ liệu rời rạc ở mọi thời điểm. Khả năng mở rộng xuất hiện bởi vì Google dùng các dữ liệu không chỉ cho ứng dụng chính mà còn cho rất nhiều các ứng dụng phụ. Ví dụ dữ liệu GPS thu thập được đã cải thiện dịch vụ
bản đồ của họ và là phần không thể thiếu cho hoạt động của Google Street View. Chi phí phát sinh để thu thập nhiều dòng hoặc nhiều điểm dữ liệu hơn trong mỗi dòng thường thấp. Vì vậy, rõ ràng là thu thập càng nhiều dữ liệu càng tốt, cũng như cần làm cho dữ liệu có thể được mở rộng bằng cách xem xét tiềm năng của các ứng dụng phụ ngay từ đầu. Điều này làm tăng giá trị lựa chọn của dữ liệu. Vấn đề là tìm các “ích lợi kép” - nghĩa là một bộ dữ liệu đơn nhất có thể được sử dụng trong nhiều trường hợp nếu nó được thu thập theo một cách nhất định. Nhờ đó, dữ liệu có thể thực thi nhiều nhiệm vụ cùng lúc. GIẢM GIÁ TRỊ CỦA DỮ LIỆU Khi chi phí lưu trữ dữ liệu kỹ thuật số đã giảm mạnh, các doanh nghiệp có động lực kinh tế mạnh mẽ trong việc giữ lại dữ liệu để tái sử dụng cho cùng mục đích hoặc cho những mục đích tương tự khác. Nhưng có một giới hạn cho tính hữu dụng của nó. Ví dụ các công ty như NetAix và Amazon dựa vào các giao dịch của khách hàng và các đánh giá để đưa ra khuyến nghị cho các sản phẩm mới, do vậy họ có thể chấp nhận sử dụng các hồ sơ nhiều lần cho nhiều năm. Với ý nghĩ đó, người ta có thể tranh luận rằng khi không bị hạn chế bởi các giới hạn pháp lý như luật bảo vệ quyền riêng tư, công ty nên sử dụng các hồ sơ kỹ thuật số mãi mãi, hoặc ít nhất là khi vẫn còn hiệu quả về mặt kinh tế. Tuy nhiên, thực tế lại không đơn giản như vậy. Hầu hết dữ liệu đều bị mất một phần tính hữu ích của nó theo thời gian. Trong những hoàn cảnh như vậy, việc tiếp tục dựa vào dữ liệu cũ không chỉ thất bại trong việc gia tăng giá trị, nó còn thực sự phá hủy giá trị của dữ liệu mới hơn. Hãy chọn một cuốn sách bạn mua mười năm trước từ Amazon mà nó có thể không còn phản ánh các sở thích của bạn nữa. Nếu Amazon sử dụng hồ
sơ mua hàng cũ cả chục năm để giới thiệu các cuốn sách khác thì ít có khả năng bạn sẽ mua chúng - hoặc thậm chí thèm để tâm tới các khuyến nghị tiếp theo mà trang web cung cấp. Khi các khuyến nghị của Amazon dựa trên cả thông tin lỗi thời lẫn thông tin gần đây hơn vẫn còn giá trị, sự hiện diện của các dữ liệu cũ sẽ làm giảm giá trị của các dữ liệu mới hơn. Vì vậy, công ty vẫn sử dụng dữ liệu chỉ khi nó vẫn còn có hiệu quả. Amazon cần liên tục chăm chút kho tàng dữ liệu và xóa bỏ các thông tin đã mất giá trị. Khó khăn nằm ở chỗ biết được dữ liệu nào không còn hữu ích nữa. Nếu chỉ ra quyết định căn cứ vào thời gian thì hiếm khi thỏa đáng. Do đó, Amazon và những công ty khác đã xây dựng những mô hình phức tạp để giúp họ tách biệt dữ liệu hữu ích với dữ liệu không liên quan. Ví dụ nếu một khách hàng xem hoặc mua một cuốn sách được đề nghị dựa trên một lần mua trước, thì công ty thương mại điện tử có thể suy ra rằng giao dịch cũ vẫn còn thể hiện cho những sở thích hiện tại của khách hàng. Bằng cách đó họ có thể chấm điểm cho tính hữu dụng của dữ liệu cũ, và nhờ đó lập ra mô hình “tỷ lệ khấu hao” chính xác hơn cho các thông tin. Không phải tất cả dữ liệu đều mất giá trị với cùng một tốc độ hoặc theo cùng một cách. Điều này giải thích lý do một số công ty tin rằng họ cần lưu trữ dữ liệu càng lâu càng tốt, ngay cả khi các cơ quan quản lý hoặc công chúng muốn nó được xóa đi hoặc làm ẩn danh sau một thời gian. Ví dụ Google từ lâu đã phản đối các yêu cầu xóa địa chỉ giao thức Internet đầy đủ của người sử dụng từ các truy vấn tìm kiếm cũ. (Thay vào đó nó chỉ xóa chữ số cuối cùng sau chín tháng để làm ẩn danh một phần các truy vấn. Như vậy, công ty vẫn có thể so sánh dữ liệu năm này qua năm khác, chẳng hạn các lệnh tìm kiếm về mua sắm dịp lễ - nhưng chỉ trên cơ sở khu vực, chứ không xuống tới từng cá nhân.) Ngoài ra, việc biết vị trí của người tìm kiếm có thể giúp cải thiện tính xác đáng của các kết quả. Ví dụ nếu nhiều người ở New York tìm kiếm và mở trang web về Thổ Nhĩ Kỳ, thuật toán sẽ xếp hạng các
trang này cao hơn cho những người khác ở New York. Ngay cả khi giá trị của dữ liệu giảm đối với một số mục đích của nó, giá trị tương lai của nó có thể vẫn còn lớn. Giá trị của dữ liệu xả Tái sử dụng dữ liệu đôi khi có thể ở một hình thức thông minh và ẩn. Các công ty web có thể thu thập dữ liệu trên tất cả những điều mà người sử dụng thực hiện, và sau đó xử lý mỗi tương tác riêng biệt như một chỉ báo có vai trò là thông tin phản hồi để phục vụ việc cá nhân hóa trang web, cải thiện dịch vụ, hoặc tạo ra một sản phẩm kỹ thuật số hoàn toàn mới. Chúng ta sẽ thấy một minh họa sinh động về điều này trong câu chuyện về hai bộ kiểm tra chính tả. Trong suốt hai mươi năm qua, Microsoft đã phát triển một bộ kiểm tra chính tả mạnh cho phần mềm Word. Nó so sánh một từ điển thường xuyên được cập nhật của các từ viết đúng chính tả với dòng các ký tự người sử dụng gõ vào. Từ điển lập danh sách những từ đã được biết đến, và hệ thống sẽ xem các biến thể gần đúng nhưng không có trong từ điển là lỗi chính tả để sau đó sửa. Do sẽ phải tiêu tốn nhiều công sức để sưu tập và cập nhật từ điển, bộ kiểm tra chính tả của Microsoft Word chỉ có cho những ngôn ngữ phổ biến nhất. Nó tiêu tốn của công ty hàng triệu đôla để tạo ra và duy trì sản phẩm. Bây giờ hãy sang Google. Họ được cho là có bộ kiểm tra chính tả hoàn thiện nhất thế giới, về cơ bản là cho tất cả các ngôn ngữ được sử dụng. Hệ thống liên tục cải thiện và bổ sung thêm những từ mới - kết quả ngẫu nhiên của việc mọi người sử dụng công cụ tìm kiếm mỗi ngày. Gõ nhầm “iPad”? Đã có trong dữ liệu. “Obamacare”? Nó biết luôn rồi. Hơn nữa, Google dường như có được bộ kiểm tra chính tả mà chẳng tốn phí, do tái sử dụng các lỗi chính tả được gõ vào công
cụ tìm kiếm của ba tỷ yêu cầu mà nó xử lý mỗi ngày. Một vòng phản hồi thông minh dạy cho hệ thống từ nào là từ người sử dụng thực sự muốn gõ vào. Người sử dụng đôi khi “nói” một cách rõ ràng cho Google câu trả lời khi nó đặt ra câu hỏi ở trên cùng của trang kết quả - ví dụ “Ý của bạn là epidemioiogy?” - bằng cách nhấp vào đó để bắt đầu một lệnh tìm kiếm mới với từ khóa đúng. Hoặc trang web mà người dùng muốn nhắm tới sẽ giả định việc viết đúng chính tả, có thể vì như vậy sẽ tương hợp hơn so với từ khóa viết sai. (Điều này là quan trọng hơn nhiều người tưởng: Khi bộ kiểm tra chính tả của Google được liên tục cải tiến, người ta không cần gõ các từ khóa tìm kiếm của họ một cách chính xác nữa, bởi Google vẫn có thể xử lý chúng được.) Hệ thống kiểm tra chính tả của Google cho thấy dữ liệu “xấu”, “không đúng”, hoặc “khiếm khuyết” vẫn có thể rất hữu ích. Điều thú vị là Google không phải là nơi đầu tiên có ý tưởng này. Khoảng năm 2000 Yahoo đã nhìn thấy khả năng tạo ra một bộ kiểm tra chính tả từ các truy vấn gõ sai của người sử dụng. Nhưng ý tưởng này chẳng đi được tới đâu. Dữ liệu câu hỏi tìm kiếm cũ đã bị xử lý chủ yếu như là rác. Tương tự như vậy, Infoseek và Alta Vista, những công cụ tìm kiếm phổ biến sớm hơn, đều có cơ sở dữ liệu toàn diện nhất thế giới về các từ viết sai chính tả khi đó, nhưng họ đã không đánh giá cao giá trị của chúng. Các hệ thống của họ, trong một quá trình ẩn đối với người sử dụng, đã xem những từ viết sai như “những từ có liên quan” và vẫn tiến hành cuộc tìm kiếm. Nhưng cuộc tìm kiếm đó được dựa trên các từ điển nói rõ ràng với hệ thống những gì là đúng, chứ không dựa trên những điều sống động, hiện hữu của việc tương tác với người dùng. Chỉ mỗi Google nhận ra những mảnh vụn của mối tương tác với người dùng là bụi vàng thực sự, có thể được thu thập lại và đúc thành một phôi sáng bóng. Một trong những kỹ sư hàng đầu của Google ước tính rằng bộ kiểm tra chính tả của nó thực hiện tốt hơn so với của Microsoft ở mức độ rất cao (mặc dù khi được chất
vấn, ông thừa nhận đã không đo lường điều này một cách đáng tin cậy). Và ông chế giễu ý kiến cho rằng nó được phát triển “miễn phí”. Có thể nguyên liệu thô - lỗi chính tả - tự đến mà không cần một chi phí trực tiếp nào, nhưng Google nhiều khả năng đã chi nhiều hơn hẳn so với Microsoft để phát triển hệ thống, ông thừa nhận với một nụ cười sảng khoái. Các phương pháp tiếp cận khác nhau của hai công ty là vô cùng đáng chú ý. Microsoft chỉ nhìn thấy giá trị của việc kiểm tra chính tả cho một mục đích: xử lý từ. Google lại hiểu được ích lợi sâu hơn của nó. Google không chỉ sử dụng các lỗi chính tả nhằm phát triển bộ kiểm tra chính tả tốt nhất và được cập nhật tốt nhất thế giới để cải thiện việc tìm kiếm, mà nó còn áp dụng hệ thống vào nhiều dịch vụ khác, chẳng hạn như tính năng “tự động hoàn chỉnh” trong tìm kiếm, Gmail, Google Docs, và thậm chí cả hệ thống dịch thuật của mình. Một thuật ngữ nghệ thuật đã xuất hiện để mô tả dấu vết kỹ thuật số mà người sử dụng để lại: “dữ liệu xả”. Nó đề cập đến dữ liệu được tạo ra như một sản phẩm phụ của các hành vi và các chuyển động của con người trong thế giới. Với Internet, nó mô tả những tương tác trực tuyến của người sử dụng: nơi họ nhấp chuột, họ xem một trang bao lâu, nơi con trỏ chuột qua lại, những gì họ nhập từ bàn phím, và nhiều nữa. Nhiều công ty thiết kế hệ thống của họ để có thể thu hoạch được dữ liệu xả và tái chế, để cải thiện một dịch vụ hiện có hoặc phát triển những dịch vụ mới. Google là người dẫn đầu không thể tranh cãi. Nó áp dụng nguyên tắc đệ quy “học hỏi từ dữ liệu” cho nhiều dịch vụ của mình. Mọi hành động người dùng thực hiện được xem là một tín hiệu để phân tích và đưa trở lại vào hệ thống. Ví dụ Google nhận thức được một cách sâu sắc việc bao nhiêu lần người dùng tìm kiếm một từ khóa cũng như những từ liên quan, và mức độ thường xuyên họ bấm vào một liên kết nhưng sau đó quay trở lại trang tìm kiếm vì không hài lòng với những gì họ
tìm thấy, để tìm kiếm một lần nữa. Nó biết liệu họ đang bấm vào liên kết thứ tám trên trang đầu tiên hay liên kết đầu tiên trên trang thứ tám - hay họ đã từ bỏ hoàn toàn việc tìm kiếm. Google có thể không phải là công ty đầu tiên có cái nhìn sâu sắc này, nhưng là công ty thực hiện điều này với hiệu quả đặc biệt xuất sắc. Thông tin này rất có giá trị. Nếu nhiều người dùng có xu hướng bấm vào kết quả tìm kiếm ở dưới cùng của hang kết quả, điều này cho thấy nó phù hợp hơn những kết quả được xếp trên, và thuật toán xếp hạng của Google sẽ biết để tự động đặt nó lên cao hơn trong những lần tìm kiếm tiếp theo. (Và nó thực hiện điều này cho cả những quảng cáo.) “Chúng tôi thích học hỏi từ những tập hợp dữ liệu lớn, ‘ồn ào’”, một chuyên gia của Google nhận xét. Dữ liệu xả là cơ chế đằng sau rất nhiều dịch vụ như nhận dạng giọng nói, lọc thư rác, dịch ngôn ngữ, và nhiều nữa. Khi người sử dụng chỉ cho một chương trình nhận dạng giọng nói rằng nó đã hiểu lầm những gì họ nói, họ thực chất đã “huấn luyện” hệ thống để nó tốt hơn. Nhiều doanh nghiệp đang bắt đầu thiết kế hệ thống của họ để thu thập và sử dụng thông tin theo cách này. Trong những ngày đầu của Facebook, “nhà khoa học dữ liệu” đầu tiên của công ty, Jeff Hammerbacher (và là một trong số những người đặt ra thuật ngữ này), đã khảo sát kho tàng phong phú của dữ liệu xả. Ông và nhóm nghiên cứu phát hiện ra rằng một yếu tố dự báo lớn về việc người dùng sẽ thực hiện một hành động (đăng nội dung, nhấp vào một biểu tượng ) là liệu họ có nhìn thấy bạn bè của mình làm điều tương tự hay không. Vì vậy, Facebook đã thiết kế lại hệ thống để chú trọng nhiều hơn vào việc khiến cho các hoạt động của bạn bè có thể được nhìn thấy rõ hơn, tạo ra một vòng xoắn phát triển của những đóng góp mới cho trang web. Ý tưởng này đang lan rộng vượt ra ngoài lĩnh vực Internet tới bất kỳ công ty nào thu thập thông tin phản hồi của người dùng. Ví
dụ những thiết bị đọc sách điện tử (e-book) nắm bắt số lượng lớn dữ liệu về sở thích và thói quen văn học của người sử dụng chúng: họ cần bao lâu để đọc một trang hoặc đoạn, nơi họ đọc, họ lật trang chỉ để lướt qua hoặc gấp cuốn sách lại mãi mãi. Các thiết bị ghi lại mỗi khi người sử dụng đánh dấu một đoạn hoặc ghi chú ở bên lề. Khả năng thu thập loại thông tin này sẽ biến việc đọc, lâu nay là một hành động đơn độc, thành một loại trải nghiệm chung. Một khi đã được tổng hợp, dữ liệu xả có thể cho các nhà xuất bản và tác giả biết những điều mà họ chưa hề được biết trước đây một cách định lượng: các cảm giác thích, không thích, và mô thức đọc của mọi người. Thông tin này rất có giá trị về thương mại. Có thể hình dung các công ty sách điện tử bán nó cho các nhà xuất bản để cải tiến nội dung và cấu trúc của các cuốn sách. Ví dụ việc phân tích dữ liệu từ thiết bị đọc sách điện tử Nook của Barnes & Noble cho thấy khi đọc một tác phẩm dày thuộc thể loại sách kiến thức, người ta thường bỏ ngang khi chỉ mới đọc được một nửa. Phát hiện này đã tạo cảm hứng cho công ty cho ra đời loạt sách được gọi là “Nook Snaps”: những tác phẩm ngắn về các chủ đề thời sự như y tế và các vấn đề đương đại. Hoặc hãy xem xét các chương trình đào tạo trực tuyến như Udacity, Coursera, và edX. Chúng theo dõi các tương tác web của học sinh để xem điều gì là tốt nhất về mặt sư phạm. Các lớp học có quy mô hàng chục ngàn học sinh, tạo ra lượng dữ liệu vô cùng lớn. Các giáo sư nay có thể biết khi một tỷ lệ lớn sinh viên xem lại một phân đoạn của một bài giảng, và điều đó có thể do họ chưa rõ về một điểm nào đó. Khi giảng dạy một lớp của Coursera về máy tính, giáo sư Andrew Ng của Stanford nhận thấy khoảng 2.000 sinh viên làm sai một câu hỏi trong bài tập về nhà - nhưng đưa ra chính xác cùng một câu trả lời sai. Rõ ràng, tất cả họ đã mắc cùng một lỗi. Nhưng lỗi đó là gì? Sau khi điều tra, ông phát hiện ra rằng họ đã đảo ngược hai