🔙 Quay lại trang tải sách pdf ebook Dữ Liệu Lớn – Big Data Ebooks Nhóm Zalo Thông tin sách Tên sách: Dữ liệu lớn (Tủ sách Khoa học Khám phá) Nguyên tác: Big data Tác giả: Viktor Mayer-Schonberger, Kenneth Cukier Người dịch: Vũ Duy Mẫn Nhà phát hành: NXB Trẻ Nhà xuất bản: NXB Trẻ Khối lượng: 350g Kích thước: 14.5 x 20.5 cm Ngày phát hành: 344 Số trang: 03/2014 Giá bìa: 120.000đ Thể loại: Khoa học Khám phá Thông tin ebook Thực hiện ebook: thanhbt Ngày hoàn thành: 22/08/2017 Dự án ebook #303 thuộc Tủ sách BOOKBT Giới thiệu Màu sơn nào có thể cho bạn biết một chiếc xe đã qua sử dụng vẫn còn trong tình trạng tốt? Làm thế nào các công chức ở thành phố New York có thể xác định các hố ga nguy hiểm nhất trước khi chúng phát nổ? Và làm thế nào những cuộc tìm kiếm của Google dự đoán được sự lây lan của dịch cúm H1N1? Chìa khóa để trả lời những câu hỏi này, và nhiều câu hỏi khác, là dữ liệu lớn. “Dữ liệu lớn” đề cập đến khả năng đang phát triển của chúng ta để nắm giữ các bộ sưu tập lớn thông tin, phân tích, và rút ra những kết luận đôi khi sâu sắc đáng ngạc nhiên. Lĩnh vực khoa học đang nổi lên này có thể chuyển vô số hiện tượng - từ giá vé máy bay đến các văn bản của hàng triệu cuốn sách - thành dạng có thể tìm kiếm được, và sử dụng sức mạnh tính toán ngày càng tăng của chúng ta để khám phá những điều chúng ta chưa bao giờ có thể nhìn thấy trước. Trong một cuộc cách mạng ngang tầm với Internet hoặc thậm chí in ấn, dữ liệu lớn sẽ thay đổi cách chúng ta nghĩ về kinh doanh, y tế, chính trị, giáo dục, và sự đổi mới trong những năm tới. Nó cũng đặt ra những mối đe dọa mới, từ sự kết thúc không thể tránh khỏi của sự riêng tư cho đến khả năng bị trừng phạt vì những thứ chúng ta thậm chí còn chưa làm, dựa trên khả năng của dữ liệu lớn có thể dự đoán được hành vi tương lai của chúng ta.Trong tác phẩm thông tuệ tuyệt vời và gây nhiều ngạc nhiên này, hai chuyên gia hàng đầu giải thích dữ liệu lớn là những gì, nó sẽ làm thay đổi cuộc sống của chúng ta như thế nào, và những gì chúng ta có thể làm để bảo vệ chính mình khỏi các mối nguy hiểm của nó. Dữ liệu lớn là cuốn sách lớn đầu tiên về điều to lớn sắp diễn ra. Bạn đọc có thể quét các QR Code bên trong sách và trên bìa sách để xem các đoạn phim minh họa. Tặng B và V V.M.S. Tặng cha mẹ của tôi K.N.C. Ebook miễn phí tại : www.Sachvui.Com 1. HIỆN TẠI NĂM 2009 MỘT VI-RÚT CÚM mới được phát hiện. Kết hợp các yếu tố của các vi-rút gây cúm gà, chủng mới này, được gọi là H1N1, đã lây lan nhanh chóng. Trong vài tuần, các cơ sở y tế khắp thế giới lo sợ một đại dịch khủng khiếp đang xảy ra. Một số nhà bình luận đã cảnh báo về một dịch bệnh có quy mô của dịch cúm Tây Ban Nha vào năm 1918, lây nhiễm cho nửa tỷ người và làm chết hàng chục triệu người. Tồi tệ hơn là không hề có vắc xin nào để chống lại vi-rút mới này. Hy vọng duy nhất của cơ quan y tế là giảm mức lây lan. Nhưng để làm điều đó, họ cần biết bệnh đã lan tới đâu. Ở Mỹ, Trung tâm Kiểm soát và Phòng chống Bệnh dịch (CDC) đã yêu cầu các bác sĩ thông báo về các ca bệnh cúm mới. Nhưng bức tranh thật về đại dịch vẫn luôn bị chậm trễ một hoặc hai tuần. Nhiều người có thể bị bệnh vài ngày rồi mới đi gặp bác sĩ. Việc chuyển tiếp thông tin về các cơ quan trung ương đòi hỏi thời gian, và CDC chỉ xử lý các con số mỗi tuần một lần. Với một bệnh dịch lây lan nhanh, hai tuần chậm trễ cũng giống như dài vô tận. Sự chậm trễ này đã hoàn toàn vô hiệu hóa các cơ quan y tế tại những thời điểm gay cấn nhất. Lúc việc đó xảy ra, vài tuần trước khi vi-rút H1N1 xuất hiện rầm rộ trên các phương tiện truyền thông, các kỹ sư của công ty Internet khổng lồ Google đã đăng một bài đáng chú ý trên tạp chí khoa học Nature. Nó đã tạo một chuyện giật gân trong giới chức y tế và các nhà khoa học máy tính, nhưng ngoài ra thì ít được quan tâm. Các tác giả lý giải Google có thể “dự đoán” sự lây lan của bệnh cúm mùa đông ở Mỹ như thế nào, không chỉ ở mức độ toàn quốc, mà còn chi tiết tới mức vùng và thậm chí tới mức tiểu bang. Google có thể đạt được điều này bằng cách xem xét những gì người sử dụng đã tìm kiếm trên Internet. Bởi Google nhận được hơn ba tỷ câu hỏi tìm kiếm mỗi ngày và lưu giữ tất cả chúng, nên nó có vô số dữ liệu để phân tích. Google lấy 50 triệu cụm từ được tìm kiếm phổ biến nhất của người Mỹ và so sánh chúng với dữ liệu của CDC về sự lây lan của bệnh cúm mùa giữa các năm 2003 và 2008. Ý tưởng là để xác định các khu vực bị lây nhiễm vi-rút cúm thông qua những gì người ta tìm kiếm trên Internet, và không ai khác có nhiều dữ liệu, năng lực tính toán và hiểu biết về thống kê như Google. Dù các chuyên viên của Google phỏng đoán các lệnh tìm kiếm có thể nhằm thu lượm thông tin về cúm - gõ các câu đại loại như “thuốc ho và sốt” - nhưng không phải vậy: họ không biết, và họ đã thiết kế một hệ thống không quan tâm tới điều đó. Tất cả những gì hệ thống của họ làm là phát hiện mối tương quan giữa tần suất của một số câu hỏi tìm kiếm và sự lây lan của bệnh cúm theo thời gian và không gian. Tổng cộng, họ xử lý một lượng đáng kinh ngạc 450 triệu mô hình toán học khác nhau để kiểm tra các điều kiện tìm kiếm, so sánh các dự đoán của họ với các trường hợp bệnh thực tế từ CDC trong năm 2007 và 2008. Và họ đã vớ được vàng: phần mềm của họ tìm thấy một sự kết hợp của 45 điều kiện tìm kiếm mà khi sử dụng cùng với một mô hình toán học, có một mối tương quan mạnh mẽ giữa phỏng đoán của họ và các số liệu chính thức trên toàn quốc. Giống như CDC, họ có thể cho biết cúm đã lây lan tới đâu, nhưng khác với CDC, họ có thể nói điều đó gần như trong thời gian thực, chứ không phải trễ một hoặc hai tuần. Do vậy, khi dịch bệnh H1N1 tấn công vào năm 2009, hệ thống của Google đã chứng tỏ là một chỉ báo có ích hơn và nhanh hơn so với các số liệu thống kê của chính phủ thường chậm trễ. Các quan chức y tế đã được trang bị những thông tin có giá trị. Điều gây ấn tượng là phương pháp của Google không liên quan gì đến việc phân phối gạc miệng hoặc liên hệ với các phòng khám. Thay vào đó, nó được xây dựng trên “dữ liệu lớn” - khả năng của xã hội khai thác thông tin theo những cách thức mới để đưa ra những kiến thức hữu ích hay những sản phẩm và dịch vụ có giá trị đáng kể. Với nó, khi đại dịch kế tiếp xảy ra, thế giới sẽ có sẵn một công cụ tốt hơn để dự đoán và do đó ngăn chặn sự lây lan. Phim minh họa phương pháp của Google Y tế công chỉ là một lĩnh vực trong đó dữ liệu lớn đang làm nên một sự khác biệt vĩ đại. Nhiều lĩnh vực khác cũng đang được định hình lại bởi dữ liệu lớn. Dịch vụ mua vé máy bay là một thí dụ. Năm 2003, Oren Etzioni cần bay từ Seattle tới Los Angeles để dự lễ cưới em trai của ông. Nhiều tháng trước đó, ông lên mạng và mua một vé máy bay, tin rằng càng mua sớm, vé càng rẻ. Trên chuyến bay, do tò mò, Etzioni hỏi người ngồi kế bên xem giá vé của ông ta là bao nhiêu và ông ta mua khi nào. Hóa ra ông ta trả thấp hơn nhiều so với Etzioni, mà thậm chí ông ta mới chỉ mua vé gần đây. Khá tức giận, Etzioni hỏi một hành khách khác và một hành khách khác nữa. Hầu hết họ đã trả ít tiền hơn. Với hầu hết chúng ta, ý nghĩa của cảm giác bị lừa có thể đã tiêu tan khi chúng ta gấp khay bàn ăn trước mặt, dựng thẳng ghế và khóa thắt lưng an toàn. Nhưng Etzioni là một trong những nhà khoa học máy tính hàng đầu của Mỹ. Ông nhìn thế giới như một chuỗi các bài toán dữ-liệu-lớn có thể giải được. Và ông đang làm chủ chúng từ khi là người đầu tiên tốt nghiệp Đại học Harvard về chuyên ngành khoa học máy tính vào năm 1986. Từ căn phòng của mình tại Đại học Washington, ông đã khỏi xướng những công ty dữ-liệu-lớn trước khi thuật ngữ “dữ liệu lớn” được biết tới. Ông đã giúp phát triển một trong những công cụ tìm kiếm Web đầu tiên, MetaCrawler, được đưa ra sử dụng vào năm 1994 rồi sau được bán cho InfoSpace, lúc đó là một công ty bất động sản trực tuyến lớn. Ông đã đồng sáng lập Netbot, trang web mua hàng so sánh lớn đầu tiên, sau đó bán nó cho Excite. Ông khởi động công ty làm công cụ trích ý nghĩa từ các văn bản, gọi là ClearForest, sau này được Reuters mua lại. Trở lại câu chuyện chính, Etzioni quyết tìm ra cách để có thể biết liệu một giá vé ta thấy trên mạng có phải là một giá tốt hay không. Một chỗ ngồi trên máy bay là một thương phẩm: mỗi chỗ về cơ bản là hoàn toàn giống với những chỗ khác trên cùng chuyến bay. Nhưng giá lại rất khác nhau, dựa trên vô số yếu tố mà chủ yếu chỉ chính các hãng bay mới biết. Etzioni đi đến kết luận ông không cần giải mã ý nghĩa hay nguyên nhân giá cả khác nhau. Thay vào đó, ông đơn giản phải dự đoán liệu giá được báo có khả năng tăng hay giảm trong tương lai. Điều này là khả thi, nếu không nói là dễ. Những gì cần thiết là phân tích tất cả các vé bán cho một tuyến đường và khảo sát các giá phải trả tương quan với số ngày mua trước lúc khởi hành. Nếu giá trung bình của vé có xu hướng giảm, thì rất nên đợi để mua sau. Nếu giá trung bình có xu hướng tăng, hệ thống sẽ khuyến cáo mua vé ngay với giá được báo. Nói cách khác, thứ cần thiết là một dạng cải tiến của cuộc điều tra thông tin Etzioni đã thực hiện trên tầng cao 30.000 feet. Chắc chắn đó là một bài toán lớn khác của khoa học máy tính. Nhưng, đó là một bài toán ông có thể giải được. Do vậy Etzioni đã bắt tay vào công việc. Sử dụng một mẫu gồm 12.000 lượt thống kê giá vé qua “thu lượm” thông tin trong 41 ngày từ một trang web du lịch, Etzioni đã tạo được một mô hình dự báo giúp hành khách tiết kiệm chi phí. Mô hình không có hiểu biết về câu hỏi tại sao, mà chỉ biết về câu hỏi cái gì. Nó không biết bất kỳ tham biến nào tham gia vào những quyết định về giá của các hãng hàng không, chẳng hạn số chỗ ngồi còn chưa bán được, mùa vụ, hay một loại thu xếp lưu trú qua đêm thứ Bảy có thể làm giảm giá vé. Hệ thống dự đoán dựa vào những gì đã biết: xác suất có được từ những chuyến bay khác. “Mua hay không mua, đó là câu hỏi”, Etzioni ngẫm nghĩ. Thế nên ông đặt tên rất thích hợp cho dự án là Hamlet. Dự án nhỏ đã phát triển thành một doanh nghiệp khởi động được hỗ trợ bằng vốn mạo hiểm mang tên Farecast. Bằng cách dự báo giá của một vé máy bay rất có thể tăng hoặc giảm, và tăng hoặc giảm bao nhiêu, Farecast trao quyền cho người tiêu dùng lựa chọn khi nào thì nhấp vào nút “mua”. Nó trang bị cho họ thông tin mà trước đây họ chưa bao giờ truy cập được. Đề cao tính tự minh bạch, Farecast cho điểm độ tin cậy đối với dự báo của chính nó và cũng thông báo số điểm này cho người sử dụng. Để hoạt động, hệ thống cần rất nhiều dữ liệu. Nhằm cải thiện hiệu suất của hệ thống, Etzioni đã nhúng tay vào một trong các cơ sở dữ liệu đăng ký chỗ của ngành hàng không. Với thông tin này, hệ thống có thể đưa ra các dự báo dựa vào từng chỗ ngồi trên từng chuyến bay cho hầu hết các tuyến bay của hàng không thương mại Mỹ trong một năm. Farecast xử lý gần 200 tỷ bản ghi giá vé máy bay để đưa ra các dự báo của nó. Làm như vậy, Farecast đã tiết kiệm được cho người tiêu dùng bộn tiền. Với mái tóc màu nâu cát, nụ cười chân thành, và nét đẹp hiền hậu, Etzinoni hầu như không có vẻ là loại người có thể phủ nhận hàng triệu đôla doanh thu tiềm năng của ngành hàng không. Trong thực tế, ông đặt tầm ngắm của mình còn xa hơn thế. Năm 2008 ông đặt kế hoạch áp dụng phương pháp này cho các sản phẩm khác như phòng khách sạn, vé nghe hòa nhạc, và xe hơi cũ: tất cả mọi thứ với sự khác biệt rất ít về sản phẩm, có độ biến động giá cả cao, và có rất nhiều dữ liệu. Nhưng trước khi ông có thể triển khai được các kế hoạch của mình, Microsoft đã tới gõ cửa, mua Farecast với khoảng $110 triệu, và tích hợp nó vào công cụ tìm kiếm Bing. Tới năm 2012 hệ thống đã khuyến cáo đúng tới 75% và tiết kiệm cho hành khách trung bình $50 mỗi vé. Farecast là hình ảnh thu nhỏ của một công ty dữ-liệu-lớn và một thí dụ cho thấy thế giới hướng tới đâu. Etzioni không thể thiết lập công ty năm hoặc mười năm sớm hơn. “Đó là điều bất khả”, ông nói. Lượng sức mạnh tính toán và lưu trữ cần thiết đã là quá lớn. Nhưng, mặc dù những thay đổi về công nghệ là yếu tố quan trọng giúp cho nó trở thành khả thi, một số điều quan trọng hơn cũng thay đổi - những điều tinh tế. Đã có sự thay đổi trong suy nghĩ về việc dữ liệu có thể được sử dụng như thế nào. Dữ liệu không còn được xem là tĩnh hoặc cũ, tính hữu ích của dữ liệu kết thúc một khi mục tiêu mà vì nó dữ liệu được thu thập đã đạt được, chẳng hạn sau khi máy bay đã hạ cánh (hoặc trong trường hợp của Google, khi một câu hỏi tìm kiếm đã được xử lý). Thay vào đó, dữ liệu trở thành một nguyên liệu thô của doanh nghiệp, một đầu vào kinh tế quan trọng, được sử dụng để tạo ra một dạng mới của giá trị kinh tế. Thực tế, với suy nghĩ đúng đắn, dữ liệu có thể được dùng lại một cách thông minh để trở thành một suối nguồn của thông tin và những dịch vụ mới. Dữ liệu có thể tiết lộ bí mật cho những ai có sự khiêm nhường, sự sẵn lòng và công cụ để lắng nghe. Hãy để cho dữ liệu nói Thật dễ nhận thấy những thành quả của xã hội thông tin, với một điện thoại di động và một máy tính bỏ túi mỗi người, cùng các hệ thống công nghệ thông tin lớn trong văn phòng khắp mọi nơi. Nhưng điều người ta ít thấy rõ hơn là chính thông tin. Một nửa thế kỷ sau khi máy tính bước vào xã hội chính thống, dữ liệu bắt đầu được tích lũy nhiều tới mức mà một điều gì đó mới mẻ và đặc biệt sắp xảy ra. Không những thế giới tràn ngập thông tin nhiều hơn bao giờ hết, mà thông tin còn tăng nhanh hơn. Sự thay đổi về quy mô đã dẫn đến một sự thay đổi về trạng thái. Thay đổi về lượng đã dẫn tới thay đổi về chất. Các khoa học như thiên văn, gen, mới được trải nghiệm sự bùng nổ trong những năm 2000, đã đưa ra thuật ngữ “dữ liệu lớn”, khái niệm mà nay đã di trú vào tất cả các lĩnh vực của đời sống con người. Không có một định nghĩa chính xác cho dữ liệu lớn. Ban đầu ý tưởng là dung lượng thông tin đã tăng quá lớn tới mức số lượng cần khảo sát không còn vừa vào bộ nhớ các máy tính dùng để xử lý, do vậy các kỹ sư cần cải tạo các công cụ họ dùng để có thể phân tích được tất cả thông tin. Đó là xuất xứ của các công nghệ xử lý mới như MapReduce của Google và nguồn mở tương đương của nó, Hadoop, khởi đầu từ Yahoo. Những công nghệ này cho phép ta quản lý những khối lượng dữ liệu lớn hơn nhiều so với trước đây, và quan trọng là không cần đưa dữ liệu vào các hàng ngăn nắp hoặc các bảng cơ sở dữ liệu cổ điển. Các công nghệ nghiền dữ liệu khác, bỏ qua các cấu trúc phân cấp và đồng nhất cứng nhắc cổ điển, cũng ở trong tầm ngắm. Đồng thời, do các công ty Internet có thể thu thập được vô số dữ liệu quý giá và có động cơ kinh tế lớn để khai thác chúng, nên các công ty này trở thành người sử dụng hàng đầu của các công nghệ xử lý hiện đại nhất, vượt qua các công ty truyền thống, đôi khi có tới hàng chục năm kinh nghiệm nhiều hơn. Một cách để suy nghĩ về vấn đề ngày hôm nay - và cũng là cách chúng tôi thực hiện trong cuốn sách này - là: dữ liệu lớn đề cập tới những thứ người ta có thể làm với một quy mô lớn mà không thể làm với một quy mô nhỏ hơn, để trích xuất những hiểu biết mới hoặc tạo ra những dạng giá trị mới, theo những cách thức có thể làm thay đổi các thị trường, các tổ chức, mối quan hệ giữa các công dân và các chính phủ, và hơn thế nữa. Nhưng đó chỉ là bước khởi đầu. Thời đại của dữ liệu lớn thách thức cách chúng ta sống và tương tác với thế giới. Nổi bật nhất, xã hội sẽ phải cắt giảm một số nỗi ám ảnh của nó về quan hệ nhân quả để đổi lấy mối tương quan đơn giản, không biết tại sao mà chỉ biết cái gì. Điều đó làm đổ vỡ hàng thế kỷ các tập quán đã được thiết lập và thách thức hiểu biết cơ bản nhất của chúng ta về việc làm thế nào để đưa ra được quyết định và hiểu được thực tế. Dữ liệu lớn đánh dấu bước khởi đầu của một biến đổi lớn. Giống như nhiều công nghệ mới, dữ liệu lớn chắc chắn sẽ trở thành nạn nhân của chu kỳ thổi phồng khét tiếng của Thung Lũng Silicon: sau khi được tiếp đón trên trang đầu của các tạp chí và tại các hội nghị công nghiệp, xu hướng này sẽ bị ruồng bỏ và rất nhiều công ty khởi động say mê dữ liệu sẽ bị lúng túng. Nhưng cả thái độ say mê và nguyền rủa đều hiểu lầm một cách khá sâu tầm quan trọng của những gì đang xảy ra. Đúng như kính thiên văn tạo điều kiện cho chúng ta hiểu biết được vũ trụ và kính hiển vi cho phép chúng ta hiểu biết được vi trùng, các kỹ thuật mới để thu thập và phân tích những tập hợp lớn dữ liệu sẽ giúp chúng ta tìm ra ý nghĩa của thế giới theo những cách thức mà chúng ta mới chỉ vừa bắt đầu ưa thích. Trong cuốn sách này, chúng tôi không hẳn là những kẻ truyền giáo của dữ liệu lớn mà chỉ là những người đưa tin. Và, một lần nữa xin nhấn mạnh, cuộc cách mạng thật sự không phải ở những chiếc máy tính toán dữ liệu mà ở chính dữ liệu và cách ta sử dụng chúng. Để đánh giá mức độ một cuộc cách mạng thông tin đã tiến triển tới đâu, ta hãy xem xét các xu hướng xuyên suốt các lĩnh vực của xã hội. Lấy ví dụ thiên văn học. Khi Sloan Digital Sky Survey (SDSS - Trạm quan sát bầu trời bằng kỹ thuật số Sloan) bắt đầu hoạt động vào năm 2000, kính thiên văn của nó tại New Mexico trong mấy tuần đầu tiên đã thu thập nhiều dữ liệu hơn những gì được thu thập trong toàn bộ lịch sử của ngành thiên văn. Đến năm 2010, lưu trữ của trạm đã bạt ngàn với con số khổng lồ 140 tera (10 mũ 12) byte thông tin. Nhưng kẻ kế nhiệm, kính thiên văn của Large Synoptic Survey (LSST) ở Chile, dự kiến vận hành vào năm 2016, cứ mỗi năm ngày sẽ thu thập được lượng dữ liệu tương đương như thế. Những số lượng vô cùng to lớn như vậy cũng có thể được tìm thấy ngay xung quanh chúng ta. Khi các nhà khoa học lần đầu giải mã gen người vào năm 2003, họ đã mất một thập kỷ làm việc miệt mài để xác định trình tự cho ba tỷ cặp cơ sở. Bây giờ, sau một thập kỷ, một thiết bị đơn lẻ cũng có thể xác định trình tự cho số lượng DNA như vậy chỉ trong một ngày. Trong ngành tài chính, khoảng 7 tỷ cổ phiếu được mua bán mỗi ngày trên các thị trường chứng khoán Mỹ, trong số đó khoảng hai phần ba được giao dịch bằng các thuật toán máy tính dựa trên các mô hình toán học xử lý hàng núi dữ liệu để dự đoán lợi nhuận trong khi cố gắng giảm thiểu rủi ro. Các công ty Internet đặc biệt bị tràn ngập. Google xử lý hơn 24 peta (10 mũ 15) byte dữ liệu mỗi ngày, một khối lượng gấp hàng ngàn lần tất cả các ấn phẩm trong Thư viện Quốc hội Mỹ. Facebook, một công ty không hề tồn tại một thập kỷ trước, nhận hơn 10 triệu ảnh mới được tải lên mỗi giờ. Các thành viên Facebook nhấp nút “like” hoặc gửi lời bình luận gần ba tỷ lần mỗi ngày, tạo một dấu vết số để công ty có thể “đào xới” nhằm biết được các sở thích của người sử dụng. Trong khi đó, 800 triệu người sử dụng dịch vụ Youtube của Google tải lên hơn một giờ video mỗi giây. Thành viên của mạng Twitter tăng khoảng 200 phần trăm mỗi năm và đến năm 2012 đã có hơn 400 triệu tweet mỗi ngày. Từ khoa học tới y tế, từ ngân hàng tới Internet, các lĩnh vực có thể khác nhau, nhưng cùng nhau chúng đều có một câu chuyện tương tự: số lượng dữ liệu trong thế giới đang tăng rất nhanh, vượt sức không chỉ những chiếc máy tính mà cả trí tưởng tượng của chúng ta. Nhiều người đã thử đưa ra một con số thực tế về lượng thông tin xung quanh chúng ta và tính toán xem nó tăng như thế nào. Họ đã có những mức độ thành công khác nhau bởi họ đo lường những thứ khác nhau.. Một trong những nghiên cứu toàn diện hơn được Martin Hilbert của Trường Truyền thông và Báo chí Annenberg thuộc Đại học Nam California thực hiện. Ông đã nỗ lực đưa ra một con số cho mọi thứ đã từng được sản xuất, lưu trữ và truyền tải. Chúng không chỉ bao gồm sách, tranh, email, ảnh, nhạc, và phim (cả dạng analog và digital), mà còn có trò chơi điện tử, cuộc gọi điện thoại, thậm chí các hệ thống điều hướng xe và thư gửi qua bưu điện. Ông cũng bao gồm các phương tiện truyền thông phát sóng như truyền hình và radio, dựa trên tiếp cận khán giả. Theo ước lượng của Hilbert, hơn 300 exa (10 mũ 18) byte dữ liệu lưu trữ đã tồn tại vào năm 2007. Để dễ hình dung ý nghĩa của nó, thử nghĩ thế này. Một bộ phim dài ở dạng kỹ thuật số có thể được nén vào một tập tin 1 giga byte. Một exa byte là 1 tỷ gi ga byte. Tóm lại là vô cùng nhiều. Điều thú vị là năm 2007 chỉ khoảng 7 phần trăm dữ liệu ở dạng analog (giấy, sách, ảnh in, vân vân). Phần còn lại là ở dạng digital - kỹ thuật số. Nhưng mới gần đây, bức tranh đã rất khác. Mặc dù những ý tưởng của cuộc “cách mạng thông tin” và “thời đại kỹ thuật số” đã xuất hiện từ những năm 1960, chúng mới chỉ trở thành hiện thực ở vài khía cạnh. Tới tận năm 2000, mới chỉ có một phần tư thông tin lưu trữ của thế giới được số hóa. Ba phần tư còn lại vẫn ở trên giấy, phim, đĩa nhựa, băng từ, và những thứ tương tự. Lượng thông tin kỹ thuật số lúc đó chưa nhiều - một điều thật kém cỏi với những ai lướt mạng và mua sách trực tuyến suốt thời gian dài. (Thực tế, vào năm 1986, khoảng 40 phần trăm sức mạnh tính toán thông dụng của thế giới là ở dạng những chiếc máy tính bỏ túi, lớn hơn sức mạnh của tất cả các máy tính cá nhân tại thời điểm đó.) Nhưng vì dữ liệu kỹ thuật số phát triển rất nhanh - cứ hơn ba năm lại tăng gấp đôi, theo Hilbert - nên tình hình đã nhanh chóng tự đảo ngược. Thông tin analog, ngược lại, không hề tăng. Do vậy vào năm 2013 lượng thông tin lưu trữ trong thế giới ước lượng khoảng 1.200 exa byte, trong đó chưa đến 2 phần trăm là phi kỹ thuật số. Chẳng có cách nào phù hợp để hình dung kích thước như vậy của dữ liệu là có ý nghĩa gì. Nếu tất cả được in thành sách, chúng có thể phủ kín bề mặt của nước Mỹ với chiều dày 52 lớp. Nếu được ghi vào CD-ROM và xếp chồng lên nhau, chúng có thể tạo thành 5 cột vươn cao tới mặt trăng. Vào thế kỷ thứ ba trước Công nguyên, khi Ptolemy II của Ai Cập cố gắng lưu trữ một bản của mỗi tác phẩm từng được viết ra, Thư viện lớn của Alexandria đã tượng trưng cho toàn bộ tri thức của thế giới. Trận lũ lớn kỹ thuật số hiện đang quét qua trái đất tương đương với việc cung cấp cho mỗi người sống trên trái đất hôm nay 320 lần nhiều hơn thông tin như ước lượng đã được lưu trữ ở Thư viện Alexandria. Mọi thứ thật sự được tăng tốc. Lượng thông tin lưu trữ tăng nhanh hơn gấp bốn lần so với kinh tế thế giới, trong khi sức mạnh xử lý của máy tính tăng nhanh hơn gấp chín lần. Không ngạc nhiên khi người ta than phiền tình trạng quá tải thông tin. Ai cũng bị tác động bởi những thay đổi này. Hãy nhìn một cách dài hạn, bằng cách so sánh trận lũ dữ liệu hiện tại với cuộc cách mạng thông tin trước đây, cách mạng in sách của Gutenberg được phát minh khoảng năm 1439. Trong năm mươi năm từ 1453 tới 1503 khoảng 8 triệu cuốn sách đã được in, theo nhà sử học Elizabeth Eisenstein. số lượng đó được xem là nhiều hơn tất cả những gì các thầy thông giáo đã chép ra kể từ lúc thiết lập nên Constantinople khoảng 1.200 năm trước. Nói cách khác, phải mất năm mươi năm để khối lượng thông tin tăng gấp đôi ở Âu châu, so với khoảng mỗi ba năm hiện nay. Sự tăng trưởng này có ý nghĩa gì? Peter Norvig, một chuyên gia trí tuệ nhân tạo tại Google, thích nghĩ về nó với một sự tương tự về hình ảnh. Ông yêu cầu chúng tôi trước hết xem xét con ngựa mang tính biểu tượng từ các hình vẽ hang động ở Lascaux, Pháp, từ thời Paleolithic khoảng 17 ngàn năm trước. Sau đó nghĩ tới một bức ảnh của một con ngựa - hoặc tốt hơn là những phác họa của Pablo Picasso, trông không khác mấy các hình vẽ hang động. Thực tế, khi Picasso được cho xem các hình vẽ Lascaux, từ thời đó ông đã hài hước rằng: “Chúng ta đã không phát minh ra được thứ gì cả”. Những lời của Picasso đúng ở một mức độ, nhưng không đúng ở một mức độ khác. Hãy nhớ lại bức ảnh chụp con ngựa. Trong khi phải mất nhiều thời gian để vẽ hình một con ngựa, bây giờ sự miêu tả một con ngựa có thể được thực hiện nhanh hơn nhiều với nhiếp ảnh. Đó là sự thay đổi, nhưng có thể đó không phải là thứ quan trọng nhất, bởi về cơ bản nó vẫn thế: hình ảnh của một con ngựa. Nhưng bây giờ, Norvig yêu cầu thu hình của một con ngựa và tăng tốc độ lên tới 24 khung hình mỗi giây. Sự thay đổi lượng đã tạo ra một thay đổi chất. Một bộ phim khác một cách cơ bản với một bức ảnh tĩnh. Với dữ liệu lớn cũng vậy: bằng cách thay đổi số lượng, chúng ta thay đổi bản chất. Hãy xét một sự tương tự từ công nghệ nano - nơi mà mọi thứ trở nên nhỏ đi, chứ không lớn lên. Nguyên lý phía sau của công nghệ nano là khi đạt tới mức phân tử, các tính chất vật lý có thể thay đổi. Hiểu biết những đặc tính mới này có nghĩa là ta có thể sắp đặt để vật chất làm những thứ mà trước đây không thể làm được. Thí dụ, tại quy mô nano, kim loại có thể mềm dẻo hơn và gốm sứ có thể căng ra được. Ngược lại, khi tăng quy mô của dữ liệu, chúng ta có thể thực hiên được những thứ mới mà không thể nào thực hiện được khi chỉ làm việc với những số lượng nhỏ hơn. Đôi khi những khó khăn mà chúng ta đang sống cùng thực ra chỉ là những chức năng của quy mô mà chúng ta hoạt động trong đó, và điều này cũng tương tự cho tất cả mọi thứ. Hãy xét một sự tương tự thứ ba, lại cũng từ các ngành khoa học. Đối với con người, định luật vật lý quan trọng nhất là lực hấp dẫn: nó ngự trị trên tất cả những gì chúng ta làm. Nhưng đối với những côn trùng nhỏ xíu, trọng lực hầu như vô nghĩa. Đối với một số loài như nhện nước, định luật vật lý có tác động với chúng chính là sức căng bề mặt, cho phép chúng đi qua một cái ao mà không chìm xuống. Với thông tin, cũng như với vật lý, kích thước là quan trọng. Do đó, Google có thể xác định được sự lây lan của bệnh cúm chính xác như các dữ liệu chính thức dựa trên việc bệnh nhân thực sự tới gặp bác sĩ. Google có thể làm điều này bằng cách kết hợp hàng trăm tỷ từ khóa tìm kiếm - và nó có thể đưa ra một câu trả lời gần như trong thời gian thực, nhanh hơn nhiều các nguồn chính thức. Tương tự như vậy, Farecast của Etzioni có thể dự đoán sự biến động giá của một chiếc vé máy bay và do đó chuyển quyền lực kinh tế đáng kể vào tay người tiêu dùng. Nhưng cả hai chỉ có thể làm tốt như vậy bằng cách phân tích hàng trăm tỷ điểm dữ liệu. Hai ví dụ trên cho thấy tầm quan trọng về khoa học và xã hội của dữ liệu lớn cũng như mức độ mà dữ liệu lớn có thể trở thành một nguồn giá trị kinh tế. Chúng đánh dấu hai cách thức mà thế giới dữ liệu lớn đã sẵn sàng để cải tổ tất cả mọi thứ, từ các doanh nghiệp và các ngành khoa học tới chăm sóc sức khỏe, chính phủ, giáo dục, kinh tế, nhân văn, và mọi khía cạnh khác của xã hội. Mặc dù mới chỉ đang ở buổi bình minh của dữ liệu lớn, chúng ta dựa vào nó hàng ngày. Bộ lọc thu rác được thiết kế để tự động thích ứng khi các loại email rác thay đổi: phần mềm không thể được lập trình để biết ngăn chặn “via6ra” hoặc vô số các biến thể của nó. Các trang web hẹn hò ghép các cặp trên cơ sở các thuộc tính tương quan thế nào với những cặp đã được ghép thành công trước đó. Tính năng “tự động sửa lỗi” trong điện thoại thông minh theo dấu các thao tác của chúng ta và bổ sung thêm những từ mới vào từ điển chính tả của nó dựa trên những gì chúng ta nhập vào. Tuy nhiên, những ứng dụng này mới chỉ là sự bắt đầu. Từ những chiếc xe hơi có thể phát hiện khi nào cần đi hướng khác hoặc phanh, đến máy tính Watson của IBM đánh bại con người trong trò chơi truyền hình Jeopardy!, cách tiếp cận này sẽ cải tạo nhiều khía cạnh của thế giới chúng ta đang sống. Tại cốt lõi của nó, dữ liệu lớn là về các dự đoán. Mặc dù nó được mô tả như một phần của ngành khoa học máy tính được gọi là trí tuệ nhân tạo, và cụ thể hơn, một lĩnh vực được gọi là học qua máy, việc đặc trưng hóa này gây nhầm lẫn. Dữ liệu lớn không phải là về việc cố gắng “dạy” một máy tính “nghĩ” giống như con người. Thay vào đó, nó là về việc áp dụng toán học với số lượng lớn dữ liệu để suy ra xác suất: khả năng một email là thư rác; các ký tự gõ “teh” đáng lẽ phải là “the”; quỹ đạo và vận tốc của một người lái xe cho phép anh ta qua được phố đúng thời gian. Điều quan trọng là các hệ thống này thao tác tốt bởi chúng được nạp với rất nhiều dữ liệu để làm cơ sở cho các dự đoán của chúng. Hơn nữa, hệ thống được thiết kế để tự cải thiện theo thời gian, bằng cách giữ một nhãn (tab) về các tín hiệu và mẫu tốt nhất để tìm kiếm khi có thêm dữ liệu được đua vào. Trong tương lai - và có thể sớm hơn chúng ta nghĩ - nhiều khía cạnh của cuộc sống sẽ được tăng cường hoặc thay thế bằng những hệ thống máy tính, những khía cạnh mà hôm nay là phạm vi hoạt động duy nhất của sự phán xét con người. Không chỉ việc lái xe hoặc mai mối, mà cả những việc phức tạp hơn. Rốt cuộc, Amazon có thể giới thiệu được cuốn sách lý tưởng, Google có thể xếp hạng được trang web phù hợp nhất, Facebook biết được sở thích của chúng ta, và Linkedln tiên đoán được người mà chúng ta biết. Cũng những công nghệ này sẽ được áp dụng cho chẩn đoán bệnh, đề xuất phương pháp điều trị, thậm chí có thể xác định “tội phạm” trước khi hắn thực sự phạm tội. Cũng giống như Internet hoàn toàn thay đổi thế giới bằng cách thêm truyền thông vào máy tính, dữ liệu lớn sẽ thay đổi các khía cạnh cơ bản của cuộc sống bằng cách cho nó một kích thước định lượng chưa hề có trước đây. Nhiều hơn, lộn xộn, đủ tốt Dữ liệu lớn sẽ là một nguồn của giá trị kinh tế và cách tân mới. Thậm chí còn hơn nữa. Uy thế của dữ liệu lớn tượng trưng cho ba sự thay đổi trong cách chúng ta phân tích thông tin, làm biến đổi cách chúng ta hiểu và tổ chức xã hội. Sự thay đổi thứ nhất được mô tả trong Chương Hai. Trong thế giới mới này, chúng ta có thể phân tích nhiều dữ liệu hơn hẳn. Trong một số trường hợp, chúng ta thậm chí có thể xử lý tất cả dữ liệu liên quan đến một hiện tượng đặc biệt. Từ thế kỷ thứ mười chín, xã hội đã phụ thuộc vào việc sử dụng các hình mẫu khi phải đối mặt với những số lượng lớn. Tuy nhiên, sự cần thiết phải lấy mẫu là một tạo tác của thời kỳ khan hiếm thông tin, một sản phẩm của những hạn chế tự nhiên khi tương tác với thông tin trong thời đại analog. Trước khi công nghệ kỹ thuật số có hiệu suất cao thịnh hành, chúng ta không hề nhận ra chọn mẫu là những xiềng xích nhân tạo - chúng ta thường hiển nhiên chấp nhận nó. Việc sử dụng tất cả các dữ liệu cho phép chúng ta xem xét những chi tiết chưa hề xem được khi bị giới hạn với những số lượng nhỏ hơn. Dữ liệu lớn cho chúng ta một cái nhìn đặc biệt rõ ràng về các tiểu phần: tiểu thể loại và tiểu thị trường mà mẫu không thể ước định được. Việc xem xét dữ liệu rộng lớn hơn cũng cho phép chúng ta nới lỏng mong muốn hướng tới tính chính xác, là sự thay đổi thứ hai, được đề cập tới trong Chương Ba. Đó là một sự đánh đổi: với ít lỗi hơn từ chọn mẫu, chúng ta có thể chấp nhận nhiều lỗi đo lường hơn. Khi khả năng để đo lường là có hạn, chúng ta chỉ tính đến những thứ quan trọng nhất. Sự cố gắng để có được con số chính xác là hợp lý. Ta không thể bán được gia súc nếu người mua không biết chắc liệu có 100 hay chỉ có 80 con trong đàn. Cho đến gần đây, tất cả các công cụ kỹ thuật số của chúng ta có tiền đề là sự chính xác: chúng ta giả định rằng công cụ cơ sở dữ liệu sẽ truy tìm được các bản ghi hoàn toàn phù hợp với câu hỏi của chúng ta, giống như các bảng tính điện tử lập biểu các con số trong một cột. Loại tư duy này là một chức năng của môi trường “dữ liệu nhỏ”: với rất ít thứ để đo lường, chúng ta phải xem xét những gì quan tâm để định lượng một cách càng chính xác càng tốt. Theo một số cách nào đó thì việc này là hiển nhiên: một cửa hàng nhỏ có thể đếm tiền trong quỹ cuối ngày tới tận đồng xu, nhưng chúng ta sẽ không - thực sự là không thể - làm tương tự cho tổng sản phẩm nội địa của một quốc gia. Khi quy mô tăng, số lượng của những sự không chính xác cũng tăng. Tính chính xác đòi hỏi dữ liệu được giám tuyển một cách cẩn thận. Điều này có thể làm được cho những số lượng nhỏ, và tất nhiên một số trường hợp vẫn đòi hỏi như vậy: ta hoặc có hoặc không có đủ tiền trong ngân hàng để viết một chi phiếu. Nhưng đổi lại, khi sử dụng những bộ dữ liệu toàn diện hơn nhiều, chúng ta có thể bỏ đi tính chính xác cứng nhắc trong một thế giới dữ liệu lớn. Thông thường, dữ liệu lớn là lộn xộn, khác nhau về chất lượng, và được phân bổ giữa vô số các máy chủ trên khắp thế giới. Với dữ liệu lớn, chúng ta sẽ thường hài lòng với khả năng định hướng chung chứ không phải là hiểu biết một hiện tượng chi tiết tới tận xăng-ti-mét, đồng xu, hay nguyên tử. Chúng ta không bỏ qua hoàn toàn sự chính xác; chúng ta chỉ bỏ qua sự sùng bái nó. Những gì chúng ta mất về độ chính xác ở cấp vi mô sẽ được bù đắp lại nhờ cái nhìn sâu sắc ở cấp vĩ mô. Hai sự thay đổi này dẫn đến một sự thay đổi thứ ba, mà chúng ta giải thích trong Chương Bốn: sự chuyển hướng khỏi việc tìm kiếm lâu đời cho quan hệ nhân quả. Là con người, chúng ta đã được định vị để đi tìm kiếm các nguyên nhân, mặc dù việc tìm kiếm quan hệ nhân quả thường rất khó khăn và có thể dẫn chúng ta lạc đường. Trong một thế giới dữ liệu lớn, ngược lại, chúng ta sẽ không phải gắn chặt vào quan hệ nhân quả; thay vào đó chúng ta có thể khám phá các khuôn mẫu và mối tương quan trong các dữ liệu để thu được những hiểu biết mới lạ và vô giá. Các mối tương quan có thể không cho chúng ta biết chính xác tại sao một cái gì đó đang xảy ra, nhưng chúng cảnh báo chúng ta rằng cái đó đang xảy ra. Và trong nhiều tình huống thì điều này là đủ tốt. Nếu hàng triệu hồ sơ y tế điện tử cho thấy những bệnh nhân ung thư nếu dùng một kết hợp nào đó của aspirin và nước cam thì thấy bệnh của họ thuyên giảm, thì nguyên nhân chính xác cho việc cải thiện sức khỏe có thể ít quan trọng hơn so với thực tế là họ sống. Tương tự như vậy, nếu chúng ta có thể tiết kiệm được tiền bằng cách biết thời gian tốt nhất để mua một vé máy bay mà không hiểu các phương pháp phía sau sự điên rồ của vé máy bay, như vậy cũng đủ tốt rồi. Dữ liệu lớn là về cái gì, chứ không về tại sao. Chúng ta không luôn luôn cần biết nguyên nhân của một hiện tượng, thay vào đó, chúng ta có thể để cho dữ liệu tự nói. Trước thời dữ liệu lớn, phân tích của chúng ta thường được giới hạn vào việc thử nghiệm một số lượng nhỏ những giả thuyết được xác định rõ ràng trước khi thu thập dữ liệu. Khi để cho các dữ liệu lên tiếng, chúng ta có thể tạo nên những kết nối mà ta chưa bao giờ nghĩ là chúng tồn tại. Do đó, một số quỹ đầu tư phân tích Twitter để dự đoán hiệu suất của thị trường chứng khoán. Amazon và Netilix căn cứ đề xuất sản phẩm của họ trên vô số các tương tác của người dùng trên các trang này. Twitter, Linkedln và Facebook cũng đều quy chiếu “đồ thị xã hội” các mối quan hệ của người sử dụng để tìm hiểu các sở thích của họ. Tất nhiên, con người đã phân tích dữ liệu hàng thiên niên kỷ nay. Chữ viết đã được phát triển ở vùng Lưỡng Hà cổ đại bởi các quan chức muốn có một công cụ hiệu quả để ghi lại và theo dõi thông tin. Từ thời Kinh Thánh, các chính phủ đã tổ chức các cuộc điều tra để thu thập các bộ dữ liệu lớn về công dân của họ, và tương tự đã hai trăm năm nay, các chuyên gia tính toán thu thập khối lượng lớn dữ liệu liên quan đến các rủi ro mà họ hy vọng sẽ hiểu được - hoặc ít nhất là tránh được. Tuy nhiên, trong thời đại analog, việc thu thập và phân tích dữ liệu như vậy là vô cùng tốn kém và mất thời gian. Những câu hỏi mới thường có nghĩa là dữ liệu phải được thu thập lại và việc phân tích phải bắt đầu lại. Bước tiến lớn đối với việc quản lý dữ liệu hiệu quả hơn đã xuất hiện cùng với số hóa: giúp cho máy tính có thể đọc thông tin analog, mà cũng làm cho nó dễ dàng hơn và rẻ hơn để lưu trữ và xử lý. Bước phát triển này đã cải thiện hiệu quả đáng kể. Việc thu thập và phân tích thông tin trước đây phải mất hàng năm, nay có thể được thực hiện trong vài ngày hoặc thậm chí ngắn hơn. Nhưng rất ít thứ khác thay đổi. Những người phân tích dữ liệu đã quá thường xuyên bị ngập trong thế giới analog, cho rằng các tập dữ liệu chỉ có những mục đích đơn lẻ mà giá trị của chúng đã được gắn liền. Các tiến trình của chúng ta đã duy trì định kiến này. Dù cũng quan trọng như số hóa đã tạo điều kiện cho việc chuyển sang dữ liệu lớn, nhưng chỉ sự tồn tại của máy tính đã không làm cho dữ liệu lớn xảy ra. Tuy chưa có thuật ngữ thật tốt để mô tả những gì đang diễn ra hiện nay, nhưng một thuật ngữ giúp định hình được những thay đổi đó là dữ liệu hóa (datafication), một khái niệm mà chúng ta giới thiệu trong Chương Năm. Nó ám chỉ việc lấy thông tin về tất cả mọi thứ dưới ánh mặt trời - bao gồm cả những thứ chúng ta không bao giờ xem là thông tin, chẳng hạn như vị trí của một người, những rung động của một động cơ, hoặc sự căng trên một cây cầu - và biến nó thành một định dạng dữ liệu để thực hiện định lượng nó. Điều này cho phép chúng ta sử dụng thông tin theo những cách mới, chẳng hạn như trong phân tích tiên đoán: phát hiện một động cơ dễ bị sự cố dựa trên độ nóng hay những rung động mà nó tạo ra. Kết quả là chúng ta có thể mở khóa những giá trị tiềm ẩn, bên trong của thông tin. Có một cuộc truy lùng kho báu đang xảy ra, được thúc đẩy bởi những hiểu biết sâu sắc từ các dữ liệu và giá trị tiềm tàng có thể được khai thông nhờ sự chuyển dịch từ quan hệ nhân quả sang tương liên. Nhưng nó không chỉ là một kho báu. Mỗi bộ dữ liệu riêng lẻ rất có thể có một số giá trị nào đó nội tại, ẩn, chưa được khai phá, và cuộc đua ở đây là để khám phá và nắm bắt tất cả những thứ đó. Dữ liệu lớn thay đổi bản chất của kinh doanh, thị trường, và xã hội, như chúng ta mô tả trong Chương Sáu và Bảy. Trong thế kỷ XX, giá trị đã chuyển từ cơ sở hạ tầng vật lý như đất đai và nhà máy sang những thứ vô hình như thương hiệu và sở hữu trí tuệ. Điều này bây giờ mở rộng tới dữ liệu, cái đang trở thành một tài sản đáng kể của công ty, một đầu vào kinh tế quan trọng, và là nền tảng của các mô hình kinh doanh mới. Nó là dầu hỏa của nền kinh tế thông tin. Mặc dù dữ liệu hiếm khi được ghi nhận vào bảng cân đối của doanh nghiệp, nhưng điều này có lẽ chỉ là vấn đề thời gian. Mặc dù một số kỹ thuật nghiền (crunching) dữ liệu đã xuất hiện được một thời gian, trong quá khứ chúng chỉ được dành cho cơ quan tình báo, các phòng nghiên cứu, và các công ty lớn nhất thế giới. Xét cho cùng, Walmart và Capital One đã đi tiên phong trong việc sử dụng dữ liệu lớn trong bán lẻ và ngân hàng, và qua đó làm thay đổi ngành công nghiệp của họ. Bây giờ nhiều trong số những công cụ này đã được dân chủ hóa (mặc dù dữ liệu thì không). Ảnh hưởng lên các cá nhân có thể là cú sốc lớn nhất. Kinh nghiệm chuyên môn về lĩnh vực đặc thù trở thành ít quan trọng hơn trong một thế giới mà ở đó xác suất và mối tương quan là tối cao. Trong bộ phim Moneyball, các tuyển trạch viên bóng chày đã bị các nhà thống kê lấn lướt, khi bản năng nhường chỗ cho các phân tích tinh vi. Tương tự như vậy, các chuyên gia sẽ không biến mất, nhưng họ sẽ phải đối mặt với những điều mà các phân tích dữ liệu lớn thể hiện. Điều này sẽ bắt buộc có sự điều chỉnh những ý tưởng truyền thống của quản lý, ra quyết định, nguồn nhân lực và giáo dục. Hầu hết các thể chế của chúng ta được thiết lập theo giả định rằng các quyết định của con người được dựa trên thông tin mang bản chất nhỏ lẻ, chính xác, và nhân quả. Nhưng tình hình thay đổi khi dữ liệu là rất lớn, có thể được xử lý một cách nhanh chóng, và chấp nhận sự không chính xác. Hơn nữa, do kích thước rất lớn của dữ liệu, các quyết định có thể thường được thực hiện không bởi con người mà bởi máy. Chúng ta sẽ xem xét những mặt tối của dữ liệu lớn trong Chương Tám. Xã hội đã có hàng thiên niên kỷ trải nghiệm trong việc tìm hiểu và giám sát hành vi của con người. Nhưng làm thế nào để bạn chỉnh đốn một thuật toán? Buổi đầu của tính toán, các nhà hoạch định chính sách công nhận công nghệ có thể được sử dụng để làm suy giảm sự riêng tư ra sao. Kể từ đó xã hội đã xây dựng nhiều quy tắc để bảo vệ thông tin cá nhân. Nhưng trong thời đại của dữ liệu lớn, những luật lệ này tạo thành một dạng Phòng tuyến Maginot gần như vô dụng. Người ta sẵn sàng chia sẻ thông tin trực tuyến - một tính năng trung tâm của các dịch vụ, không phải là một lỗ hổng để ngăn chặn. Trong khi đó, mối nguy hiểm đối với những cá nhân như chúng ta chuyển từ yếu tố riêng tư sang xác suất: các thuật toán sẽ dự đoán khả năng một người bị nhồi máu cơ tim (và phải trả nhiều hơn cho bảo hiểm y tế), khả năng vỡ nợ của một khoản thế chấp (và bị từ chối một khoản vay), hoặc phạm tội (và có lẽ bị bắt trước). Nó dẫn đến một sự xem xét mang tính đạo đức về vai trò của tự do ý chí đối với sự độc tài của dữ liệu. Liệu có nên để ý chí cá nhân chiến thắng dữ liệu lớn, ngay cả khi số liệu thống kê lý giải khác? Cũng giống như việc in ấn đã chuẩn bị nền tảng cho các đạo luật đảm bảo tự do ngôn luận - điều không tồn tại trước đó bởi có rất ít việc biểu đạt bằng văn bản cần được bảo vệ - thời đại của dữ liệu lớn sẽ đòi hỏi những quy định mới để bảo vệ sự thiêng liêng của cá nhân. Dù gì đi nữa, cách thức chúng ta kiểm soát và xử lý dữ liệu sẽ phải thay đổi. Chúng ta đang bước vào một thế giới của những dự đoán liên tục dựa trên dữ liệu, ở đó chúng ta có thể không giải thích được các nguyên nhân đằng sau những quyết định của chúng ta. Thử hỏi còn có ý nghĩa gì khi bác sĩ không thể biện minh cho biện pháp can thiệp y tế của mình nếu không yêu cầu bệnh nhân trông chờ vào một cái hộp đen, giống như bác sĩ phải làm khi dựa vào chẩn đoán được dẫn dắt bởi dữ liệu lớn? Liệu chuẩn mực “chứng cứ hợp lý” của hệ thống tư pháp có cần phải thay đổi thành “chứng cứ theo xác suất” - và nếu như vậy thì hệ quả của điều này là những gì đối với tự do và phẩm giá con người? Những nguyên tắc mới là cần thiết cho thời đại của dữ liệu lớn, mà chúng ta đặt ra trong Chương Chín. Mặc dù chúng được xây dựng dựa trên các giá trị đã được phát triển và được ghi nhận đối với thế giới của dữ liệu nhỏ, điều đó không đơn giản là vấn đề làm mới lại những quy định cũ cho hoàn cảnh mới, mà là hoàn toàn công nhận sự cần thiết của những nguyên tắc mới. Những lợi ích cho xã hội sẽ là vô kể, khi dữ liệu lớn trở thành bộ phận của giải pháp cho những vấn đề bức xúc toàn cầu, như giải quyết thay đổi khí hậu, xóa bỏ bệnh tật, thúc đẩy sự quản trị tốt và phát triển kinh tế. Nhưng thời đại dữ liệu lớn cũng thách thức chúng ta phải chuẩn bị tốt hơn về những cách thức trong đó việc khai thác công nghệ sẽ làm thay đổi các tổ chức của chúng ta và chính bản thân chúng ta. Dữ liệu lớn đánh dấu một bước quan trọng trong việc tìm kiếm của con người để định lượng và hiểu thế giới; một ưu thế của những thứ chưa bao giờ được đo lường, lưu trữ, phân tích và chia sẻ trước khi được dữ liệu hóa. Việc khai thác lượng lớn dữ liệu thay vì chỉ một phần nhỏ, và việc có đặc quyền với nhiều dữ liệu có độ chính xác thấp hơn, sẽ mở ra cánh cửa tới những cách hiểu biết mới. Nó dẫn xã hội tới việc từ bỏ ưu tiên lâu đời cho nhân quả, và trong nhiều trường hợp thu được các lợi ích của mối tương liên. Lý tưởng về việc xác định được những cơ chế nhân-quả chỉ là một kiểu ảo tưởng tự mãn; dữ liệu lớn đã làm đảo lộn điều này. Một lần nữa chúng ta đang lâm vào một sự bế tắc lịch sử nơi “thần thánh cũng chết”, nghĩa là những điều chắc chắn chúng ta đã từng tin vào, một lần nữa lại thay đổi. Nhưng lần này chúng được thay thế một cách thật trớ trêu bằng những chứng cứ tốt hơn. Vậy thì trực giác, niềm tin, và những điều mơ hồ sẽ còn lại vai trò gì, so với các chứng cứ và việc học tập bằng trải nghiệm? Khi thế giới chuyển từ quan hệ nhân quả sang tương liên, làm sao chúng ta có thể tiến một cách thực dụng về phía trước mà không làm suy yếu những nền tảng của xã hội, nhân loại, và tiến bộ dựa trên nhân-quả? Cuốn sách này mong muốn giải thích chúng ta đang ở đâu, dõi theo dấu vết chúng ta đã tới đây như thế nào, và cung cấp một hướng dẫn hết sức cần thiết về những lợi ích và những nguy hiểm nằm ở phía trước. 2. NHIỀU HƠN DỮ LIỆU LỚN ĐỀU LIÊN QUAN ĐẾN về việc nhìn và hiểu các mối quan hệ trong và giữa các mẩu thông tin, mà cho đến rất gần đây, chúng ta phải chật vật để nắm bắt được một cách đầy đủ. Theo chuyên gia dữ-liệu-lớn của IBM Jeff Jonas, bạn cần để cho dữ liệu “nói với mình”. Ở một mức độ nào đó điều này nghe có vẻ hiển nhiên. Con người đã xem xét dữ liệu để tìm hiểu về thế giới trong một thời gian dài, cho dù theo nghĩa không chính thức của vô số các quan sát chúng ta thực hiện mỗi ngày, chủ yếu là trong vài thế kỷ vừa qua, hay theo ý nghĩa chính thức của các đơn vị định lượng có thể được xử lý bằng những thuật toán mạnh mẽ. Thời đại kỹ thuật số có thể đã làm cho việc xử lý dữ liệu dễ dàng hơn và nhanh hơn, để tính toán hàng triệu con số chỉ trong tích tắc. Nhưng khi đề cập đến việc dữ liệu lên tiếng, chúng ta đề cập tới một điều gì đó nhiều hơn - và khác hơn. Như đã lưu ý trong Chương Một, dữ liệu lớn là về ba sự chuyển đổi lớn lao của tư duy được nối kết với nhau và do đó củng cố lẫn nhau. Thứ nhất là khả năng phân tích lượng lớn dữ liệu về một chủ đề thay vì bị buộc phải thỏa mãn với những tập hợp nhỏ hơn. Thứ hai là sự sẵn sàng để đón nhận sự hỗn độn trong thế giới thực của dữ liệu thay vì đòi hỏi đặc quyền về tính chính xác. Thứ ba là sự tôn trọng ngày càng tăng đối với các mối tương quan thay vì việc tiếp tục truy tìm nhân quả rất khó nắm bắt. Chương này xem xét sự thay đổi thứ nhất: sử dụng tất cả các dữ liệu ta có thay vì chỉ một phần nhỏ của nó. Thách thức trong việc xử lý những khối lượng lớn dữ liệu thực chất đã tồn tại từ khá lâu. Trong gần hết lịch sử, chúng ta đã làm việc với chỉ một ít dữ liệu vì các công cụ để thu thập, tổ chức, lưu trữ, và phân tích nó rất nghèo nàn. Chúng ta sàng lọc thông tin, giữ lại mức tối thiểu vừa đủ để có thể khảo sát được dễ dàng hơn. Đây là một hình thức của tự kiểm duyệt vô thức: chúng ta xử lý các khó khăn trong việc tương tác với dữ liệu như thể đó là những chuyện không may, chứ không phải như bản chất thật của nó - một hạn chế nhân tạo bị áp đặt bởi công nghệ vào thời điểm đó. Ngày nay, môi trường kỹ thuật đã thay đổi 179 độ. Vẫn còn, và luôn luôn sẽ còn, một hạn chế về dung lượng dữ liệu chúng ta có thể quản lý, nhưng hạn chế đó là ít hơn nhiều so với trước đây và sẽ càng ít hơn trong tương lai. Theo một số cách nào đó, chúng ta vẫn chưa hoàn toàn đánh giá cao sự tự do mới của mình trong việc thu thập và sử dụng những khối lớn dữ liệu. Hầu hết kinh nghiệm và thiết kế tổ chức của chúng ta đã giả định rằng sự sẵn có của thông tin là hạn chế. Chúng ta chấp nhận chỉ có thể thu thập được một ít thông tin, và đó thường là những gì chúng ta đã làm. Nó đã trở thành sự tự thỏa mãn. Chúng ta thậm chí còn phát triển các kỹ thuật phức tạp để sử dụng ít dữ liệu nhất có thể. Xét cho cùng, một mục đích của thống kê là để xác nhận một điều khám phá tuyệt vời nhất bằng cách sử dụng lượng dữ liệu ít nhất. Trong thực tế, chúng ta đã hệ thống hóa việc thực thi của mình để bóp nghẹt lượng thông tin chúng ta sử dụng trong các định mức, tiến trình, và cơ chế khuyến khích. Để có được một sự hình dung về ý nghĩa của sự chuyển dịch tới dữ liệu lớn, câu chuyện bắt đầu với một cái nhìn ngược thời gian. Cho đến gần đây các công ty tư nhân, và ngày nay ngay cả các cá nhân, đã có thể thu thập và sắp xếp thông tin trên một quy mô lớn. Trước đây, công việc này thuộc các tổ chức lớn hơn như nhà thờ và nhà nước, mà trong nhiều xã hội chúng là đồng nhất. Ghi nhận lâu đời nhất của việc đếm là từ khoảng 5000 năm trước công nguyên, khi các thương nhân Sumer sử dụng những cục đất sét nhỏ để biểu thị hàng hóa khi buôn bán. Tuy nhiên việc đếm trên một quy mô lớn hơn lại thuộc phạm vi hoạt động của nhà nước. Qua nhiều thiên niên kỷ, các chính phủ đã cố gắng kiểm soát người dân của họ bằng cách thu thập thông tin. Hãy xem việc điều tra dân số. Người Ai Cập cổ đại được cho là đã tiến hành những cuộc điều tra dân số, cũng như người Trung Hoa. Những việc này được đề cập đến trong Cựu Ước, và Tân Ước cho chúng ta biết Caesar Augustus đã áp đặt một cuộc điều tra dân số - “cả thế giới nên bị đánh thuế” - đưa Joseph và Maria đến Bethlehem, nơi Jesus đã sinh ra. Cuốn Domesday Book năm 1086, một trong những báu vật được sùng kính nhất của người Anh, tại thời gian đó, là một sự kiểm đếm toàn diện chưa từng có về người Anh cùng đất đai và tài sản của họ. Các ủy viên hoàng gia đã di khắp nơi, tổng hợp thông tin để đưa vào cuốn sách - sau đó mới có tên Domesday, hoặc Khải huyền, bởi vì quá trình này giống như Phán xét cuối cùng trong Kinh Thánh, khi cuộc sống của tất cả mọi người bị phơi bày. Tiến hành điều tra dân số luôn tốn tiền và tốn thời gian. Vua William I, người ra lệnh thực hiện Domesday Book, đã không còn sống để nhìn thấy nó được hoàn thành. Nhưng lựa chọn duy nhất để khỏi phải mang gánh nặng này là từ bỏ thu thập thông tin. Và ngay cả sau khi tốn tất cả thời gian và chi phí, thông tin vẫn chỉ là gần đúng, vì những người đi điều tra không thể đếm được tất cả mọi người một cách hoàn hảo. Từ “điều tra dân số” xuất phát từ thuật ngữ La-tinh “censere” có nghĩa là “để ước tính”. Hơn ba trăm năm trước, một người Anh bán đồ may vá tên John Graunt đã có một ý tưởng mới lạ. Graunt muốn biết dân số London tại thời điểm bệnh dịch hạch. Thay vì đếm mỗi người, ông đã nghĩ ra một cách tiếp cận - mà ngày nay chúng ta gọi là “thống kê” - cho phép ông suy ra quy mô dân số. Cách tiếp cận của ông là thô, nhưng nó thiết lập ý tưởng rằng người ta có thể ngoại suy từ một mẫu nhỏ những hiểu biết hữu ích về dân số tổng quát. Nhưng cách người ta làm thế nào mới quan trọng. Graunt thì chỉ nhân rộng ra từ mẫu của mình. Hệ thống của ông đã nổi tiếng, mặc dù sau đó chúng ta biết những con số của ông là hợp lý nhờ may mắn. Trải qua nhiều thế hệ, việc chọn mẫu vẫn sai sót rất lớn. Do đó với các cuộc điều tra dân số và những công việc dạng “dữ liệu lớn” tương tự, cách tiếp cận để cố gắng đếm tất cả vẫn là phổ biến. Bởi các cuộc điều tra dân số rất phức tạp, tốn chi phí và tốn thời gian, nên chúng ít được thực hiện. Người La Mã cổ đại, vẫn tự hào với một dân số mấy trăm ngàn, thực hiện điều tra dân số năm năm một lần. Hiến pháp Hoa Kỳ bắt buộc một cuộc điều tra dân số trong mỗi thập kỷ, khi đất nước đang phát triển này có tới hàng triệu người. Nhưng vào cuối thế kỷ XIX, thậm chí việc này cũng trở nên khó khăn. Dữ liệu đã vượt quá khả năng xử lý của Cục Điều tra Dân số. Điều gây sốc là cuộc điều tra dân số năm 1880 đã mất tám năm để hoàn thành. Thông tin đã trở thành lỗi thời ngay cả trước khi nó được công bố. Tệ hơn nữa, các quan chức ước tính việc điều tra dân số năm 1890 sẽ cần tới 13 năm để lập bảng - một tình trạng hết sức vô lý, chưa nói đến chuyện vi phạm Hiến pháp. Tuy nhiên, do việc phân chia các loại thuế và đại diện trong Quốc hội dựa trên dân số, nên việc có được không chỉ một con số chính xác mà còn phải kịp thời là rất cần thiết. Vấn đề Cục Điều tra Dân số Hoa Kỳ phải đối mặt cũng tương tự với sự khó khăn của các nhà khoa học và doanh nhân vào đầu thiên niên kỷ mới, khi vấn đề trở nên rõ ràng là họ đã chết đuối trong dữ liệu: số lượng thông tin được thu thập đã hoàn toàn tràn ngập các công cụ được sử dụng để xử lý chúng, và người ta bắt buộc cần tới những kỹ thuật mới. Trong những năm 1880 tình hình nghiêm trọng tới mức Cục Điều tra Dân số ký hợp đồng với Herman Hollerith, một nhà phát minh người Mỹ, để sử dụng ý tưởng của ông về thẻ đục lỗ và máy lập bảng cho điều tra dân số năm 1890. Với nỗ lực rất lớn, ông đã thành công trong việc rút ngắn thời gian lập bảng từ tám năm xuống dưới một năm. Đó là một thành tích tuyệt vời, đánh dấu việc bắt đầu xử lý dữ liệu tự động (và cung cấp nền tảng cho những gì sau này trở thành IBM). Nhưng như một phương pháp thu nhận và phân tích dữ liệu lớn, nó vẫn còn rất tốn kém. Rốt cuộc, mỗi người tại Hoa Kỳ đều phải điền vào một mẫu đơn và các thông tin được chuyển vào một thẻ đục lỗ, được sử dụng để lập bảng. Với các phương pháp tốn kém như vậy, thật khó tưởng tượng nổi có thể thực hiện một cuộc điều tra dân số trong bất kỳ khoảng thời gian nào ngắn hơn một thập kỷ, mặc dù sự chậm trễ là không có ích lợi cho một quốc gia đang phát triển nhảy vọt. Vấn đề là ở chỗ: Sử dụng tất cả dữ liệu, hay chỉ một chút ít? Lấy tất cả dữ liệu về những gì đang được đo đạc chắc chắn là điều hợp lý nhất. Nó chỉ không phải lúc nào cũng thực tế khi quy mô là rất lớn. Nhưng làm thế nào để chọn một mẫu? Một số người cho rằng việc xây dựng có mục đích một mẫu đại diện được cho toàn bộ sẽ là cách phù hợp nhất. Nhưng vào năm 1934, Jerzy Neyman, một nhà thống kê Ba Lan, đã chứng minh một cách ấn tượng rằng cách tiếp cận như vậy dẫn đến những sai sót rất lớn. Chìa khóa để tránh chúng là nhằm vào sự ngẫu nhiên để chọn thành phần đưa vào mẫu. Các nhà thống kê đã chỉ ra rằng độ chính xác chọn mẫu được cải thiện rất đáng kể với sự ngẫu nhiên, chứ không phải với việc gia tăng kích thước mẫu. Trên thực tế, mặc dù nó có vẻ lạ thường, một mẫu được chọn ngẫu nhiên của 1.100 quan sát riêng lẻ trên một câu hỏi nhị phân (có hay không, với khoảng tỷ lệ bằng nhau) là đại diện đáng kể cho toàn dân. 19 trong 20 trường hợp, nó nằm trong khoảng biên độ 3 phần trăm lỗi, bất kể quy mô tổng dân số là một trăm ngàn hay một trăm triệu người. Lý do của điều này lại rất phức tạp về mặt toán học, nhưng câu trả lời ngắn gọn là sau một điểm nhất định, khi các con số ngày càng lớn lên, thì số lượng biên của thông tin mới mà chúng ta thu được từ mỗi quan sát sẽ ngày càng nhỏ đi. Thực tế, sự ngẫu nhiên quan trọng hơn cỡ mẫu là một hiểu biết sâu sắc đáng ngạc nhiên. Nó đã mở đường cho một cách tiếp cận mới để thu thập thông tin. Dữ liệu sử dụng các mẫu ngẫu nhiên có thể được thu thập với chi phí thấp nhưng được ngoại suy với độ chính xác cao cho tổng thể. Kết quả là các chính phủ có thể tiến hành các phiên bản nhỏ của tổng điều tra sử dụng các mẫu ngẫu nhiên mỗi năm, thay vì chỉ làm một tổng điều tra trong mỗi thập kỷ. Và họ đã làm như vậy. Ví dụ Cục Điều tra Dân số Hoa Kỳ thực hiện hơn 200 cuộc điều tra kinh tế và dân số hàng năm dựa trên cơ sở lấy mẫu, để bổ sung cho cuộc tổng điều tra dân số mười năm một lần trong đó cố gắng đếm tất cả mọi người. Lấy mẫu là một giải pháp cho vấn đề quá tải thông tin trước đây, khi việc thu thập và phân tích dữ liệu rất khó thực hiện. Các ứng dụng của phương pháp mới này nhanh chóng vượt ra khỏi khu vực công và các cuộc tổng điều tra. Về bản chất, lấy mẫu ngẫu nhiên làm giảm những vấn đề dữ liệu lớn xuống thành những vấn đề dữ liệu dễ quản lý hơn. Trong kinh doanh, nó được sử dụng để đảm bảo chất lượng sản xuất - làm cho các cải tiến trở nên dễ dàng hơn và ít tốn kém hơn. Kiểm tra chất lượng toàn diện lúc đầu đòi hỏi phải nhìn vào từng sản phẩm đơn lẻ đi ra từ băng chuyền; bây giờ một mẫu ngẫu nhiên để kiểm tra cho một loạt sản phẩm là đủ. Tương tự như vậy, phương pháp mới đã mở ra các cuộc khảo sát người tiêu dùng trong bán lẻ và các cuộc thăm dò trong chính trị. Nó đã chuyển đổi một phần đáng kể những gì chúng ta vẫn gọi là các ngành nhân văn trở thành các ngành khoa học xã hội. Lấy mẫu ngẫu nhiên đã là một thành công lớn và là xương sống của đo lường hiện đại có quy mô lớn. Nhưng nó chỉ là một đường tắt, một lựa chọn tốt thứ hai để thu thập và phân tích tập dữ liệu đầy đủ. Nó đi kèm với một số điểm yếu cố hữu. Độ chính xác của nó phụ thuộc vào việc đảm bảo tính ngẫu nhiên khi thu thập dữ liệu mẫu, nhưng đạt được ngẫu nhiên như vậy là khó khăn. Những thành kiến có hệ thống trong cách thức dữ liệu được thu thập có thể dẫn đến các kết quả ngoại suy rất sai. Có những dẫn chứng cho những vấn đề như vậy trong phỏng vấn bầu cử sử dụng điện thoại cố định. Mẩu bị thành kiến đối với những người chỉ sử dụng điện thoại di động (những người trẻ hơn và tự do hơn), như nhà thống kê Nate Silver đã chỉ ra. Điều này đã dẫn đến những dự đoán bầu cử không chính xác. Trong cuộc bầu cử tổng thống năm 2008 giữa Barack Obama và John McCain, các tổ chức thăm dò chính của Gallup, Pew, và ABC/Washington Post tìm thấy sự khác biệt từ một đến ba điểm phần trăm, khi họ thăm dò có và không có sự điều chỉnh cho người sử dụng điện thoại di động - một biên độ đáng kể nếu xét tới độ sát sao của cuộc đua. Rắc rối nhất là lấy mẫu ngẫu nhiên không dễ dàng mở rộng được để bao gồm các tiểu thể loại, vì khi chia kết quả thành các nhóm con nhỏ hơn sẽ làm tăng khả năng dự đoán sai. Thật dễ dàng hiểu lý do. Giả sử bạn thăm dò ý kiến một mẫu ngẫu nhiên của 1.000 người về ý định bỏ phiếu của họ trong cuộc bầu cử sắp tói. Nếu mẫu của bạn là đủ ngẫu nhiên, khả năng có thể xảy ra là ý kiến của toàn bộ dân số sẽ ở trong phạm vi 3 phần trăm của các quan điểm trong mẫu. Nhưng sẽ ra sao nếu cộng hoặc trừ 3 phần trăm là không đủ chính xác? Hoặc sẽ ra sao nếu sau đó bạn muốn chia nhóm thành những nhóm nhỏ hơn, với giới tính, địa lý, hoặc thu nhập? Và điều gì sẽ xảy ra nếu bạn muốn kết hợp các phân nhóm này để nhắm tới một nhóm dân số thích hợp? Trong một mẫu tổng thể của 1.000 người, một phân nhóm như “nữ cử tri giàu có ở vùng Đông Bắc” sẽ nhỏ hơn 100 nhiều. Chỉ sử dụng vài chục quan sát để dự đoán những ý định bỏ phiếu của tất cả các nữ cử tri giàu có ở vùng Đông Bắc sẽ là không chính xác ngay cả với sự ngẫu nhiên gần như hoàn hảo. Và những thành kiến nhỏ nhất trong mẫu tổng thể sẽ làm cho các lỗi trở thành rõ rệt hơn ở mức độ phân nhóm. Do đó, việc lấy mẫu một cách nhanh chóng không còn hữu ích khi bạn muốn đi sâu hơn, để có một cái nhìn gần hơn đối với một số tiểu thể loại hấp dẫn trong dữ liệu. Những gì hoạt động được ở tầm vĩ mô lại thất bại hoàn toàn ở tầm vi mô. Lấy mẫu giống như một bức in ảnh analog. Nó trông đẹp từ một khoảng cách, nhưng khi bạn ngắm gần hơn, phóng to một chi tiết đặc biệt thì nó bị mờ. Lấy mẫu cũng đòi hỏi phải lập kế hoạch và thực hiện cẩn thận. Người ta thường không thể “hỏi” mẫu những câu hỏi mới nếu chúng chưa được dự liệu ngay từ đầu. Vì vậy, mặc dù là một đường tắt rất hữu ích, sự đánh đổi ở đây quả thực chỉ đơn thuần là một đường tắt. Khi là một mẫu chứ không phải tất cả, tập dữ liệu thiếu khả năng mở rộng nhất định hoặc tính mềm dẻo, theo đó cùng một dữ liệu có thể được phân tích lại theo một cách hoàn toàn mới so với mục đích mà ban đầu nó được thu thập. Hãy xem xét trường hợp phân tích DNA. Chi phí để xác định trình tự gen của một cá nhân là gần 1.000 đôla vào năm 2012, khiến nó gần trở thành một kỹ thuật thị trường đại chúng có thể được thực hiện theo quy mô lớn. Kết quả là một ngành công nghiệp mới xác định trình tự gen cá nhân được ra đời. Từ năm 2007, công ty 23andMe ở Thung Lũng Silicon đã phân tích DNA của người với giá chỉ vài trăm đôla. Kỹ thuật của nó có thể tiết lộ những đặc điểm trong mã di truyền của người có thể làm cho họ dễ bị mắc một số bệnh như ung thư vú hoặc các vấn đề về tim. Và bằng cách tập hợp thông tin DNA và sức khỏe của khách hàng, 23andMe hy vọng sẽ học hỏi được những điều mới mẻ không thể phát hiện được bằng những phương cách khác. Nhưng có một cản trở. Công ty xác định trình tự chỉ một phần nhỏ mã di truyền của một người: những nơi đã được biết là dấu hiệu cho thấy những điểm yếu di truyền đặc biệt. Trong khi đó, hàng tỷ cặp DNA cơ sở vẫn chưa được xác định trình tự. Do đó 23andMe chỉ có thể trả lời những câu hỏi về các dấu hiệu mà nó xem xét. Bất cứ khi nào một dấu hiệu mới được phát hiện, DNA của một người (hay chính xác hơn, phần liên quan của nó) phải được xác định trình tự lại. Làm việc với một tập hợp con, chứ không phải là toàn bộ, đòi hỏi một sự đánh đổi: công ty có thể thấy những gì họ tìm kiếm một cách nhanh hơn và rẻ hơn, nhưng nó không thể trả lời được những câu hỏi mà nó không xem xét từ trước. Giám đốc điều hành huyền thoại Steve Jobs của Apple đã thực hiện một tiếp cận hoàn toàn khác trong cuộc chiến của ông chống lại bệnh ung thư. Ông trở thành một trong những người đầu tiên trên thế giới để toàn bộ DNA của mình cũng như của khối u của ông được xác định trình tự. Để làm điều này, ông đã trả một khoản tiền sáu con số - hàng trăm lần so với giá 23andMe tính. Đổi lại, ông đã nhận được không phải một mẫu, một tập hợp nhỏ các dấu hiệu, mà là một tệp dữ liệu chứa toàn bộ các mã di truyền. Khi lựa chọn thuốc cho một bệnh nhân ung thư thông thường, các bác sĩ phải hy vọng DNA của bệnh nhân là đủ tương tự như của những người tham gia vào thử nghiệm loại thuốc. Còn đội ngũ bác sĩ của Steve Jobs thì có thể lựa chọn các phương pháp điều trị theo cách chúng tác động tốt như thế nào đối với cấu tạo di truyền cụ thể của ông. Bất cứ khi nào một hướng điều trị mất hiệu quả vì ung thư đột biến và kháng cự được nó, các bác sĩ có thể chuyển sang một loại thuốc khác - “nhảy từ một giỏ hoa huệ này sang một giỏ khác”, như Jobs từng mô tả. “Tôi hoặc sẽ là một trong những người đầu tiên có thể chạy nhanh hơn căn bệnh ung thư như thế này hoặc sẽ là một trong những người cuối cùng chết vì nó”, ông nói đùa. Mặc dù rất đáng buồn khi dự đoán của ông không được hoàn thành, những phương pháp này - có tất cả các dữ liệu, chứ không chỉ một phần nhỏ - đã cho ông thêm nhiều năm sống. Từ một số tới tất cả Lấy mẫu là một kết quả tự nhiên trong thời đại của những hạn chế về xử lý thông tin, khi con người đo đạc thế giới nhưng lại thiếu các công cụ để phân tích những gì họ thu thập được. Thế nên nó cũng là một di tích của thời đại ấy. Những khiếm khuyết trong tính toán và lập bảng hiện nay không còn tồn tại ở cùng mức độ đó nữa. Các cảm biến, điện thoại di động GPS, những cú nhấp chuột trên web, và Twitter thu thập dữ liệu thụ động; máy tính có thể nghiền các con số này ngày càng dễ dàng hơn. Tuy nhiên, việc lấy mẫu đi kèm với một chi phí mà từ lâu đã được thừa nhận nhưng bị đẩy sang một bên: Nó làm mất đi chi tiết. Trong một số trường hợp, rõ ràng không có cách nào khác ngoài lấy mẫu. Tuy nhiên, trong nhiều lĩnh vực đang diễn ra một sự thay đổi từ thu thập một số dữ liệu sang thu thập càng nhiều càng tốt, và nếu có thể, thì lấy tất cả mọi thứ: N = tất cả. Như chúng ta đã thấy, sử dụng N = tất cả có nghĩa chúng ta có thể đi sâu vào dữ liệu; mẫu không thể làm được điều đó. Thứ hai, hãy nhớ lại rằng trong ví dụ về lấy mẫu ở trên, chúng ta chỉ có một biên độ 3 phần trăm lỗi khi ngoại suy cho toàn bộ dân số. Đối với một số tình huống, biên độ lỗi đó là tốt. Nhưng bạn bị mất các chi tiết, độ chi tiết, khả năng xem xét kỹ hơn ở những phân nhóm nhất định. Một phân phối chuẩn, than ôi, chỉ đạt mức tiêu chuẩn. Thông thường, những điều thực sự thú vị trong cuộc sống lại được tìm thấy ở những nơi mà mẫu không nắm bắt được đầy đủ. Do đó Xu hướng Dịch cúm của Google không dựa trên một mẫu ngẫu nhiên nhỏ, mà thay vào đó sử dụng hàng tỷ truy vấn Internet ở Mỹ. Việc sử dụng tất cả .dữ liệu chứ không phải chỉ một mẫu nhỏ đã cải thiện việc phân tích sâu xuống tới mức dự đoán được sự lây lan của bệnh cúm trong một thành phố cụ thể chứ không phải chỉ trong một tiểu bang hay toàn bộ quốc gia. Oren Etzioni của Farecast ban đầu đã sử dụng 12 ngàn điểm dữ liệu, một mẫu, và nó đã hoạt động tốt. Nhưng khi Etzioni thêm nhiều dữ liệu hơn, chất lượng của các dự báo được cải thiện. Cuối cùng, Farecast đã sử dụng các hồ sơ chuyến bay nội địa của hầu hết các tuyến đường trong cả một năm. “Đây là dữ liệu tạm thời - bạn chỉ cần tiếp tục thu thập nó theo thời gian, và khi bạn làm như vậy, bạn sẽ có được cái nhìn ngày càng sâu sắc hơn vào các khuôn mẫu”, Etzioni cho biết. Vì vậy, chúng ta sẽ luôn thấy ổn khi bỏ con đường tắt lấy mẫu ngẫu nhiên sang bên và nhắm tới dữ liệu toàn diện hơn để thay thế. Làm như vậy đòi hỏi phải có sức mạnh xử lý và lưu trữ phong phú cũng như các công cụ tiên tiến để phân tích tất cả. Nó cũng đòi hỏi những cách thức dễ dàng và giá cả phải chăng để thu thập dữ liệu. Trong quá khứ, mỗi thứ này là một thách đố đắt giá. Nhưng hiện nay chi phí và độ phức tạp của tất cả các mảnh ghép này đã giảm đáng kể. Những gì trước đây là phạm vi của chỉ các công ty lớn nhất thì bây giờ lại khả thi cho hầu như tất cả. Sử dụng tất cả dữ liệu cho phép phát hiện các kết nối và chi tiết mà bình thường sẽ bị che giấu trong sự bao la của thông tin. Ví dụ, việc phát hiện các gian lận thẻ tín dụng hoạt động bằng cách tìm kiếm những bất thường, và cách tốt nhất để tìm ra chúng là nghiền tất cả dữ liệu thay vì một mẫu. Các giá trị ngoại lai là những thông tin thú vị nhất, và bạn chỉ có thể nhận ra chúng khi so sánh với hàng loạt giao dịch bình thường. Nó là một vấn đề về dữ liệu lớn. Và bởi vì các giao dịch thẻ tín dụng xảy ra tức thời, nên việc phân tích thường phải được thực hiện trong thời gian thực. Xoom là một công ty chuyên về chuyển tiền quốc tế và được hỗ trợ bởi những tên tuổi lớn trong lĩnh vực dữ liệu lớn. Nó phân tích tất cả dữ liệu liên quan tới các giao dịch mà nó xử lý. Hệ thống tăng mức báo động vào năm 2011 khi nó nhận thấy số lượng giao dịch thẻ Discovery có nguồn gốc từ New Jersey hơi cao hơn một chút so với trung bình. “Nó nhận thấy một mô hình mà đáng ra không được như vậy”, John Kunze, giám đốc điều hành của Xoom, giải thích. Xét riêng thì mỗi giao dịch có vẻ hợp pháp. Nhưng cuối cùng thì hóa ra chúng đến từ một nhóm tội phạm. Cách duy nhất để phát hiện sự bất thường là khảo sát tất cả dữ liệu - việc lấy mẫu có thể đã bỏ sót nó. Sử dụng tất cả các dữ liệu không nhất thiết phải là một công việc rất lớn. Dữ liệu lớn không cần thiết phải lớn một cách tuyệt đối, mặc dù thường thì nó là như vậy. Xu hướng Dịch cúm của Google điều chỉnh các dự đoán của nó trên hàng trăm triệu bài tập mô hình hóa toán học sử dụng hàng tỷ điểm dữ liệu. Việc xác định trình tự đầy đủ của một gen người đưa đến con số ba tỷ cặp cơ sở. Nhưng chỉ xét riêng con số tuyệt đối của các điểm dữ liệu, kích thước của bộ dữ liệu, thì không phải là điều làm cho những thứ này thành những ví dụ của dữ liệu lớn. Thứ xếp loại chúng thành dữ liệu lớn là thay vì sử dụng đường tắt của một mẫu ngẫu nhiên, cả Xu hướng Dịch cúm và các bác sĩ của Steve Jobs đều đã sử dụng toàn bộ dữ liệu ở mức nhiều nhất mà họ có thể. Phát hiện ra chuyện gian lận trong thi đấu của môn thể thao quốc gia của Nhật Bản, đấu vật sumo, là một minh họa hay tại sao sử dụng N = tất cả không nhất thiết có nghĩa là lớn. Những trận đấu bị dàn xếp vốn luôn bị buộc tội phá hoại môn thể thao của các hoàng đế, và người ta luôn hùng hồn chối biến. Steven Levitt, một nhà kinh tế tại Đại học Chicago, đã xem xét những sai trái trong bộ hồ sơ hơn một thập kỷ của các trận đấu gần đây - tất cả các trận đấu. Trong một bài nghiên cứu thú vị được công bố trên tờ American Economic Review và được đăng lại trong cuốn sách Freakonomics, ông và một đồng nghiệp đã mô tả tính hữu ích của việc khảo sát nhiều dữ liệu như vậy. Họ đã phân tích 11 năm số liệu của các trận đấu sumo, hơn 64.000 trận đấu vật, để săn lùng những sự bất thường. Và họ đã bắt được vàng. Việc dàn xếp trận đấu đã thực sự diễn ra, nhưng không phải ở nơi hầu hết mọi người nghi ngờ. Thay vì trong những cuộc đọ sức tranh ngôi vô địch, có thể bị gian lận hoặc không, dữ liệu cho thấy một điều hài hước đã xảy ra trong các trận đấu kết thúc giải vốn không mấy ai chú ý. Có vẻ như ít thứ bị đe dọa, vì các đô vật này không còn cơ hội chiến thắng một danh hiệu nào. Tuy nhiên, một đặc thù của sumo là đô vật cần phải thắng nhiều hơn thua tại các giải 15 trận đấu để duy trì thứ hạng và thu nhập của họ. Điều này đôi khi dẫn đến sự chênh lệch về lợi ích, khi một đô vật với tỷ lệ 7-7 sẽ gặp một đối thủ có tỉ lệ 8-6 hoặc tốt hơn. Kết quả có ý nghĩa rất lớn đối với đô vật thứ nhất và không có tí ý nghĩa gì cho người thứ hai. Trong những trường hợp này, việc phân tích số liệu đã cho thấy rằng đô vật cần chiến thắng thường sẽ giành chiến thắng. Những người cần chiến thắng đã thi đấu kiên cường hơn chăng? Có lẽ. Nhưng các dữ liệu cho thấy còn có một cái gì đó khác nữa xảy ra. Các đô vật cần thắng thường thắng khoảng 25 phần trăm nhiều hơn bình thường. Thật khó để gán một sự khác biệt lớn đến vậy cho riêng chỉ hoóc-môn kích thích từ tuyến thượng thận adrenaline. Khi dữ liệu được phân tích xa hơn, nó cho thấy ngay lần kế tiếp hai đô vật gặp lại, người thua trong trận trước rất thường giành chiến thắng so với khi họ thi đấu trong những trận về sau. Vì vậy, chiến thắng đầu tiên dường như là một “món quà” của một đối thủ cạnh tranh cho đối thủ kia, vì đặc điểm có qua có lại trong thế giới đan chen chặt chẽ của sumo. Thông tin này vẫn luôn luôn rõ ràng. Nó tồn tại sờ sờ trước mắt. Tuy nhiên việc lấy mẫu ngẫu nhiên của các trận đấu đã không tiết lộ nó. Lý do là mặc dù nó dựa trên các thống kê cơ bản, nhưng nếu không biết tìm kiếm cái gì, người ta sẽ không biết phải sử dụng mẫu nào. Ngược lại, Levitt và đồng nghiệp của ông đã phát hiện ra nó bằng cách sử dụng một tập hợp dữ liệu lớn hơn nhiều - cố gắng kiểm tra toàn bộ các trận đấu. Một cuộc điều tra sử dụng dữ liệu lớn gần giống như một chuyên đi câu: ngay từ đầu nó đã không rõ ràng, kể cả chuyện liệu có câu được món nào chăng và món đó có thể là cái gì. Bộ dữ liệu không cần lớn tới tera byte. Trong trường hợp sumo, toàn bộ bộ dữ liệu chứa đựng ít bit hơn so với một bức ảnh kỹ thuật số điển hình ngày nay. Nhưng vì phân tích dữ-liệu-lớn, nó xem xét nhiều hơn so với một mẫu ngẫu nhiên điển hình. Khi nói về dữ liệu lớn, chúng ta có ý nói “lớn” trong tương đối hơn là trong tuyệt đối: tương đối so với tập hợp toàn diện của dữ liệu. Trong một thời gian dài, lấy mẫu ngẫu nhiên là một cách đi tắt hiệu quả. Nó làm cho việc phân tích các bài toán dữ liệu lớn nhất thành khả hiện trong thời kỳ tiền kỹ thuật số. Nhưng cũng giống như khi chuyển đổi một tấm ảnh hoặc bài hát kỹ thuật số vào một tập tin nhỏ hơn, thông tin bị mất khi lấy mẫu. Việc có đầy đủ (hoặc gần đầy đủ) tập dữ liệu sẽ tạo điều kiện tốt hơn để khám phá, để nhìn vào dữ liệu từ các góc độ khác nhau hoặc để xem xét kỹ hơn các khía cạnh nhất định của nó. Một cách so sánh phù hợp có thể là máy ảnh Lytro, không chỉ chụp một mặt phảng ánh sáng đơn nhất, như với những máy ảnh thông thường, mà chụp tất cả các tia từ toàn bộ trường ánh sáng, khoảng 11 triệu phần tử. Người chụp hình sau đó có thể quyết định tập trung vào yếu tố nào của ảnh trong tập tin kỹ thuật số. Như vậy, không cần phải tập trung ngay từ đầu, bởi việc thu thập tất cả các thông tin cho phép có thể làm điều đó về sau. Phim minh họa máy ảnh Lytro Tương tự như vậy, vì dữ liệu lớn dựa trên tất cả các thông tin, hoặc nhiều thông tin nhất có thể, nên nó cho phép chúng ta nhìn vào các chi tiết hoặc thử nghiệm các phân tích mới mà không ngại rủi ro bị mất chất lượng. Chúng ta có thể kiểm tra các giả thuyết mới ở nhiều cấp độ chi tiết. Tính chất này chính là thứ cho phép chúng ta thấy được sự gian lận trong các trận đấu vật sumo, theo dõi sự lây lan của virus cúm theo vùng, và chống ung thư bằng cách nhắm vào một phần chính xác trên DNA của bệnh nhân. Nó cho phép chúng ta làm việc ở một mức độ rõ ràng tuyệt vời. Tất nhiên, việc sử dụng tất cả các dữ liệu thay vì một mẫu không phải là luôn luôn cần thiết. Chúng ta vẫn sống trong một thế giới có nguồn lực hạn chế. Nhưng trong ngày càng nhiều trường hợp thì việc sử dụng tất cả các dữ liệu có trong tay tỏ ra hợp lý, và làm như vậy là khả thi trong khi trước đây thì không. Một trong các lĩnh vực chịu tác động mạnh nhất bởi N = tất cả là khoa học xã hội. Chúng đã mất đi độc quyền trong việc làm nên ý nghĩa cho dữ liệu thực nghiệm xã hội, khi phân tích dữ liệu lớn thay thế các chuyên gia khảo sát có tay nghề cao trong quá khứ. Các ngành khoa học xã hội chủ yếu dựa trên các nghiên cứu lấy mẫu và bảng câu hỏi. Nhưng khi dữ liệu được thu thập một cách thụ động trong khi mọi người tiếp tục làm những gì họ vẫn thường làm, thì những định kiến cũ liên quan đến lấy mẫu và bảng câu hỏi biến mất. Bây giờ chúng ta có thể thu thập được những thông tin mà ta không thể thu thập nổi trước đây, đó có thể là những mối quan hệ tiết lộ qua các cuộc gọi điện thoại di động hay những cảm xúc bộc lộ qua tweet. Quan trọng hơn, sự cần thiết phải lấy mẫu biến mất. Albert-László Barabási, một trong những chuyên gia uy tín hàng đầu thế giới về khoa học lý thuyết mạng, muốn nghiên cứu sự tương tác giữa con người ở quy mô của toàn bộ dân số. Vì vậy, ông và các đồng nghiệp đã khảo sát các bản lưu ẩn danh của các cuộc gọi điện thoại di động từ một nhà điều hành phục vụ khoảng một phần năm dân số của một quốc gia châu Âu không xác định - tất cả các bản lưu trong thời gian bốn tháng. Đó là phân tích mạng lưới đầu tiên ở mức độ toàn xã hội, sử dụng một bộ dữ liệu trong tinh thần của N = tất cả. Một quy mô lớn như vậy - xem xét tất cả các cuộc gọi giữa hàng triệu người - đã tạo ra những hiểu biết mới không thể phát hiện được bằng bất kỳ phương cách nào khác. Điều thú vị là trái ngược với các nghiên cứu nhỏ hơn, nhóm nghiên cứu phát hiện ra rằng nếu loại bỏ khỏi mạng lưới những người có nhiều liên kết ngay trong cộng đồng này, thì mạng xã hội còn lại sẽ giảm chất lượng nhưng không sụp đổ. Ngược lại, khi những người có liên kết bên ngoài cộng đồng trực tiếp này được mang ra khỏi mạng, thì mạng xã hội đột ngột tan rã, giống như cấu trúc của nó bị khóa. Đó là một kết quả quan trọng, nhưng phần nào bất ngờ. Ai có thể nghĩ rằng những người có rất nhiều bạn bè thân thiết lại ít quan trọng hơn nhiều đối với sự ổn định của cấu trúc mạng so với những người có quan hệ với những người ở xa hơn? Nó cho thấy rằng sự đa dạng trong một nhóm và trong xã hội nói chung có một tầm quan trọng đặc biệt. Chúng ta có xu hướng nghĩ về mẫu thống kê như một loại nền tảng bất biến, giống như các nguyên lý của hình học, hay các định luật của lực hấp dẫn. Tuy nhiên, khái niệm này mới ra đời chưa đầy một thế kỷ, và nó được phát triển để giải quyết một bài toán đặc biệt tại một thời điểm đặc biệt dưới những hạn chế cụ thể về công nghệ. Những hạn chế này không còn tồn tại với cùng mức độ nữa. Việc cố đạt được một mẫu ngẫu nhiên trong thời đại của dữ liệu lớn cũng giống như việc níu chặt một cây roi ngựa trong thời đại của xe hơi. Chúng ta vẫn có thể áp dụng cách lấy mẫu trong những hoàn cảnh nhất định, nhưng nó không cần, và sẽ không là cách chiếm ưu thế để chúng ta phân tích các bộ dữ liệu lớn. Càng ngày tất cả chúng ta sẽ càng nhắm đến điều đó. 3. HỖN ĐỘN NGÀY CÀNG CÓ NHIỀU BỐI CẢNH, trong đó việc sử dụng tất cả các dữ liệu có sẵn là khả thi. Tuy nhiên nó đi kèm với chi phí. Tăng khối lượng sẽ mở cánh cửa cho sự thiếu chính xác. Điều chắc chắn là những số liệu sai sót và bị hỏng đã luôn luôn len lỏi vào các bộ dữ liệu. Chúng ta đã luôn luôn xem chúng như những rắc rối và cố gắng loại bỏ chúng, một phần vì chúng ta có thể làm được như vậy. Những gì chúng ta chưa bao giờ muốn làm là xem chúng như điều không thể tránh khỏi và học cách sống chung với chúng. Đây là một trong những thay đổi cơ bản khi chuyển từ dữ liệu nhỏ sang dữ liệu lớn. Trong thế giới của dữ liệu nhỏ, giảm sai sót và đảm bảo chất lượng cao của dữ liệu là một động lực tự nhiên và cần thiết. Vì chỉ thu thập được một ít thông tin, chúng ta phải bảo đảm rằng những con số đã được cố gắng ghi lại là chính xác nhất có thể. Nhiều thế hệ các nhà khoa học đã tối ưu hóa các công cụ để các phép đo đạc của họ ngày càng chính xác hơn, dù là để xác định vị trí của các thiên thể hay kích thước của các đối tượng dưới kính hiển vi. Trong thế giới lấy mẫu, nỗi ám ảnh với sự chính xác thậm chí còn nặng nề hơn. Việc phân tích chỉ một số lượng hạn chế các điểm dữ liệu có nghĩa là lỗi có thể được khuếch đại, có khả năng làm giảm tính chính xác của kết quả tổng thể. Trong phần lớn lịch sử, những thành quả cao nhất của loài người xuất hiện từ việc chinh phục thế giới bằng cách đo lường nó. Việc tìm kiếm sự chính xác bắt đầu tại châu Âu vào giữa thế kỷ thứ mười ba, khi các nhà thiên văn học và các học giả đã gánh vác việc định lượng thời gian và không gian một cách chính xác hơn bao giờ hết - đó là “đo lường hiện thực”, theo như lời của nhà sử học Alfred Crosby. Nếu có thể đo lường một hiện tượng thì người ta tin rằng có thể hiểu được nó. Sau này, đo lường đã được gắn liền với phương pháp quan sát và giải thích khoa học: khả năng định lượng, ghi nhận, và trình bày các kết quả có thể tái lập được. “Đo lường là để hiểu biết”, Lord Kelvin đã phát biểu như vậy. Nó đã trở thành một cơ sở của quyền lực. “Hiểu biết là quyền lực”, Francis Bacon nhận định. Đồng thời, các nhà toán học và những người sau này được gọi là kế toán đã phát triển những phương pháp để có thể thực hiện việc thu thập, ghi nhận, và quản lý dữ liệu một cách chính xác. Đến thế kỷ XIX, Pháp - lúc đó là quốc gia hàng đầu thế giới về khoa học - đã phát triển một hệ thống các đơn vị đo lường được xác định chính xác để nắm bắt không gian, thời gian, và nhiều thứ khác nữa, và bắt đầu đề nghị các quốc gia khác cũng áp dụng cùng một tiêu chuẩn. Thậm chí họ đã đưa ra những đơn vị mẫu được quốc tế công nhận dùng để đo lường trong các hiệp ước quốc tế. Đó là đỉnh điểm của thời đại về đo lường. Chỉ một nửa thế kỷ sau đó, vào những năm 1920, các khám phá của cơ học lượng tử đã làm tan vỡ mãi mãi ước mơ của đo lường toàn diện và hoàn hảo. Tuy nhiên, bên ngoài phạm vi tương đối nhỏ của các nhà vật lý, thì suy nghĩ hướng tới đo lường một cách hoàn hảo vẫn tiếp tục đối với các kỹ sư và các nhà khoa học. Trong thế giới kinh doanh nó thậm chí còn được mở rộng, khi các ngành toán học và thống kê bắt đầu gây ảnh hưởng đến tất cả các lĩnh vực thương mại. Tuy nhiên, trong nhiều tình huống mới nảy sinh ngày hôm nay, việc cho phép sự không chính xác - sự hỗn độn - có thể là một tính năng tích cực, chứ không phải là một thiếu sót. Nó là một sự cân bằng. Để bù đắp cho sự nới lỏng về tiêu chuẩn với các lỗi cho phép, người ta có thể có được nhiều dữ liệu hơn. Nó không chỉ mang ý nghĩa “nhiều hơn thì tốt hơn”, mà thật ra đôi khi nó sẽ là “nhiều hơn thì tốt hơn cả tốt hơn”. Chúng ta phải đối mặt với nhiều loại hỗn độn khác nhau. Hỗn độn có thể mang một ý nghĩa đơn giản là khả năng sai sót tăng lên khi bạn thêm điểm dữ liệu. Khi số lượng tăng lên gấp hàng ngàn lần thì khả năng một số trong đó có thể sai cũng tăng lên. Nhưng bạn cũng có thể làm tăng hỗn độn bằng cách kết hợp nhiều loại thông tin khác nhau từ các nguồn khác nhau, không luôn luôn tương thích với nhau một cách hoàn hảo. Ví dụ, nếu sử dụng phần mềm nhận dạng giọng nói để mô tả các khiếu nại đến một trung tâm tiếp nhận cuộc gọi, và so sánh dữ liệu này với khi dùng nhân viên để xử lý các cuộc gọi, người ta có thể có được một sự hình dung thực tế, tuy không hoàn hảo nhưng hữu ích. Hỗn độn cũng có thể tham chiếu tới sự không thống nhất định dạng, trong đó các dữ liệu cần được “làm sạch” trước khi được xử lý. Ví dụ chuyên gia dữ liệu lớn DJ Patil nhận xét từ viết tắt IBM có rất nhiều cách diễn đạt, như hoặc Phòng thí nghiệm T.J. Watson, hoặc International Business Machines. Và hỗn độn có thể phát sinh khi chúng ta trích xuất hoặc xử lý dữ liệu, vì khi làm như vậy, chúng ta đang chuyển đổi nó, biến nó thành một cái gì đó khác, chẳng hạn như khi chúng ta thực hiện phân tích cảm nghĩ các tin nhắn Twitter để dự đoán doanh thu phòng vé của Hollywood. Chính bản thân sự hỗn độn cũng mang tính hỗn độn. Giả sử chúng ta cần đo nhiệt độ trong một vườn nho. Nếu chúng ta chỉ có một cảm biến nhiệt độ cho toàn bộ lô đất, chúng ta phải chắc chắn rằng nó chính xác và hoạt động được tại mọi thời điểm: sự hỗn độn không được tồn tại. Ngược lại, nếu chúng ta có một cảm biến cho mỗi cây trong vườn hàng trăm cây nho, chúng ta có thể sử dụng những cảm biến rẻ hơn, ít phức tạp hơn (miễn là chúng không phát sinh một sai số có hệ thống). Rất có thể là tại một số thời điểm, một vài cảm biến sẽ báo dữ liệu không chính xác, tạo ra một bộ dữ liệu ít chính xác, hoặc “hỗn độn” hơn so với bộ dữ liệu từ một cảm biến chính xác đơn nhất. Bất kỳ phép đọc cụ thể nào đó cũng đều có thể không chính xác, nhưng tổng hợp của nhiều phép đọc sẽ cung cấp một bức tranh toàn diện hơn. Bởi vì bộ dữ liệu này bao gồm nhiều điểm dữ liệu hơn, nó cung cấp giá trị lớn hơn nhiều và có thể bù đắp cho sự hỗn độn của nó. Bây giờ giả sử chúng ta tăng tần số các lần đọc cảm biến. Nếu đo mỗi phút một lần, chúng ta có thể khá chắc chắn rằng trình tự mà các dữ liệu đến sẽ hoàn toàn theo thứ tự thời gian. Nhưng nếu chúng ta thay đổi, đọc đến mười hay một trăm lần trong một giây, thì độ chính xác của trình tự có thể trở nên không chắc chắn. Khi thông tin đi qua mạng, một bản ghi có thể bị trì hoãn và đến lệch trình tự, hoặc đơn giản là có thể bị mất. Thông tin sẽ ít chính xác đi một chút, nhưng khối lượng lớn sẽ khiến cho khả năng từ bỏ sự chính xác nghiêm ngặt trở nên thích đáng. Trong ví dụ đầu tiên, chúng ta đã hy sinh tính chính xác của mỗi điểm dữ liệu cho chiều rộng, và ngược lại chúng ta nhận được tính chi tiết mà bình thường chúng ta có thể đã không nhìn thấy. Trong trường hợp thứ hai, chúng ta đã từ bỏ sự chính xác cho tần số, và ngược lại, chúng ta thấy sự thay đổi mà bình thường chúng ta đã phải bỏ qua. Mặc dù có thể khắc phục những sai sót nếu chúng ta đầu tư đủ nguồn lực vào đó - xét cho cùng, mỗi giây có tới 30.000 giao dịch xảy ra trên Thị trường Chứng khoán New York, nơi trình tự chính xác là vấn đề rất quan trọng - trong nhiều trường hợp, việc chấp nhận lỗi thay vì cố gắng ngăn chặn nó lại tỏ ra hiệu quả hơn. Ví dụ, chúng ta có thể chấp nhận sự hỗn độn để đổi lấy quy mô. Như Forrester, một nhà tư vấn công nghệ, đã nói: “Đôi khi hai cộng với hai có thể bằng 3,9, và như vậy là đủ tốt”. Tất nhiên dữ liệu không được phép sai hoàn toàn, nhưng chúng ta sẵn sàng hy sinh một chút trong sự chính xác để đổi lại hiểu biết về xu hướng chung. Dữ liệu lớn biến đổi các con số thành một cái gì đó mang tính xác suất nhiều hơn là tính chính xác. Thay đổi này sẽ cần rất nhiều để làm quen, và nó cũng đi kèm với những vấn đề riêng của nó, mà chúng ta sẽ xem xét sau trong cuốn sách. Nhưng bây giờ, hãy đơn giản lưu ý rằng chúng ta thường sẽ cần đón nhận lấy sự hỗn độn khi chúng ta tăng quy mô. Người ta thấy một sự thay đổi tương tự về tầm quan trọng của việc có nhiều dữ liệu hơn, liên quan tới những cải tiến khác trong điện toán. Mọi người đều biết sức mạnh xử lý đã tăng lên ra sao trong những năm qua như dự đoán của Định luật Moore, phát biểu rằng số lượng bán dẫn trên một chip tăng gấp đôi khoảng mỗi hai năm. Sự cải tiến liên tục này đã làm máy tính nhanh hơn và bộ nhớ phong phú hơn. Ít người trong chúng ta biết rằng hiệu suất của các thuật toán điều khiển nhiều hệ thống của chúng ta cũng đã tăng lên - trong nhiều lĩnh vực, với mức tăng còn hơn cả mức cải thiện của các bộ xử lý theo Định luật Moore. Tuy nhiên, nhiều lợi ích cho xã hội từ dữ liệu lớn lại xảy ra không phải vì các chip nhanh hơn hay vì các thuật toán tốt hơn, mà vì có nhiều dữ liệu hơn. Ví dụ, các thuật toán chơi cờ chỉ thay đổi chút ít trong vài thập kỷ qua, bởi các quy tắc của cờ vua đã được biết đầy đủ và bị giới hạn một cách chặt chẽ. Lý do các chương trình cờ vua ngày nay chơi tốt hơn trước đây rất nhiều là một phần bởi chúng chơi cờ tàn tốt hơn. Và chúng làm được điều đó đơn giản chỉ vì các hệ thống được cung cấp nhiều dữ liệu hơn. Thực tế, cờ tàn với sáu hoặc ít quân hơn còn lại trên bàn cờ đã được phân tích một cách hoàn toàn đầy đủ và tất cả các bước đi có thể (N = tất cả) đã được thể hiện trong một bảng lớn, khi không nén sẽ lấp đầy hơn một tera byte dữ liệu. Điều này cho phép các máy tính có thể chơi cờ tàn một cách hoàn hảo. Không bao giờ con người có thể chơi thắng được hệ thống. Ý nghĩa của lập luận rằng “có nhiều dữ liệu hơn sẽ hiệu quả hơn việc có các thuật toán tốt hơn” đã được thể hiện mạnh mẽ trong lĩnh vực xử lý ngôn ngữ tự nhiên: cách các máy tính học phân tích cú pháp các từ như chúng ta sử dụng chúng trong giao tiếp hàng ngày. Khoảng năm 2000, các nhà nghiên cứu Michele Banko và Eric Brill của Microsoft tìm kiếm một phương pháp để cải thiện bộ kiểm tra ngữ pháp, một thành phần của chương trình Microsoft Word. Họ không chắc liệu sẽ hữu ích hơn nếu dành nỗ lực của mình vào việc cải thiện các thuật toán sẵn có, hay tìm kiếm các kỹ thuật mới, hay bổ sung thêm những tính năng phức tạp hơn. Trước khi đi theo bất kỳ con đường nào, họ quyết định xem xét những gì sẽ xảy ra khi họ cung cấp thêm rất nhiều dữ liệu cho các phương pháp hiện có. Hầu hết các thuật toán học tập của máy dựa trên những tập sao lục văn bản đạt tới một triệu từ hoặc ít hơn. Banko và Brill lấy bốn thuật toán thông thường và cung cấp nhiều dữ liệu hơn ở ba cấp độ khác nhau: 10 triệu từ, sau đó 100 triệu, và cuối cùng là 1 tỷ từ. Kết quả thật đáng kinh ngạc. Khi có nhiều dữ liệu đi vào, hiệu suất của tất cả bốn loại thuật toán đều được cải thiện một cách đáng kể. Trong thực tế, một thuật toán đơn giản hoạt động kém hiệu quả nhất với một nửa triệu từ lại hoạt động tốt hơn những thuật toán khác khi có một tỷ từ. Độ chính xác của nó đã tăng từ 75 phần trăm lên trên 95 phần trăm. Ngược lại, thuật toán làm việc tốt nhất với ít dữ liệu lại hoạt động kém nhất với lượng dữ liệu lớn hơn, mặc dù cũng giống như những thuật toán khác nó được cải thiện rất nhiều, tăng từ khoảng 86 phần trăm lên 94 phần trăm chính xác. “Những kết quả này cho thấy chúng ta có thể nên xem xét lại sự cân bằng giữa việc tiêu tốn thời gian và tiền bạc vào phát triển thuật toán so với việc chi tiêu vào phát triển ngữ liệu”, Banko và Brill đã viết trong một tài liệu nghiên cứu của họ về chủ đề này. Vậy là nhiều hơn đã thắng ít hơn. Và đôi khi nhiều hơn còn thắng cả thông minh hơn. Còn sự hỗn độn thì sao? Một vài năm sau khi Banko và Brill đào bới tất cả những dữ liệu này, các nhà nghiên cứu đối thủ Google đã suy nghĩ dọc theo dòng tương tự - nhưng với quy mô lớn hơn. Thay vì thử các thuật toán với một tỷ từ, họ đã sử dụng một ngàn tỷ từ. Google làm điều này không phải để phát triển một bộ kiểm tra ngữ pháp, nhưng để giải quyết một trở ngại thậm chí còn phức tạp hơn: dịch thuật. Cái gọi là dịch máy đã ở trong tầm nhìn của những nhà tiên phong máy tính ngay từ buổi bình minh của tính toán trong những năm 1940, khi các thiết bị được làm bằng đèn chân không và chứa đầy cả một căn phòng. Ý tưởng được nâng lên thành cấp bách đặc biệt trong Chiến tranh Lạnh, khi Hoa Kỳ thu được một lượng lớn tư liệu viết và nói tiếng Nga nhưng thiếu nhân lực để dịch nó một cách nhanh chóng. Lúc đầu, các nhà khoa học máy tính đã lựa chọn một sự kết hợp của các quy tắc ngữ pháp và một từ điển song ngữ. Một máy tính IBM đã dịch sáu mươi câu từ tiếng Nga sang tiếng Anh vào năm 1954, sử dụng 250 cặp từ trong từ vựng của máy tính và sáu quy tắc ngữ pháp. Kết quả rất hứa hẹn. “Mi pyeryedayem mislyỉ posryedstvom ryechyi”, được nhập vào máy IBM 701 qua bìa đục lỗ, và đầu ra có “Chúng tôi truyền suy nghĩ bằng lời nói”. Sáu mươi câu đã được “dịch trơn tru”, theo một thông cáo báo chí của IBM kỷ niệm sự kiện này. Giám đốc chương trình nghiên cứu, Leon Dostert của Đại học Georgetown, dự đoán rằng dịch máy sẽ trở thành “thực tế” trong “năm, hay có thể là ba năm nữa”. Nhưng thành công ban đầu hóa ra lại tạo một sự hiểu lầm khá sâu sắc. Đến năm 1966 một ủy ban của các đại thụ trong làng dịch máy đã phải thừa nhận thất bại. Vấn đề khó hơn họ tưởng. Dạy máy tính dịch là dạy chúng không chỉ các quy tắc, mà cả các trường hợp ngoại lệ nữa. Dịch không chỉ là ghi nhớ và nhớ lại, nó là về việc chọn những từ thích hợp từ nhiều lựa chọn thay thế. Liệu “bonjour” có thực sự là “chào buổi sáng”? Hay đó là “ngày tốt”, hay “xin chào”, hay “hi”? Câu trả lời là “còn tùy”. Cuối những năm 1980, các nhà nghiên cứu tại IBM đã có một ý tưởng mới lạ. Thay vì cố gắng nạp những quy tắc ngôn ngữ rõ ràng vào máy tính cùng với một từ điển, họ đã quyết định để cho máy tính sử dụng xác suất thống kê để tính toán xem từ hoặc câu nào trong một ngôn ngữ là thích hợp nhất với từ hoặc câu trong một ngôn ngữ khác. Trong những năm 1990 dự án Candide của IBM đã sử dụng các văn bản quốc hội Canada công bố bằng tiếng Pháp và tiếng Anh trong vòng mười năm - khoảng ba triệu cặp câu. Do chúng là văn bản chính thức, nên các bản dịch đã được thực hiện với chất lượng đặc biệt cao. Và theo các tiêu chuẩn lúc đó, số lượng dữ liệu là rất lớn. Dịch máy thống kê, như kỹ thuật này được biết đến, đã khéo léo biến những thách thức của dịch thuật thành một bài toán lớn của toán học. Và nó dường như thành công. Đột nhiên, dịch máy trở thành tốt hơn rất nhiều. Tuy nhiên, sau thành công của bước nhảy vọt về khái niệm, IBM chỉ thu được những cải thiện nhỏ mặc dù phải ném ra rất nhiều tiền. Cuối cùng IBM đã dừng dự án. Nhưng chưa đầy một thập kỷ sau đó, vào năm 2006, Google đã nhảy vào dịch thuật, như một phần của nhiệm vụ “tổ chức thông tin của thế giới và làm cho chúng trở thành có thể tiếp cận được và hữu ích một cách phổ dụng”. Thay vì dịch các trang văn bản thành hai ngôn ngữ, Google tự giúp mình với một bộ dữ liệu lớn hơn nhưng cũng hỗn độn hơn nhiều: toàn bộ mạng Internet toàn cầu và nhiều hơn nữa. Hệ thống của Google đã thu lượm bất kể bản dịch nào có thể tìm thấy, để huấn luyện máy tính. Chúng bao gồm các trang web của các công ty viết ở nhiều ngôn ngữ khác nhau, các bản dịch đồng nhất của các văn bản chính thức, và các báo cáo của các tổ chức liên chính phủ như Liên hợp quốc và Liên minh châu Âu. Thậm chí các bản dịch sách từ dự án sách của Google cũng được thu nhận. Trong khi Candide sử dụng ba triệu câu được dịch một cách cẩn thận, thì hệ thống của Google khai thác hàng tỷ trang các bản dịch rất khác nhau về chất lượng, theo người đứng đầu của Google Translate, Franz Josef Och, một trong những chuyên gia uy tín nhất trong lĩnh vực này. Hàng nghìn tỷ từ đã được chuyển thành 95 tỷ câu tiếng Anh, mặc dù chất lượng không rõ ràng. Bất chấp sự hỗn độn của đầu vào, dịch vụ của Google hoạt động tốt nhất. Các bản dịch của nó là chính xác hơn so với của các hệ thống khác (mặc dù vẫn còn kém). Và nó phong phú hơn rất nhiều. Vào giữa năm 2012 bộ dữ liệu của nó bao gồm hơn 60 ngôn ngữ. Nó thậm chí có thể chấp nhận nhập văn bản vào bằng giọng nói trong 14 ngôn ngữ để dịch. Và vì nó xử lý ngôn ngữ đơn giản như là dữ liệu hỗn độn để đánh giá xác suất, nó thậm chí có thể dịch giữa các ngôn ngữ, chẳng hạn như giữa tiếng Hindi và Catalan, mà trong đó có rất ít bản dịch trực tiếp để phát triển hệ thống. Trong những trường hợp này, nó sử dụng tiếng Anh như một cầu nối. Và nó linh hoạt hơn nhiều so với những cách tiếp cận khác, vì nó có thể thêm và bớt các từ qua kinh nghiệm chúng được hay không được sử dụng. Lý do hệ thống dịch thuật của Google hoạt động tốt không phải vì nó có một thuật toán thông minh hơn. Nó hoạt động tốt bởi vì tác giả của nó, như Banko và Brill tại Microsoft, nạp vào nhiều dữ liệu hơn - và không chỉ dữ liệu chất lượng cao. Google đã có thể sử dụng một bộ dữ liệu hàng chục ngàn lần lớn hơn hơn Candide của IBM vì nó chấp nhận sự hỗn độn. Cả nghìn tỷ ngữ liệu Google phát hành năm 2006 được biên soạn từ đủ thứ, kể cả đồ tạp nham và đồ bỏ đi của Internet - có thể nói là “dữ liệu thượng vàng hạ cám”. Đây là các “tập huấn luyện” để hệ thống có thể tính toán xác suất, ví dụ một từ trong tiếng Anh đi tiếp sau một từ khác. Đó là một mong ước xa vời của ông tổ trong lĩnh vực này, dự án Brown Corpus nổi tiếng vào những năm 1960, đã tập hợp được tổng cộng một triệu từ tiếng Anh. Việc sử dụng bộ dữ liệu lớn hơn cho phép những bước tiến lớn trong xử lý ngôn ngữ tự nhiên, mà các hệ thống nhận dạng tiếng nói và dịch máy dựa vào. “Mô hình đơn giản và rất nhiều dữ liệu thắng thế những mô hình phức tạp hơn nhưng dựa trên ít dữ liệu hơn”, chuyên gia trí tuệ nhân tạo của Google, Peter Norvig và các đồng nghiệp đã viết như vậy trong một bài báo có tựa đề “Hiệu quả phi lý của dữ liệu” (“The Unreasonable effectiveness of Data”): “Có thể nói ngữ liệu này là một bước lùi từ Brown Corpus: nó được lấy từ các trang web chưa được hiệu đính và do đó chứa những câu chưa đầy đủ, lỗi chính tả, lỗi ngữ pháp, và tất cả các loại lỗi khác. Nó không được chú thích cẩn thận với những thẻ bài được chỉnh sửa. Nhưng việc nó lớn hơn một triệu lần so với Brown Corpus đã đủ bù đắp cho những hạn chế này”. Phim minh họa hệ thống GoogleTranslate Nhiều hơn thắng thế tốt hơn Hỗn độn rất khó được các nhà phân tích mẫu thông thường chấp nhận, vì họ là những người cả đời đã tập trung vào việc ngăn chặn và xóa bỏ sự hỗn độn. Họ làm việc chăm chỉ để giảm tỷ lệ lỗi khi thu thập mẫu, và để kiểm tra các mẫu nhằm loại bỏ các thành kiến tiềm ẩn trước khi công bố kết quả của mình. Họ sử dụng nhiều chiến lược giảm lỗi, trong đó có việc đảm bảo mẫu được thu thập theo một giao thức chính xác và bởi các chuyên gia được huấn luyện đặc biệt. Những chiến lược như vậy rất tốn kém khi thực hiện, ngay cả đối với số lượng hạn chế các điểm dữ liệu, và chúng hầu như không khả thi cho dữ liệu lớn. Không chỉ vì nó quá đắt, mà còn vì những tiêu chuẩn chính xác của việc tập hợp là khó có thể đạt được một cách nhất quán ở quy mô như vậy. Thậm chí loại bỏ sự tương tác của con người cũng sẽ không giải quyết được vấn đề. Di chuyển vào một thế giới của dữ liệu lớn sẽ đòi hỏi chúng ta thay đổi tư duy về giá trị của sự chính xác. Việc áp dụng tư duy thông thường của đo lường vào thế giới kỹ thuật số được kết nối của thế kỷ XXI đồng nghĩa với bỏ lỡ một điểm quan trọng. Như đã đề cập trước đây, nỗi ám ảnh với tính chính xác là một tạo tác của thời đại analog. Khi dữ liệu thưa thớt, mỗi điểm dữ liệu đều quan trọng, và do đó người ta thận trọng tránh để bất kỳ điểm dữ liệu nào gây sai lệch cho việc phân tích. Ngày nay chúng ta không còn sống trong tình trạng bị đói thông tin. Trong khi làm việc với các bộ dữ liệu ngày càng toàn diện hơn, không chỉ thâu tóm một mảnh nhỏ của hiện tượng mà nhiều hơn hoặc tất cả, chúng ta không cần lo lắng quá nhiều về việc các điểm dữ liệu riêng lẻ gây ra sai lệch cho phân tích tổng thể. Thay vì nhắm tới sự chính xác từng tí một với chi phí ngày càng cao, chúng ta đang tính toán với sự hỗn độn trong tâm thức. Hãy xem các cảm biến đã thâm nhập vào nhà máy như thế nào. Tại nhà máy lọc dầu Cherry Point ở Blaine, bang Washington, các bộ cảm biến không dây được cài đặt khắp nơi, tạo thành một lưới vô hình thu thập những lượng lớn dữ liệu trong thời gian thực. Môi trường nhiệt độ cao và máy móc điện tử có thể làm sai lệch các phép đọc, dẫn tới dữ liệu lộn xộn. Nhưng lượng thông tin khổng lồ được tạo ra từ các cảm biến, cả có dây và không dây, sẽ dung hòa cho những trục trặc này. Chỉ cần tăng tần số và số địa điểm đọc cảm biến là có thể thu được lợi thế lớn. Bằng cách đo sức căng trên đường ống ở tất cả các thời điểm chứ không phải chỉ tại những khoảng thời gian nhất định, BP biết được một số loại dầu thô ăn mòn nhiều hơn những loại khác - điều nó không thể phát hiện, và do đó không thể chống lại, khi bộ dữ liệu nhỏ hơn. Khi số lượng dữ liệu lớn hơn nhiều và là một loại mới, độ chính xác trong một số trường hợp không còn là mục tiêu, miễn là chúng ta có thể thấy được xu hướng chung. Việc chuyển sang một quy mô lớn làm thay đổi không chỉ sự mong đợi về độ chính xác mà cả khả năng thực tế để đạt được sự chính xác. Dù nó có vẻ phản lại trực giác lúc đầu, việc xử lý dữ liệu như một cái gì đó không hoàn hảo và không chính xác cho phép chúng ta đưa ra dự báo tốt hơn, và do đó hiểu biết thế giới của chúng ta tốt hơn. Nên lưu ý rằng hỗn độn không phải là đặc tính vốn có của dữ liệu lớn. Thay vào đó, nó là một chức năng của sự không hoàn hảo của các công cụ chúng ta sử dụng để đo lường, ghi nhận và phân tích thông tin. Nếu công nghệ bằng cách nào đó trở nên hoàn hảo, thì vấn đề của sự không chính xác sẽ biến mất. Nhưng một khi nó còn là không hoàn hảo, thì sự hỗn độn là một thực tế mà chúng ta phải đối mặt. Và nhiều khả năng nó sẽ còn tồn tại với chúng ta trong một thời gian dài. Nỗ lực để tăng độ chính xác thường sẽ không có ý nghĩa kinh tế, bởi giá trị của việc có những lượng dữ liệu lớn hơn sẽ hấp dẫn hơn. Giống như các nhà thống kê trong kỷ nguyên trước đây đã gạt sang một bên mối quan tâm của họ tới những kích thước mẫu lớn hơn, để ủng hộ sự ngẫu nhiên hơn, chúng ta có thể sống với một chút không chính xác để đổi lấy nhiều dữ liệu hơn. Dự án Billion Prices cung cấp một trường hợp khá hấp dẫn. Mỗi tháng Cục Thống kê Lao động Mỹ công bố chỉ số giá tiêu dùng, hay CPI, được sử dụng để tính toán tỷ lệ lạm phát. Chỉ số liệu này là rất quan trọng cho các nhà đầu tư và doanh nghiệp. Cục Dự trữ Liên bang xem xét nó khi quyết định nên tăng hoặc giảm lãi suất. Lương cơ bản của các công ty tăng khi có lạm phát. Chính phủ liên bang sử dụng nó để điều chỉnh khoản thanh toán như trợ cấp an sinh xã hội và lãi suất trả cho những trái phiếu nhất định. Để có được chỉ số này, Cục Thống kê Lao động sử dụng hàng trăm nhân viên để gọi điện, gửi fax, ghé thăm các cửa hàng và văn phòng tại 90 thành phố trên toàn quốc và báo cáo lại khoảng 80.000 mức giá về tất cả mọi thứ từ giá cà chua tới giá đi taxi. Để có nó, người ta phải chi ra khoảng 250 triệu USD một năm. Với số tiền này, dữ liệu được gọn gàng, sạch sẽ và trật tự. Nhưng tại thời điểm các con số được công bố, chúng đã chậm mất vài tuần. Như cuộc khủng hoảng tài chính năm 2008 cho thấy, một vài tuần có thể là một sự chậm trễ khủng khiếp. Những người ra quyết định cần truy cập nhanh hơn đến các số liệu lạm phát để ứng phó với nó tốt hơn, nhưng họ không thể nhận được chúng với những phương pháp thông thường tập trung vào lấy mẫu và coi trọng sự chính xác. Để đáp lại, hai nhà kinh tế tại Viện Công nghệ Massachusetts, Alberto Cavallo và Roberto Rigobon, đã tạo ra một phương pháp thay thế liên quan đến dữ-liệu-lớn, bằng cách đi theo một con đường hỗn độn hơn nhiều. Sử dụng phần mềm để thu thập dữ liệu web, họ đã có được nửa triệu giá của các sản phẩm được bán ở Mỹ mỗi ngày. Các thông tin là lộn xộn, và không phải tất cả các điểm dữ liệu thu thập được đều có thể dễ dàng so sánh với nhau. Nhưng bằng cách kết hợp bộ sưu tập dữ-liệu-lớn với phân tích thông minh, dự án đã có thể phát hiện một dao động giảm phát trong giá ngay sau khi ngân hàng Lehman Brothers đệ đơn xin phá sản vào tháng 9 năm 2008, trong khi những nơi phụ thuộc vào số liệu CPI chính thức đã phải chờ tới tháng Mười Một để nhìn thấy nó. Dự án của MIT sau này đã tách ra thành một công ty thương mại gọi là PriceStats được các ngân hàng và những công ty khác sử dụng để đưa ra những quyết định kinh tế. Nó xử lý hàng triệu sản phẩm bán ra của hàng trăm nhà bán lẻ trong hơn 70 quốc gia mỗi ngày. Tất nhiên, các con số đòi hỏi phải có sự giải thích cẩn thận, nhưng chúng tốt hơn so với số liệu thống kê chính thức trong việc chỉ ra xu hướng lạm phát. Bởi vì có nhiều giá và các con số có sẵn trong thời gian thực, chúng cung cấp cho người ra quyết định một lợi thế đáng kể. (Phương pháp này cũng đóng vai trò như một cách kiểm tra bên ngoài đáng tin cậy đối với các cơ quan thống kê quốc gia. Ví dụ, The Economist nghi ngờ phương pháp tính lạm phát của Argentina, vì vậy đã dùng các số liệu của PriceStats để thay thế.) Áp dụng sự hỗn độn Trong nhiều lĩnh vực công nghệ và xã hội, chúng ta đang nghiêng về ủng hộ sự nhiều hơn và sự hỗn độn chứ không phải sự ít hơn và sự chính xác. Hãy xem xét trường hợp của việc phân loại nội dung. Trong nhiều thế kỷ con người đã phát triển các nguyên tắc phân loại và chỉ số để lưu trữ và tìm kiếm tài liệu. Những hệ thống phân cấp này đã luôn luôn không hoàn hảo, như những ai từng quen thuộc với danh mục thẻ thư viện đều có thể đau đớn nhớ lại. Trong một thế giới dữ-liệu-nhỏ thì chúng hoạt động đủ tốt. Tuy nhiên khi tăng quy mô lên nhiều cấp độ, những hệ thống này, được cho là sắp xếp vị trí mọi thứ bên trong rất hoàn hảo, lại sụp đổ. Ví dụ, trong năm 2011 trang web chia sẻ hình ảnh Flickr có chứa hơn 6 tỷ hình ảnh từ hơn 75 triệu người sử dụng. Việc cố gắng gán nhãn cho từng bức ảnh theo những thể loại định trước đã tỏ ra vô ích. Liệu đã thực sự có một thể loại mang tên “Mèo trông giống như Hitler”? Thay vào đó, nguyên tắc phân loại sạch được thay thế bằng cơ chế hỗn độn hơn nhưng linh hoạt hơn và dễ thích nghi hơn một cách xuất sắc với một thế giới luôn tiến hóa và thay đổi. Khi tải ảnh lên Flickr, chúng ta “gán thẻ (tag)” cho chúng. Có nghĩa là chúng ta gán một số bất kỳ các nhãn văn bản và sử dụng chúng để tổ chức và tìm kiếm các tư liệu. Thẻ được tạo ra và gán một cách đặc biệt: không có những danh mục tiêu chuẩn hóa, được định trước, không có phân loại sẵn để chúng ta phải tuân thủ. Thay vào đó, bất cứ ai cũng đều có thể thêm các thẻ mới bằng cách gõ chúng vào. Gắn thẻ đã nổi lên như tiêu chuẩn thực tế để phân loại nội dung trên Internet, được sử dụng trên các trang mạng xã hội như Twitter, các blog... Nó làm cho người sử dụng dễ dàng di chuyển hơn trong sự bao la của nội dung các trang web - đặc biệt là cho những thứ như hình ảnh, phim, và âm nhạc không dựa trên văn bản nên việc tìm kiếm bằng từ không thể hoạt động được. Tất nhiên, một số thẻ có thể bị viết sai chính tả, và những lỗi như vậy sẽ tạo ra sự không chính xác - không chỉ đối với chính dữ liệu, mà còn đối với việc chúng được tổ chức ra sao. Điều đó làm tổn thương tư duy truyền thống được rèn luyện trong sự chính xác. Nhưng bù lại cho sự hỗn độn trong cách chúng ta tổ chức các bộ sưu tập ảnh, chúng ta có được một vũ trụ phong phú hơn nhiều của các nhãn mác, và mở rộng ra, là một sự truy cập sâu hơn, rộng hơn tới các ảnh của chúng ta. Chúng ta có thể phối hợp các thẻ tìm kiếm để lọc các bức ảnh theo những cách không thể làm được trước đây. Sự thiếu chính xác vốn có trong gắn thẻ liên quan tới việc chấp nhận sự hỗn độn tự nhiên của thế giới. Nó là món thuốc giải độc cho các hệ thống chính xác hơn, vốn cố áp đặt tính tinh khiết sai lầm lên sự náo nhiệt của thực tế, giả vờ rằng tất cả mọi thứ dưới ánh mặt trời đều có thể được xếp ngay ngắn theo hàng và cột. Có nhiều thứ trên thiên đường và mặt đất hơn là những gì được mơ ước trong triết lý đó. Nhiều trong số các trang web phổ biến nhất đã thể hiện rõ sự ưa thích tính thiếu chính xác hơn là sự kỳ vọng vào tính nghiêm cẩn. Khi người ta thấy một biểu tượng Twitter hay một nút “like” Facebook trên một trang web, nó cho thấy số lượng người đã nhấp chuột vào đó. Khi số lượng là nhỏ, mỗi cú nhấp chuột đều được hiển thị, như “63”. Tuy nhiên, khi số lượng lớn lên, con số được hiển thị chỉ là một kiểu ước lượng, như “4K”. Nó không có nghĩa là hệ thống không biết tổng số thực tế, mà chỉ vì khi quy mô tăng, thì việc cho thấy con số chính xác là ít quan trọng hơn. Bên cạnh đó, số lượng có thể thay đổi nhanh đến mức một con số cụ thể sẽ trở thành lạc hậu ngay vào thời điểm nó xuất hiện. Tương tự như vậy, Gmail của Google hiển thị thời gian của các tin nhắn mới nhất với độ chính xác cao, chẳng hạn như “11 phút trước”, nhưng với những thời lượng dài hơn thì nó tỏ ra thờ ơ, chẳng hạn như “2 giờ trước”, cũng giống như Facebook và một số hệ thống khác. Ngành công nghiệp tình báo kinh doanh và phần mềm phân tích từ lâu đã được xây dựng trên cơ sở hứa hẹn với khách hàng “một phiên bản duy nhất của sự thật” - lời đồn đại phổ biến của những năm 2000 từ các nhà cung cấp công nghệ trong lĩnh vực này. Các giám đốc điều hành đã sử dụng câu này không phải với sự mỉa mai. Và một số người vẫn còn làm như vậy. Bằng cách này, họ cho rằng tất cả những ai truy cập các hệ thống công nghệ thông tin của công ty đều có thể thâm nhập vào cùng một dữ liệu; như vậy nhóm tiếp thị và nhóm bán hàng không cần phải tranh cãi xem ai có số liệu chính xác về khách hàng hay doanh số trước khi cuộc họp thậm chí bắt đầu. Mối bận tâm của họ có thể trở nên hòa hợp hơn nếu các số liệu và sự kiện là nhất quán - kiểu tư duy này cứ tiếp diễn như vậy. Nhưng ý tưởng về “một phiên bản duy nhất của sự thật” là một yếu tố dễ dàng trở mặt. Chúng ta đang bắt đầu nhận thấy một phiên bản duy nhất của sự thật chẳng những không thể tồn tại, mà việc theo đuổi nó là một sự điên rồ. Để gặt hái những lợi ích của việc khai thác dữ liệu với quy mô, chúng ta phải chấp nhận sự hỗn độn như một điều hiển nhiên, chứ không phải một cái gì đó chúng ta nên cố gắng loại bỏ. Thậm chí chúng ta đang nhìn thấy những đặc tính của sự không chính xác xâm nhập vào một trong những lĩnh vực ít cỏi mở nhất đối với nó: thiết kế cơ sở dữ liệu. Các hệ thống cơ sở dữ liệu truyền thống đòi hỏi dữ liệu phải có cấu trúc và tính chính xác rất cao. Dữ liệu không chỉ đơn giản được lưu trữ, chúng được chia thành “bản ghi” có chứa các trường. Mỗi trường lưu trữ thông tin với một kiểu và một độ dài nhất định. Ví dụ nếu một trường có độ dài bảy chữ số, khi đó số lượng 10 triệu hoặc lớn hơn sẽ không thể ghi lại được. Hoặc nếu muốn nhập cụm từ “không xác định” vào một trường cho số điện thoại cũng không thể được. Cấu trúc của cơ sở dữ liệu phải được thay đổi để có thể chấp nhận những mục kiểu này. Chúng ta vẫn phải đánh vật với những hạn chế như vậy trên máy tính và điện thoại thông minh của mình, khi phần mềm không chấp nhận các dữ liệu chúng ta muốn nhập. Các chỉ số truyền thống cũng được xác định trước, và như vậy hạn chế những gì người ta có thể tìm kiếm. Khi thêm một chỉ số mới thì phải tạo lập lại từ đầu, rất tốn thời gian. Những cơ sở dữ liệu thông thường, còn gọi là cơ sở dữ liệu quan hệ, được thiết kế cho một thế giới trong đó dữ liệu là thưa thót, và do đó có thể và sẽ được sửa chữa cẩn thận. Đó là một thế giới mà các câu hỏi người ta muốn trả lời bằng cách sử dụng dữ liệu phải rõ ràng ngay từ đầu, để cơ sở dữ liệu được thiết kế nhằm trả lời chúng - và chỉ có chúng - một cách hiệu quả. Tuy nhiên, quan điểm này của lưu trữ và phân tích ngày càng mâu thuẫn với thực tế. Ngày nay chúng ta có những lượng lớn dữ liệu với các loại và chất lượng khác nhau. Hiếm khi nó phù hợp với những phân loại được xác định trước một cách quy củ. Và các câu hỏi chúng ta muốn hỏi thường chỉ xuất hiện khi chúng ta thu thập và làm việc với các dữ liệu mình có. Những thực tế này đã dẫn đến những thiết kế cơ sở dữ liệu mới mẻ phá vỡ các nguyên tắc cũ - những nguyên tắc của bản ghi và các trường được thiết đặt trước, phản ánh những phân cấp được xác định một cách quy củ của thông tin. Ngôn ngữ phổ biến nhất để truy cập cơ sở dữ liệu từ lâu đã là SQL, hoặc “ngôn ngữ truy vấn có cấu trúc”. Cái tên gợi lên sự cứng nhắc của nó. Nhưng sự thay đổi lớn trong những năm gần đây là hướng tới một cái gì đó gọi là NoSQL, không đòi hỏi một cấu trúc bản ghi cài đặt sẵn để làm việc. Nó chấp nhận dữ liệu với kiểu và kích thước khác nhau và giúp tìm kiếm chúng thành công. Để đổi lại việc cho phép sự hỗn độn về cấu trúc, những thiết kế cơ sở dữ liệu này đòi hỏi nhiều tài nguyên xử lý và dung lượng lưu trữ hơn. Tuy nhiên, đó là một sự cân bằng mà chúng ta có thể kham nổi, trên cơ sở chi phí cho lưu trữ và xử lý đã giảm mạnh. Pat Helland, một trong những chuyên gia hàng đầu thế giới về thiết kế cơ sở dữ liệu, mô tả sự thay đổi cơ bản này trong một bài báo có tựa đề “Nếu bạn có quá nhiều dữ liệu, thì ‘đủ tốt’ là đủ tốt” (“if You Have Too Much Data, Then ‘Good enough’ is Good enough.”). Sau khi xác định một số nguyên tắc cốt lõi của thiết kế truyền thống mà nay đã bị xói mòn bởi dữ liệu lộn xộn với nguồn gốc và độ chính xác khác nhau, ông đưa ra các hệ quả: “Chúng ta không còn có thể giả vờ rằng mình đang sống trong một thế giới sạch”. Việc xử lý dữ liệu lớn đòi hỏi một sự mất mát thông tin không thể tránh khỏi - Helland gọi đó là “tổn hao”. Nhưng bù lại, nó cho ra một kết quả nhanh chóng. “Nếu chúng ta bị tổn hao một số câu trả lời cũng không sao - đó vẫn luôn là những gì việc kinh doanh cần”, Helland kết luận. Thiết kế cơ sở dữ liệu truyền thống hứa hẹn sẽ cung cấp những kết quả luôn luôn nhất quán. Ví dụ nếu yêu cầu số dư tài khoản ngân hàng, bạn trông đợi sẽ nhận được con số chính xác. Và nếu yêu cầu nó một vài giây sau đó, bạn muốn hệ thống đưa ra cùng kết quả, với giả thuyết là không có thay đổi gì. Tuy nhiên, khi lượng dữ liệu thu thập phát triển và lượng người truy cập hệ thống tăng lên thì việc duy trì sự nhất quán này trở nên khó khăn hơn. Các bộ dữ liệu lớn không tồn tại ở một nơi, chúng có xu hướng được phân bổ trên nhiều ổ đĩa cứng và máy tính. Để đảm bảo độ tin cậy và tốc độ, một bản ghi có thể được lưu trữ ở hai hoặc ba địa điểm khác nhau. Nếu bạn cập nhật bản ghi tại một địa điểm, dữ liệu ở các địa điểm khác sẽ không còn đúng nữa cho đến khi bạn cũng cập nhật nó. Trong khi các hệ thống truyền thống có một độ trễ để thực hiện tất cả các cập nhật, thì điều này không thực tế với dữ liệu được phân bổ rộng rãi và máy chủ phải bận rộn với hàng chục ngàn truy vấn mỗi giây. Khi đó, việc chấp nhận tính hỗn độn chính là một dạng giải pháp. Sự thay đổi này được đặc trưng bởi sự phổ biến của Hadoop, một đối thủ mã nguồn mở của hệ thống MapReduce của Google, rất tốt khi xử lý những lượng lớn dữ liệu. Nó thực hiện điều này bằng cách chia dữ liệu thành những phần nhỏ hơn và chia chúng ra cho các máy khác. Vì dự kiến phần cứng sẽ hỏng hóc, nên nó tạo ra sự dư thừa. Nó đặt giả thuyết dữ liệu không được sạch sẽ và trật tự - trong thực tế, nó cho rằng dữ liệu là quá lớn để được làm sạch trước khi xử lý. Mặc dù việc phân tích dữ liệu điển hình đòi hỏi một chuỗi thao tác được gọi là “trích xuất, chuyển giao, và tải”, hoặc ETL (extract, transfer, and load) để chuyển dữ liệu đến nơi nó sẽ được phân tích, Hadoop bỏ qua những chi tiết như vậy. Thay vào đó, nó nghiễm nhiên chấp nhận rằng lượng dữ liệu là quá lớn nên không thể di chuyển và phải được phân tích ngay tại chỗ. Đầu ra của Hadoop không chính xác bằng của các cơ sở dữ liệu quan hệ: nó không đáng tin để có thể dùng cho việc khởi động một con tàu vũ trụ hoặc xác nhận các chi tiết tài khoản ngân hàng. Nhưng đối với nhiều công việc ít quan trọng hơn, khi một câu trả lời cực kỳ chính xác là không cần thiết, thì nó thực hiện thủ thuật nhanh hơn rất nhiều so với các hệ thống khác. Hãy nghĩ tới những công việc như phân chia một danh sách khách hàng để gửi tới một số người một chiến dịch tiếp thị đặc biệt. Sử dụng Hadoop, công ty thẻ tín dụng Visa đã có thể giảm thời gian xử lý hồ sơ kiểm tra của hai năm, khoảng 73 tỷ giao dịch, từ một tháng xuống chỉ còn 13 phút. Việc tăng tốc xử lý như vậy là mang tính đột phá đối với các doanh nghiệp. Kinh nghiệm của ZestFinance, một công ty được thành lập bởi cựu giám đốc thông tin của Google, Douglas Merrill, nhấn mạnh điểm này. Công nghệ của nó giúp người cho vay quyết định có hay không cung cấp những khoản vay ngắn hạn tương đối nhỏ cho những người có vẻ như có điểm tín dụng kém. Tuy nhiên, trong khi điểm tín dụng truyền thống là chỉ dựa trên một số ít tín hiệu mạnh như các thanh toán chậm trước đây, thì ZestFinance phân tích một số lượng lớn các biến “yếu kém”. Trong năm 2012, nó đã tự hào đưa ra một tỷ giá mặc định cho các khoản vay, một phần ba ít hơn so với mức trung bình trong ngành. Nhưng cách duy nhất để làm cho hệ thống hoạt động là chấp nhận sự hỗn độn. “Một trong những điều thú vị”, Merrill nói,“là không có ai mà tất cả các trường thông tin đều được điền đủ. Luôn luôn có một số lượng lớn dữ liệu bị thiếu”. Ma trận thông tin do ZestFinance tập hợp là vô cùng tản mạn, một tập tin cơ sở dữ liệu đầy ắp những trường bị thiếu. Vì vậy, công ty “quy trách nhiệm” cho các dữ liệu bị thiếu. Ví dụ khoảng 10 phần trăm khách hàng của ZestFinance được liệt kê là đã chết - nhưng hóa ra điều đó chẳng ảnh hưởng đến việc trả nợ. “Vì vậy, rõ ràng là khi chuẩn bị hủy diệt những thây ma, hầu hết mọi người cho rằng không có khoản nợ nào sẽ được hoàn trả. Nhưng từ dữ liệu của chúng tôi, có vẻ như các thây ma đều trả lại khoản vay của mình”, Merrill lém lỉnh kể tiếp. Đổi lại việc sống chung với sự hỗn độn, chúng ta có được những dịch vụ rất có giá trị, những thứ lẽ ra không thể có ở phạm vi và quy mô của chúng với những phương pháp và công cụ truyền thống. Theo một số ước tính thì chỉ 5 phần trăm của tất cả dữ liệu kỹ thuật số là “có cấu trúc” - nghĩa là ở dạng thích hợp để đưa vào một cơ sở dữ liệu truyền thống. Nếu không chấp nhận sự hỗn độn thì 95 phần trăm còn lại của dữ liệu phi cấu trúc, chẳng hạn các trang web và phim, sẽ hoàn toàn ở trong bóng tối. Bằng cách cho phép sự không chính xác, chúng ta mở cửa vào một thế giới đầy những hiểu biết chưa được khai thác. Xã hội đã thực hiện hai sự đánh đổi ngấm ngầm đã trở nên quen thuộc trong cách chúng ta ứng xử đến nỗi ta thậm chí không xem chúng như những sự đánh đổi, mà chỉ như trạng thái tự nhiên của sự vật. Thứ nhất, chúng ta cho rằng mình không thể sử dụng được thật nhiều dữ liệu, vì vậy chúng ta không sử dụng. Nhưng sự hạn chế đó ngày càng mất đi ý nghĩa, và có rất nhiều thứ có thể đạt được nếu sử dụng một cái gì đó tiệm cận N = tất cả. Sự đánh đổi thứ hai là về chất lượng của thông tin. Trong kỷ nguyên của dữ liệu nhỏ, khi chúng ta chỉ thu thập được một ít thông tin thì tính chính xác của nó phải là cao nhất có thể. Điều đó hợp lý. Trong nhiều trường hợp, điều này vẫn còn cần thiết. Nhưng đối với nhiều thứ khác, sự chính xác nghiêm ngặt ít quan trọng hơn việc nắm bắt được nhanh chóng những nét đại cương hay bước tiến triển theo thời gian của chúng. Cách chúng ta nghĩ về việc sử dụng toàn bộ các thông tin so với những mảnh nhỏ của nó, và cách chúng ta có thể đi đến đánh giá cao sự lỏng lẻo thay vì tính chính xác, sẽ có những ảnh hưởng sâu sắc lên tương tác của chúng ta với thế giới. Khi kỹ thuật dữ liệu-lớn trở thành một phần thường lệ của cuộc sống hàng ngày, chúng ta với tư cách một xã hội có thể bắt đầu cố gắng hiểu thế giới từ một góc nhìn lớn hơn, toàn diện hơn nhiều so với trước đây, một kiểu N = tất cả. Chúng ta có thể chấp nhận vết mờ và sự không rõ ràng trong những lĩnh vực mà mình vẫn thường đòi hỏi sự rõ ràng và chắc chắn, ngay cả khi chúng chỉ là một sự rõ ràng giả tạo và một sự chắc chắn không hoàn hảo. Chúng ta có thể chấp nhận điều này với điều kiện đổi lại chúng ta có được một hiểu biết hoàn chỉnh hơn về thực tại - tương đương với một bức tranh trừu tượng, trong đó từng nét vẽ là lộn xộn nếu được xem xét thật gần, nhưng khi bước lùi lại, ta có thể thấy một bức tranh hùng vĩ. Dữ liệu lớn, với sự nhấn mạnh vào các bộ dữ liệu toàn diện và sự hỗn độn, giúp chúng ta tiến gần hơn tới thực tế so với sự phụ thuộc vào dữ liệu nhỏ và độ chính xác. Sự hấp dẫn của “một số” và “chắc chắn” là điều dễ hiểu. Hiểu biết của chúng ta về thế giới có thể đã không đầy đủ và đôi khi sai lầm khi chúng ta bị hạn chế trong những gì chúng ta có thể phân tích, nhưng có một điều khá chắc chắn là nó mang lại một sự ổn định đáng yên tâm. Bên cạnh đó, vì bị kìm hãm trong dữ liệu có thể thu thập và khảo sát, chúng ta đã không phải đối mặt với sự cưỡng bách để có được tất cả mọi thứ, để xem tất cả mọi thứ từ mọi góc độ có thể. Và trong giới hạn hẹp của dữ liệu nhỏ, chúng ta vẫn không có được bức tranh lớn hơn dù có thể tự hào về độ chính xác của mình - thậm chí bằng cách đo các chi tiết vụn vặt đến một phần n độ. Rốt cuộc, dữ liệu lớn có thể đòi hỏi chúng ta thay đổi, để trở nên thoải mái hơn với sự rối loạn và sự không chắc chắn. Các cấu trúc của sự chính xác, dù dường như cho chúng ta những ý nghĩa trong cuộc sống - kiểu như cái cọc tròn phải chui vào cái lỗ tròn; rằng chỉ có một câu trả lời cho một câu hỏi - lại dễ bị bóp méo hơn so với mức độ chúng ta có thể thừa nhận. Tuy nhiên sự thừa nhận, thậm chí đón nhận, tính linh hoạt này sẽ đưa chúng ta đến gần hơn với thực tế. Những thay đổi trong tư duy này là những chuyển đổi căn bản, chúng dẫn tới một sự thay đổi thứ ba có khả năng phá hủy một tập quán còn cơ bản hơn của xã hội: ý tưởng về việc hiểu được các lý do đằng sau tất cả những gì xảy ra. Thay vào đó, như chương tiếp theo sẽ giải thích, việc tìm được các mối liên kết trong dữ liệu và hành động dựa trên chúng thường có thể là đủ tốt rồi. 4. TƯƠNG QUAN Greg Linden ở tuổi 24 khi tạm nghỉ chương trình nghiên cứu tiến sĩ về trí tuệ nhân tạo tại Đại học Washington vào năm 1997, để làm việc tại một công ty bán sách trực tuyến của địa phương mới vừa thành lập. Công ty mới hoạt động hai năm nhưng đã là một doanh nghiệp phát đạt. “Tôi yêu thích ý tưởng bán sách và bán kiến thức - và giúp đỡ mọi người tìm thấy mẩu kiến thức kế tiếp mà họ muốn thưởng thức”, ông hồi tưởng. Cửa hàng đó là Amazon.com, và họ thuê Linden với tư cách một kỹ sư phần mềm để đảm bảo cho trang web chạy trơn tru. Amazon không chỉ có những chuyên gia kỹ thuật là nhân viên của mình. Vào thời điểm đó, họ cũng thuê hơn một chục nhà phê bình và biên tập viên để viết đánh giá và giới thiệu những cuốn sách mới. Mặc dù câu chuyện của Amazon quen thuộc với nhiều người, nhưng ít người còn nhớ nội dung của nó đã được chế tác bởi bàn tay con người. Các biên tập viên và nhà phê bình đánh giá và lựa chọn các cuốn sách được đưa lên các trang web của Amazon. Họ chịu trách nhiệm cho những gì được gọi là “Tiếng nói Amazon” - một trong những món trang sức vương giả và một nguồn lợi thế cạnh tranh của công ty. Một bài báo trên Wall StreetJournal vào thời điểm đó đã đón nhận chúng như những bài phê bình sách có ảnh hưởng nhất của quốc gia, bởi chúng đã tạo được rất nhiều doanh thu. Sau đó, Jeff Bezos, người sáng lập và Giám đốc điều hành của Amazon, bắt đầu thử nghiệm một ý tưởng có sức thuyết phục mạnh mẽ: Liệu công ty có thể giới thiệu những cuốn sách cụ thể cho khách hàng dựa trên những sở thích mua sắm riêng biệt của họ? Ngay từ đầu, Amazon đã thu được nhiều dữ liệu về các khách hàng: những gì họ mua, những cuốn sách nào họ chỉ nhìn nhưng không mua, và họ nhìn chúng bao lâu. Những cuốn sách nào họ đã mua cùng nhau. Số lượng dữ liệu là rất lớn tới mức lúc đầu Amazon đã xử lý nó theo cách thông thường: lấy một mẫu và phân tích nó để tìm những điểm tương đồng giữa các khách hàng. Các khuyến nghị đưa ra là khá thô thiển. Mua một cuốn sách về Ba Lan và bạn sẽ bị “dội bom” bằng các thông tin về giá vé đi Đông Âu. Mua một cuốn về trẻ sơ sinh và bạn sẽ bị ngập với thông tin về những cuốn tương tự. “Họ có xu hướng mời bạn những biến thể nho nhỏ của những gì bạn mua trước đó, đến vô cùng tận”, James Marcus, một nhà phê bình sách của Amazon từ 1996 đến 2001, nhớ lại trong hồi ký của mình mang tên Amazonia. “Cứ như bạn đi mua sắm với thằng đần vậy”. Greg Linden nhìn thấy một giải pháp. Ông nhận ra rằng hệ thống khuyến nghị không nhất thiết phải so sánh khách hàng với những người khác, một công việc phức tạp về kỹ thuật. Tất cả những gì cần thiết là tìm ra những liên kết giữa chính các sản phẩm với nhau. Năm 1998 Linden và đồng nghiệp của ông đã đăng ký một bằng sáng chế về kỹ thuật lọc cộng tác được gọi là “item-to-item” (“từ-mục-đến-mục”). Sự thay đổi trong cách tiếp cận đã làm nên một sự khác biệt lớn. Bởi các tính toán có thể được thực hiện trước thời hạn, nên các khuyên nghị là rất nhanh. Phương pháp này cũng linh hoạt, có khả năng làm việc trên nhiều loại sản phẩm. Vì vậy, khi Amazon chuyển sang bán các mặt hàng khác với sách, hệ thống cũng có thể đề xuất phim hoặc lò nướng bánh. Và các khuyến nghị là tốt hơn nhiều so với trước vì hệ thống sử dụng tất cả các dữ liệu. “Câu nói đùa trong nhóm là nếu nó làm việc hoàn hảo thì Amazon sẽ chỉ giới thiệu cho bạn một cuốn sách mà thôi - đó là cuốn kế tiếp mà bạn sẽ mua”, Linden nhớ lại. Bây giờ công ty phải quyết định những gì sẽ xuất hiện trên trang web. Nội dung do máy tạo ra như những kiến nghị cá nhân và những danh sách bán chạy nhất, hoặc những đánh giá được viết bởi các biên tập viên của Amazon? Những gì người xem nói, hoặc những gì các nhà phê bình nói? Đó là một trận chiến của chuột và người. Khi Amazon làm một thử nghiệm so sánh doanh thu nhờ các biên tập viên với doanh thu nhờ các nội dung do máy tính tạo ra, kết quả thậm chí khá khác nhau. Nội dung máy tạo ra từ dữ liệu đã mang lại doanh thu cao hơn rất nhiều. Máy tính có thể không biết tại sao khách hàng đọc Ernest Hemingway cũng có thể muốn mua F. Scott Fitzgerald. Nhưng điều đó dường như không quan trọng. Tiếng leng keng của máy tính tiền mới quan trọng. Cuối cùng các biên tập viên đã chứng kiến tỷ lệ doanh số dựa trên những đánh giá trực tuyến của họ, và nhóm bị giải tán. “Tôi rất buồn vì đội ngũ biên tập viên đã thất bại”, Linden nhớ lại. “Tuy nhiên, số liệu không nói dối, và chi phí thì rất cao”. Ngày nay một phần ba doanh số bán hàng của Amazon được cho là kết quả của các hệ thống giới thiệu và cá nhân hóa. Với những hệ thống này, Amazon đã khiến nhiều đối thủ cạnh tranh bị phá sản: không chỉ những hiệu sách và cửa hàng âm nhạc lớn, mà cả những nhà bán sách địa phương nghĩ rằng mối liên hệ cá nhân của họ sẽ bảo vệ được họ khỏi những cơn gió của sự thay đổi. Thực tế, công việc của Linden đã cách mạng hóa thương mại điện tử, khi phương pháp này được áp dụng bởi gần như tất cả mọi người. Với NetAix, một công ty cho thuê phim trực tuyến, ba phần tư đơn đặt hàng mới đến từ các khuyến nghị. Theo sự dẫn đường của Amazon, hàng ngàn trang web có thể giới thiệu sản phẩm, nội dung, bạn bè và các nhóm mà không cần biết lý do mọi người lại có thể sẽ quan tâm đến chúng. Biết tại sao có thể là thú vị, nhưng nó không quan trọng để kích thích bán hàng. Biết cái gì mới cuốn hút những cú nhấp chuột. Sự hiểu biết này có sức mạnh để định hình lại nhiều ngành công nghiệp, chứ không chỉ thương mại điện tử. Nhân viên bán hàng trong tất cả các lĩnh vực từ lâu đã được cho biết rằng cần phải hiểu những gì làm cho khách hàng quan tâm, để nắm bắt những lý do đằng sau các quyết định của họ. Những kỹ năng chuyên nghiệp và nhiều năm kinh nghiệm đã được đánh giá cao. Dữ liệu lớn cho thấy có một phương pháp tiếp cận khác, trong một số góc độ là thực dụng hơn. Các hệ thống khuyến nghị sáng tạo của Amazon đưa ra được những mối tương quan có giá trị mà không cần biết nguyên nhân phía sau. Biết cái gì, chứ không phải tại sao, là đủ tốt rồi. Những dự đoán và sở thích Các mối tương quan cũng có ích trong một thế giới dữ-liệu-nhỏ, nhưng trong bối cảnh của dữ-liệu-lớn thì phải nói là chúng thực sự nổi bật. Thông qua chúng, người ta có thể thu được hiểu biết một cách dễ dàng hơn, nhanh hơn và rõ ràng hơn trước đây. Tại cốt lõi của nó, một mối tương quan sẽ định lượng mối quan hệ thống kê giữa hai giá trị dữ liệu. Một tương quan mạnh có nghĩa là khi một giá trị dữ liệu thay đổi, thì giá trị dữ liệu kia rất có khả năng cũng thay đổi. Chúng ta đã thấy mối tương quan mạnh như vậy với Xu hướng Dịch cúm của Google: càng nhiều người trong một khu vực địa lý tìm kiếm những từ khóa cụ thể qua Google, thì càng có nhiều người tại khu vực đó mắc bệnh cúm. Ngược lại, một mối tương quan yếu có nghĩa là khi một giá trị dữ liệu thay đổi, ảnh hưởng của nó tới giá trị dữ liệu kia là nhỏ. Ví dụ chúng ta có thể kiểm tra tương quan giữa chiều dài mái tóc của các cá nhân và mức độ hạnh phúc của họ, và nhận thấy chiều dài mái tóc tỏ ra không có tác dụng gì đặc biệt trong việc cho chúng ta biết về mức độ hạnh phúc. Các mối tương quan cho phép chúng ta phân tích một hiện tượng không phải bằng việc làm sáng tỏ hoạt động bên trong của nó, mà bằng cách xác định một phương tiện đo lường hữu ích cho nó. Tất nhiên, ngay cả các mối tương quan mạnh cũng không bao giờ hoàn hảo. Rất có thể chúng hành xử tương tự chỉ vì sự ngẫu nhiên. Chúng ta có thể chỉ đơn giản “bị lừa bởi sự ngẫu nhiên”, như một câu của nhà kinh nghiệm luận Nassim Nicholas Taleb. Với tương quan thì không có sự chắc chắn, mà chỉ có xác suất. Nhưng nếu một mối tương quan là mạnh thì khả năng của một liên kết sẽ cao. Nhiều khách hàng của Amazon có thể chứng thực điều này bằng cách chỉ vào một kệ sách đầy các khuyến nghị của công ty. Bằng cách xác định một phương tiện đo lường thực sự tốt cho một hiện tượng, các mối tương quan giúp chúng ta nắm bắt được hiện tại và dự đoán được tương lai: nếu A thường xảy ra cùng với B, chúng ta cần phải xem chừng B để dự đoán rằng A sẽ xảy ra. Sử dụng B như một phương tiện đo lường sẽ giúp chúng ta nắm bắt những gì có thể xảy ra cùng với A, ngay cả khi chúng ta không thể đo lường hoặc quan sát được A một cách trực tiếp. Quan trọng hơn, nó cũng giúp chúng ta dự đoán những gì có thể xảy ra với A trong tương lai. Tất nhiên, các mối tương quan không thể nói trước tương lai, chúng chỉ có thể dự đoán nó với một xác suất nhất định. Nhưng khả năng đó là cực kỳ có giá trị. Hãy xem trường hợp của Walmart. Đó là nhà bán lẻ lớn nhất thế giới, với hơn hai triệu nhân viên và doanh thu hàng năm khoảng 450 tỷ đôla- một khoản tiền lớn hơn GDP của bốn phần năm các nước trên thế giới. Trước khi web đưa ra quá nhiều dữ liệu thì có lẽ Walmart giữ tập dữ liệu lớn nhất của các công ty Mỹ. Trong những năm 1990 nó đã cách mạng hóa ngành bán lẻ bằng cách ghi lại tất cả sản phẩm như là dữ liệu thông qua một hệ thống được gọi là Liên kết Bán lẻ (Retail Link). Điều này cho phép các nhà cung cấp của Walmart theo dõi tỷ lệ và khối lượng bán hàng và hàng tồn kho. Việc tạo ra sự rõ ràng của thông tin này đã giúp công ty buộc các nhà cung cấp phải tự lo việc lưu trữ của họ. Trong nhiều trường hợp Walmart không tiếp nhận “quyền sở hữu” của một sản phẩm cho đến khi nó được bán, do đó loại bỏ rủi ro hàng tồn kho và giảm được chi phí. Walmart sử dụng dữ liệu để thực sự trở thành cửa hàng ủy thác lớn nhất thế giới. Các dữ liệu lịch sử có thể cho thấy những gì nếu chúng được phân tích một cách đúng đắn? Walmart đã làm việc với các chuyên gia phân tích số liệu từ Teradata, trước đây là công ty uy tín National Cash Register, để khám phá những mối tương quan thú vị. Năm 2004 Walmart cẩn thận xem xét cơ sở dữ liệu khổng lồ các giao dịch trong quá khứ của nó: mỗi khách hàng mua những mặt hàng gì và tổng chi phí, có những gì khác ở trong giỏ hàng, thời gian trong ngày, thậm chí cả thời tiết. Bằng cách đó, công ty nhận thấy rằng trước một cơn bão, không chỉ doanh số bán hàng của đèn pin tăng, mà cả mức bán Pop-Tarts, một món ăn sáng có đường của Mỹ, cũng tăng. Vì vậy, khi những cơn bão sắp đến, Walmart xếp những hộp Pop-Tarts ở ngay phía trước cửa hàng, bên cạnh các đồ tiếp tế bão, để tăng sự tiện lợi cho khách hàng - và tăng mạnh doanh số. Trong quá khứ, một ai đó tại công ty sẽ cần có linh cảm trước để thu thập dữ liệu và thử nghiệm ý tưởng. Bây giờ, bởi có quá nhiều dữ liệu và những công cụ tốt hơn, các mối tương quan có thể được phát hiện một cách nhanh chóng hơn và ít tốn kém. (Nhưng cần nói rõ rằng chúng ta phải thận trọng: khi số lượng các điểm dữ liệu tăng với cấp độ lớn, chúng ta cũng thấy nhiều mối tương quan giả mạo hơn - những hiện tượng có vẻ như có mối liên hệ ngay cả khi chúng không phải như vậy. Điều này đòi hỏi chúng ta phải lưu tâm nhiều hơn, vì chúng ta chỉ mới bắt đầu đánh giá nó.) Từ lâu trước khi có dữ liệu lớn, việc phân tích mối tương quan đã chứng tỏ là có giá trị. Khái niệm này được Ngài Francis Galton, người anh em họ của Charles Darwin, đưa ra vào năm 1888 sau khi ông nhận thấy một mối quan hệ giữa chiều cao và chiều dài cánh tay của những người đàn ông. Tính toán học đằng sau nó là tương đối đơn giản và chắc chắn - đó hóa ra là một trong những đặc tính quan trọng, và đã giúp làm cho nó trở thành một trong những phép đo thống kê được sử dụng rộng rãi. Tuy nhiên, trước dữ liệu lớn, tính hữu dụng của nó bị hạn chế. Vì dữ liệu khan hiếm và việc thu thập tốn kém, nên các nhà thống kê thường chọn một phương tiện đo lường thay thế, sau đó thu thập các dữ liệu có liên quan và thực hiện phân tích tương quan để tìm hiểu xem phương tiện đó tốt tới đâu. Nhưng làm thế nào để chọn phương tiện đúng? Để hướng dẫn họ, các chuyên gia sử dụng những giả thuyết dựa trên các lý thuyết - những ý tưởng trừu tượng về phương thức hoạt động của sự vật. Dựa trên những giả thuyết như vậy, họ thu thập dữ liệu và sử dụng phân tích tương quan để xác minh xem các phương tiện thay thế có phù hợp không. Nếu chúng không phù hợp, sau đó các nhà nghiên cứu thường cố gắng kiên định thực hiện lại, vì biết đâu các dữ liệu đã bị thu thập một cách sai lầm. Nếu thất bại thì cuối cùng họ mới phải thừa nhận rằng giả thuyết, hoặc thậm chí lý thuyết nền tảng của nó, còn thiếu sót và phải được sửa đổi. Kiến thức phát triển thông qua quá trình thử và-sai như thế. Và nó diễn ra quá chậm, vì những thành kiến cá nhân và tập thể đã che mờ những giả thuyết chúng ta phát triển, chúng ta áp dụng chúng như thế nào, và do đó những phương tiện thay thế mà chúng ta đã chọn. Đó là một quá trình phức tạp, nhưng khả thi trong một thế giới dữ-liệu-nhỏ. Trong thời đại dữ-liệu-lớn, việc ra quyết định để khảo sát những biến nào bằng cách chỉ dựa trên các giả thuyết sẽ không còn hiệu quả nữa. Các bộ dữ liệu là quá lớn và lĩnh vực được xem xét có lẽ quá phức tạp. May mắn thay, nhiều trong số những hạn chế vốn trói buộc chúng ta vào một cách tiếp cận dựa-trên-giả-thuyết đã không còn tồn tại với cùng mức độ như vậy nữa. Chúng ta bây giờ có quá nhiều dữ liệu dễ tiếp cận và khả năng tính toán tới mức không cần phải chăm chỉ chọn một hoặc một số ít phương tiện đo lường thay thế và khảo sát từng cái. Việc phân tích điện toán tinh vi bây giờ có thể xác định được phương tiện tối ưu - như nó đã làm cho Xu hướng Dịch cúm của Google, sau khi “cày” qua gần nửa tỷ mô hình toán học. Chúng ta không còn nhất thiết phải đòi hỏi một giả thuyết chuyên môn về một hiện tượng để bắt đầu hiểu thế giới của mình. Vì vậy, chúng ta không cần phát triển một khái niệm về những gì mọi người tìm kiếm khi nào và ở nơi nào bệnh cúm lây lan. Chúng ta không cần có một ý niệm mơ hồ về cách các hãng hàng không định giá vé của họ. Chúng ta không cần quan tâm đến thị hiếu của người mua hàng Walmart. Thay vào đó chúng ta có thể đặt dữ liệu lớn vào trong phép phân tích tương quan, để rồi nó sẽ cho chúng ta biết những câu hỏi tìm kiếm nào là các phương tiện đo lường tốt nhất cho bệnh cúm, liệu giá vé máy bay có khả năng tăng, hoặc những gì các công dân đang lo lắng chuẩn bị tránh bão sẽ muốn sử dụng. Thay cho việc tiếp cận dựa trên-giả-thuyết, chúng ta có thể sử dụng cách tiếp cận dựa-trên dữ-liệu. Các kết quả của chúng ta có thể ít bị chi phối và chính xác hơn, và chúng ta sẽ gần như chắc chắn nhận được chúng nhanh hơn nhiều. Việc dự đoán dựa trên các mối tương quan chính là hạt nhân của dữ liệu lớn. Các phân tích tương quan bây giờ được sử dụng thường xuyên tới mức đôi khi chúng ta không còn đánh giá nổi mức độ xâm nhập của chúng nữa. Và việc ứng dụng này sẽ tăng. Ví dụ điểm tín dụng tài chính đang được sử dụng để dự đoán hành vi cá nhân. Công ty Fair Isaac Corporation, bây giờ được gọi là FICO, phát minh điểm tín dụng trong những năm cuối thập niên 1950. Năm 2011 FICO còn thiết lập “Điểm Ghi Nhớ Dùng Thuốc”. Để xác định khả năng người ta sẽ dùng thuốc đến mức nào, FICO phân tích một loạt các biến - bao gồm cả những biến có vẻ không liên quan, chẳng hạn như họ đã sống bao lâu tại cùng địa chỉ, họ có kết hôn không, họ đã làm bao lâu với cùng một công việc, họ có sở hữu một chiếc xe hơi không. Điểm số ước lượng sẽ giúp các nhà cung cấp dịch vụ y tế tiết kiệm được tiền bằng cách cho họ biết những bệnh nhân nào cần được nhắc nhở. Không có gì là quan hệ nhân quả giữa việc sở hữu xe hơi và uống thuốc kháng sinh theo chỉ dẫn; liên kết giữa chúng là tương quan thuần túy. Nhưng những kết quả như vậy cũng đủ để giám đốc điều hành của FICO mạnh miệng tuyên bố trong năm 2011: “Chúng tôi biết những gì bạn sẽ làm vào ngày mai đấy”. Những nhà môi giới dữ liệu khác đang thâm nhập vào cuộc chơi tương quan, như được phản ảnh trong loạt bài mang tính tiên phong “What They Know” (“Những Điều Họ Biết”) của Wall Street Journal. Experian có một sản phẩm được gọi là Hiểu Thấu Thu Nhập để ước tính mức thu nhập của người dân mà một phần dựa trên cơ sở lịch sử tín dụng của họ. Nó phát triển điểm số bằng cách phân tích cơ sở dữ liệu lịch sử tín dụng khổng lồ của nó đối với dữ liệu thuế ẩn danh từ Sở Thuế Vụ Hoa Kỳ. Doanh nghiệp phải chi khoảng $10 để xác nhận thu nhập của một người thông qua các biểu khai thuế, trong khi Experian bán ước tính của nó ít hơn $1. Vì vậy, trong những trường hợp như thế này, việc sử dụng phương tiện đo lường thay thế sẽ hiệu quả hơn là đi hàn huyên để có được những điều thực tế. Tương tự, một văn phòng tín dụng khác, Equifax, bán một “Chỉ số Khả năng trả tiền” và một “Chỉ số Chi tiêu tùy ý” hứa hẹn dự đoán được sự tình trạng đầy hay vơi của ví tiền cá nhân. Việc sử dụng các mối tương quan đang được mở rộng hơn nữa. Aviva, một công ty bảo hiểm lớn, đã nghiên cứu ý tưởng sử dụng các báo cáo tín dụng và dữ liệu tiếp thị người tiêu dùng như những phương tiện đo lường để phân tích mẫu máu và nước tiểu cho các ứng viên nhất định. Mục đích là để xác định những người có thể có nguy cơ cao mắc các bệnh như huyết áp cao, tiểu đường, hoặc trầm cảm. Phương pháp này sử dụng dữ liệu về lối sống bao gồm hàng trăm biến như các sở thích, các trang web truy cập, và mức độ xem truyền hình, cũng như ước tính thu nhập của họ. Mô hình dự đoán Aviva, được phát triển bởi Deloitte Consulting, được xem là thành công trong việc xác định nguy cơ sức khỏe. Những công ty bảo hiểm khác như Prudential và AIG đã xem xét các sáng kiến tương tự. Lợi ích là nó có thể cho phép người nộp đơn xin bảo hiểm tránh được việc phải cung cấp mẫu máu và nước tiểu, mà chẳng ai thích, và các công ty bảo hiểm lại phải trả tiền cho việc đó. Chi phí xét nghiệm khoảng $125 cho mỗi người, trong khi các phương pháp tiếp cận hoàn toàn dựa-trên-dữ-liệu chỉ tốn khoảng $5. Với một số người, phương pháp này nghe có vẻ đáng sợ, bởi vì nó dựa trên những hành vi dường như không mấy liên quan với nhau. Nó giống như việc các công ty có thể ẩn danh để làm gián điệp mạng, theo dõi từng cú nhấp chuột. Mọi người có thể sẽ cân nhắc kỹ lưỡng trước khi xem những trang web của các môn thể thao cực đoan hay xem hài kịch tôn vinh sự trầm cảm nếu họ cảm thấy điều này có thể dẫn đến phí bảo hiểm cao hơn. Phải thừa nhận rằng việc cản trở tự do của người dân trong tương tác với thông tin sẽ là điều tệ hại. Nhưng mặt khác, lợi ích trong việc khiến bảo hiểm dễ dàng hơn và ít tốn kém hơn sẽ mang lại kết quả là có nhiều người tham gia bảo hiểm hơn, đó là một điều tốt cho xã hội, chưa kể cũng tốt cho các công ty bảo hiểm. Tuy nhiên, sản phẩm “đinh” của các mối tương quan dữ-liệu-lớn chính là cửa hàng bán lẻ giảm giá Target của Mỹ, đã có nhiều năm sử dụng các dự đoán dựa trên các mối tương quan dữ-liệu lớn. Trong một phóng sự đặc biệt, Charles Duhigg, một phóng viên kinh doanh của New York Times, kể lại cách Target biết được một người phụ nữ đã có thai mà thậm chí chẳng cần người mẹ tương lai phải nói ra. Về cơ bản, phương pháp của họ là khai thác dữ liệu và để cho các mối tương quan làm công việc của chúng. Việc biết nếu một khách hàng có thể mang thai là rất quan trọng cho các nhà bán lẻ, vì mang thai là một thời điểm bước ngoặt cho các cặp vợ chồng, khi hành vi mua sắm của họ sẽ sẵn sàng thay đổi. Họ có thể bắt đầu đi tới những cửa hàng mới và phát triển những sở thích thương hiệu mới. Những nhà tiếp thị của Target tìm đến bộ phận phân tích để xem có cách nào phát hiện ra những khách hàng mang thai thông qua mô hình mua sắm của họ. Nhóm phân tích xem xét lại lịch sử mua sắm của những phụ nữ đăng ký quà cho trẻ sơ sinh. Họ nhận thấy những phụ nữ này mua rất nhiều kem dưỡng da không mùi vào khoảng tháng thứ ba của thai kỳ, và vài tuần sau đó, họ thường mua những chất bổ trợ như magiê, canxi, và kẽm. Cuối cùng, nhóm phát hiện khoảng hai mươi sản phẩm, được sử dụng như các phương tiện đo lường, cho phép công ty tính toán được một loại “điểm dự đoán mang thai” cho từng khách hàng thanh toán bằng thẻ tín dụng hoặc sử dụng thẻ cửa hàng hoặc phiếu khuyến mãi. Các mối tương quan thậm chí cho phép nhà bán lẻ ước tính được thời hạn sinh con trong một khoảng hẹp, do vậy họ có thể gửi những phiếu khuyến mãi thích hợp cho từng giai đoạn của thai kỳ. Quả đúng với cái tên của doanh nghiệp này,“Target”, nghĩa là “Mục tiêu”. Trong cuốn sách The Power of Hahit (Sức mạnh của Thói quen), tác giả Duhigg kể tiếp câu chuyện này. Vào một ngày nọ, một người đàn ông giận dữ xông vào một cửa hàng Target ở Minnesota để gặp người quản lý. “Con gái tôi nhận được cái này trong thùng thư!”, ông ta hét lên. “Con bé vẫn còn đang học trung học, vậy mà ông gửi phiếu khuyến mãi mua quần áo và giường cũi trẻ sơ sinh? ông đang khuyến khích con tôi có thai hả?”. Thế nhưng khi người quản lý gọi lại cho ông ta một vài ngày sau đó để xin lỗi, ông ta lại tỏ ra hòa nhã và thậm chí chính ông ta phải xin lỗi người quản lý. Đoạn phim tác giả Duhigg giải thích và minh họa câu chuyện Việc tìm kiếm các phương tiện đo lường thay thế trong các bối cảnh xã hội chỉ là một trong nhiều cách tận dụng các kỹ thuật liên quan đến dữ-liệu-lớn. Bên cạnh đó, các mối tương quan với các kiểu dữ liệu mới để giải quyết các nhu cầu hàng ngày cũng tỏ ra mạnh mẽ không kém là. Một trong số đó là phương pháp phân tích dự đoán, bắt đầu được sử dụng rộng rãi trong kinh doanh để dự đoán các sự kiện trước khi chúng xảy ra. Thuật ngữ này có thể được dùng để chỉ một thuật toán giúp phát hiện một ca khúc nổi tiếng, thường được sử dụng trong ngành công nghiệp âm nhạc để cung cấp cho các hãng ghi âm một ý tưởng tốt hơn về nơi để họ đầu tư. Kỹ thuật này cũng được sử dụng để ngăn chặn những hỏng hóc lớn về cơ khí hoặc cấu trúc: đặt các cảm biến trên máy móc, động cơ, hoặc