Nói về cuốn sách trong 3 câu
- Dữ liệu lớn tiết lộ hành vi của con người tốt hơn vì kích thước mẫu lớn hơn được sử dụng để phân tích và đưa ra kết luận.
- Mọi người đều nói dối về hành động và cảm xúc của mình, tuy vậy dữ liệu lớn lại cho chúng ta biết sự thật.
- Các công ty, doanh nghiệp, chính phủ nên áp dụng dữ liệu lớn để giúp ích cho tổ chức và xã hội.
5 điểm cảm thấy hay nhất trong cuốn sách
- Khoa học dữ liệu trực quan hơn chúng ta nghĩ, có thể liên tục cập nhật tính kịp thời, google là một ví dụ điển hình.
- Dữ liệu lớn không biết nói dối, giúp chúng ta hiểu được những vấn đề nhỏ nhặt nhất. Ngoài ra dữ liệu lớn còn cho chúng ta biết được những bí mật đen tối sâu xa nhất mà mọi người không chia sẻ.
- Dữ liệu lớn giúp chúng ta có thể thử nghiệm được các phương án (thử nghiệm A/B), từ đó tìm ra phương án tối ưu nhất
- Dữ liệu lớn không phải hoàn hảo, cũng có những hạn chế nhất định. Đặc biệt khi dữ liệu có quá nhiều biến số, làm giảm độ tin cậy của dữ liệu. Đồng thời, dữ liệu lớn chưa thể thu thập được trải nghiệm cụ thể của con người.
- Các doanh nghiệp và chính phủ nên sử dụng dữ liệu lớn để giúp đỡ xã hội tốt đẹp hơn.
Một số ý chính của quyển sách
- Dữ liệu lớn, đúng như tên gọi của nó, nghĩa là khối lượng lớn các dữ liệu, lớn hơn nhiều so với bộ óc của con người có thể hiểu hết được. Vì vậy, dữ liệu lớn cần sức mạnh tính toán khổng lồ để phân tích và nhận biết.
- Tuy vậy xét cho cùng, mỗi con người chúng ta đều là những nhà khoa học dữ liệu theo một cách nào đó. Ví dụ cụ thể trong sách là về người bà của tác giả, bà đã sử dụng 88 năm kinh nghiệm của mình để đưa ra những đặc điểm cần thiết để xây dựng mối quan hệ cho chính tác giả. Bà đã sử dụng tất cả thông tin, kinh nghiệm của mình có được để phát hiện ra mẫu hình và dự đoán các yếu tố tác động đến nhau như thế nào – Đây chính là những gì mà một nhà khoa học dữ liệu sẽ thực hiện.
- Tuy vậy không phải kết luận nào của bà cũng mang tính chính xác, do bà chưa lấy đủ thông tin của những người khác. Ví dụ, bà tin rằng để có một mối quan hệ lâu dài, các cặp đôi nên có nhiều bạn bè chung. Tuy vậy vào năm 2014, một nghiên cứu đã chỉ ra rằng, với nhiều bạn bè chung trên Facebook với nhau, một cặp đôi sẽ có nhiều khả năng chia tay hơn. Như vậy có thể nói, yếu tố kích thước mẫu đóng vai trò rất quan trọng trong việc đưa ra các kết luận. Chính vì vậy càng ngày dữ liệu lớn đóng vai trò càng quan trọng, giúp mọi người có cái nhìn đúng đắn và đưa ra quyết định chính xác hơn.
- Khoa học dữ liệu là một công cụ hữu ích, thông tin luôn được cập nhật một cách nhanh nhất. Ví dụ, khi tìm kiếm trên công cụ Google về bệnh cúm: “các triệu chứng bị cúm”, nếu nhiều người cùng tìm kiếm căn bệnh này thì chúng ta sẽ thấy được sự lây lan của cúm theo khu vực địa lý và thời gian.
- Dữ liệu lớn không nói dối: Các sinh viên tốt nghiệp Đại học Maryland đã được khảo sát về điểm trung bình (GPA) của họ. Chỉ 2% trong số người tham gia thừa nhận rằng điểm trung bình của mình dưới 2.5/4.0 điểm. Tuy vậy khi nhà trường kiểm tra chính thức thì con số thực tế gấp 5 lần, có đến 11% số người tham gia lận. Như vậy có khá nhiều người nói dối trong cuộc khảo sát. Điều này cũng khá dễ hiểu, con người luôn muốn có vẻ ngoài đẹp, ngay cả khi đối mặt với những người mà chúng ta không hề quen biết, đây được gọi là thiên vị mong muốn xã hội. Đồng thời, những người tham gia khảo sát cũng cố gắng gây ấn tượng với người đặt câu hỏi. Chúng ta luôn muốn gây ấn tượng với mọi người xung quanh, dẫn đến xu hướng nói những điều không trung thực, làm cho các cuộc khảo sát không đáng tin cậy khi cố gắng tìm hiểu hành vi, suy nghĩ, mong muốn và niềm tin của họ. Dữ liệu lớn thì khác, nó không nói dối. Bởi vậy dữ liệu lớn được thu thập thông qua hành vi trực tuyến, sự thật luôn được tiết lộ thông qua hành động thực tế, không chỉ lời nói. Nói cách khác, khi mọi người tìm kiếm một thứ gì đó trên Internet, họ đang sống thực với bản thân mình, không phải gây ấn tượng với bất cứ ai cả.
- Mỗi ngày, một lượng dữ liệu rất lớn được tìm kiếm trong Google và nhiều công cụ tìm kiếm khác. Điều này có nghĩa rằng chúng ta ngày nay có thể làm được những việc mà trước đây không thể thực hiện được. Cụ thể hơn, chúng ta có thể sử dụng dữ liệu lớn để tìm ra những vấn đề mình cần quan tâm, dù là nhỏ nhặt nhất. Ví dụ: Giáo sư Raj Chetty của Đại học Harvard quyết định điều tra xem suy nghĩ của mọi người trên thế giới còn đúng hay không: Mỹ là quốc gia có thể giúp chúng ta đổi vận mệnh, trở nên giàu có sung túc. Ông sử dụng thông tin từ hồ sơ thuế do Sở Thuế Vụ Hoa Kỳ cung cấp, hơn 1 tỷ trường hợp được quan sát. Kết quả cho thấy khi so sánh với các nước khác, thì Mỹ không phải là quốc gia tuyệt vời cho những người khó khăn. Một người Mỹ nghèo có 7.5% cơ hội đạt được thành công, trong khi tại Đan Mạch là 11.7%, Canada là 13.5%. Đấy là bức tranh tổng thể, khi chia tách vấn đề để nhìn thấy rõ hơn, ông cũng đã có những kết quả. Kết quả cho thấy những người nghèo tại Mỹ cũng có khả năng thành công cao, nhưng chỉ ở 1 số tiểu bang nhất định. Tại San Jose, California, một người nghèo có 12.9% cơ hội đổi đời. Ngược lại tại Charlotte thì cơ hội chỉ có 4.4%.
- Dữ liệu lớn còn giúp cho việc nhận định tình hình và đưa ra hành động tốt hơn, cụ thể là trong việc chạy thử nghiệm A/B. Thử nghiệm A/B có nghĩa là đối với một vấn đề, chúng ta cần phải xem xét tối thiểu 2 trường hợp để có thể đưa ra nhận định. Ví dụ, để kiểm tra uống rượu vang có cải thiện sức khoẻ hay không, chúng ta cần phải có 2 nhóm thử nghiệm, 1 nhóm sẽ phải uống một ly rượu mỗi ngày, 1 nhóm sẽ không uống gì cả. Sau đó sẽ xem xét kết quả từ 2 nhóm này và đưa ra kết luận. Trong chiến dịch tranh cử tổng thống năm 2008 của Barrack Obama, các vị giám đốc phụ trách chiến dịch tranh cử đã sử dụng cách tiếp cận này. Họ thiết kế 1 trang web thu hút mọi người vào đăng ký và quyên góp cho chiến dịch. Trên trang web này, họ sử dụng các kết hợp giữa hình ảnh và văn bản khác nhau, tạo thành nhiều bố cục. Sau một vài ngày họ phân tích các dữ liệu liên quan để suy ra được bố cục nào mang lại hiệu quả cao nhất. Có lẽ kết quả chúng ta cũng đã thấy được, dữ liệu lớn đã góp 1 chút công sức cho chiến dịch tranh cử tổng thống của Barrack Obama.
- Bất cứ khi nào chúng ta sử dụng Google, chúng ta cung cấp thông tin của mình cho dữ liệu lớn. Như vậy điều gì sẽ xảy ra nếu chính phủ có quyền truy cập vào các dữ liệu này, họ có thể làm gì với dữ liệu đấy? Ví dụ, nếu một người nào đó tìm kiếm từ khoá liên quan đến tự tử, thì cảnh sát sẽ được thông báo và có lẽ can thiệp được, đây có thể là một ý kiến hay. Trung bình mỗi tháng tại Mỹ, có 3.5 triệu lượt tìm kiếm từ khoá liên quan đến tự tử, nhưng chỉ có 4000 trường hợp tự tử thật sự xảy ra. Như vậy việc theo dõi tìm kiếm có thể sẽ gây ra sự lãng phí thời gian và tiền bạc.
- Tuy vậy, tại một số khu vực nhất định thì tỷ lệ tương quan này cao hơn hẳn. Có nghĩa, tại 1 số tiểu bang tại Mỹ, mỗi khi người dân tìm kiếm từ khoá liên quan đến tự tử, thì xác suất họ tự tử thật xảy ra rất cao. Như vậy, cảnh sát có thể xác định xem các tỷ lệ tìm kiếm với hành động tại địa phương họ có cao hay không. Từ đó chúng ta có thể có những biện pháp ngăn ngừa cần thiết. Tất nhiên không nên chỉ dừng lại ở yếu tố tự tử, mà còn nên kết hợp thêm nhiều từ khoá khác nữa nhằm giúp ích cho xã hội.