Thống kê là một hệ thống các phương pháp sử dụng mô hình, sự biểu diễn và tóm tắt định lượng một tập dữ liệu thực nghiệm hoặc nghiên cứu thực tế nhất định nhằm phục vụ cho quá trình phân tích, dự đoán và ra quyết định.
Thống kê được chia ra thành 2 lĩnh vực là:
– Thống kê mô tả (descriptive statistics): được hiểu là các phương pháp liên quan đến việc thu thập số liệu, tóm tắt, trình bày, tính toán và mô tả các đặc trưng khác nhau để phản ánh một cách tổng quát đối tượng nghiên cứu.
Ví dụ: Điểm trung bình của học sinh (GPA) là một dạng thông tin có được từ ứng dụng thống kê mô tả trong thực tiễn. GPA là trung bình của dữ liệu từ một loạt các bài kiểm tra, lớp học và điểm số với nhau để xem xét khả năng học tập chung của học sinh. Điểm trung bình cá nhân của học sinh phản ánh kết quả học tập trung bình chung của học sinh đó.
– Thống kê suy luận (inferential statistics): bao gồm các phương pháp ước lượng các đặc trưng của tổng thể, phân tích mối liên hệ giữa các hiện tượng nghiên cứu, dự đoán hoặc ra quyết định trên cơ sở thu thập thông tin từ kết quả quan sát mẫu.
Ví dụ: Một lớp học gồm 50 học sinh. Trong đó, các bạn nữ cho rằng mỗi lần kiểm tra miệng thì họ bi gọi nhiều hơn các bạn nam. Họ cho rằng như vậy giáo viên đang thiên vị. Còn giáo viên thi cho rằng họ thực hiện điều này là một cách ngẫu nhiên. Và để xem ai đúng, ai sai trong trường hợp này ta sẽ cần phải đặt giả thuyết thống kê thông qua suy luận thống kê.
Máy học là môn khoa học nhằm phát triển những thuật toán và mô hình thống kê mà các hệ thống máy tính sử dụng để thực hiện các tác vụ dựa vào khuôn mẫu và suy luận mà không cần hướng dẫn cụ thể. Các hệ thống máy tính sử dụng thuật toán máy học để xử lý khối lượng lớn dữ liệu trong quá khứ và xác định các khuôn mẫu dữ liệu. Việc này cho phép chúng dự đoán kết quả chính xác hơn từ cùng một tập dữ liệu đầu vào cho trước. Ví dụ: các nhà khoa học dữ liệu có thể đào tạo một ứng dụng y tế chẩn đoán ung thư từ ảnh chụp X-quang bằng cách lưu trữ hàng triệu ảnh quét và chẩn đoán tương ứng.
Máy học giúp các doanh nghiệp thúc đẩy phát triển, tạo ra các dòng thu nhập mới và giải quyết những vấn đề mang tính thách thức. Dữ liệu là động lực thúc đẩy tối quan trọng đằng sau các quyết định của doanh nghiệp nhưng theo truyền thống, các công ty sử dụng dữ liệu từ nhiều nguồn như phản hồi của khách hàng, nhân viên và bộ phận tài chính. Nghiên cứu của máy học giúp tự động hóa và tối ưu hóa quá trình này. Bằng cách sử dụng phần mềm phân tích khối lượng lớn dữ liệu ở tốc độ cao, các doanh nghiệp có thể đạt được kết quả nhanh hơn.
Mời các bạn mượn đọc sách Nhập Môn Thống Kê Hướng Tới Máy Học của tác giả Phạm Minh Hoàng.