Giáo trình gồm 10 chương, nội dung sơ bộ như sau:
Chương 1 – Một số nội dung cơ bản về khai phá dữ liệu cung cấp các kiến thức cơ bản nhất về lĩnh vực khai phá dữ liệu và phát hiện tri thức trong các CSDL, nhằm giúp độc giả nắm bắt được bản chất của các khái niệm cơ bản trong khai phá dữ liệu, phân biệt các khái niệm này với một số khái niệm liên quan và một số bài toán cơ bản nhất và xu hướng phát triển của khai phá dữ liệu, phát hiện tri thức trong các CSDL.
Chương 2 – Tổng quan về khai phá Web cung cấp các kiến thức cơ bản nhất về khai phá Text và khai phá Web, nhằm giúp độc giả nắm bắt được các nội dung cơ bản của khai phá Text và khai phá Web. Chương này cũng trình bày cơ bản về khai phá cấu trúc Web và khai phả sử dụng Web.
Chương 3 – Một số kiến thức toán học cho khai phá dữ liệu Web nhằm mục tiêu cung cấp một số kiến thức nền tảng về toán học cho khai phá dữ liệu Web. Lý thuyết đồ thị và lý thuyết xác suất thâm nhập sâu rộng vào khai phá dữ liệu Web theo các góc độ mô hình, giải pháp và kỹ thuật có nguồn gốc từ bản chất tự nhiên và xã hội của Web.
Chương 4. Một số vấn đề về xử lý ngôn ngữ tiếng Việt cho khai phá văn ban cung cấp một số kiến thức nền tảng về xử lý ngôn ngữ tự nhiên nói chung và xử lý tiếng Việt nói riêng, cho phép nâng cao hiệu quả của các giải pháp khai phá Web tiếng Việt.
Chương 5 – Các phương pháp biểu diễn văn bản trình bày bài toán các khuôn dạng biểu diễn dữ liệu cho các thuật toán khai phá dữ liệu.
Chương 6 – Hệ thống tìm kiếm
Chương 7 – Phân cụm văn bản
Chương 8– Phân lớp Web
Chương 9 – Trích chọn thông tin trên Web trình bảy về bốn bài toán chủ yếu của khai phá dữ liệu Web. Các khái niệm liên quan, các mô hình biểu diễn. các thuật toán. các kỹ thuật và các phương pháp đánh giá hiệu quả được giới thiệu và phân tích.
Chương 10 – Web ngữ nghĩa trình bày về Web ngữ nghĩa, thế hệ mới của Web gồm khái niệm, kiến trúc, các ngôn ngữ và quá trình tiệm cận tới Web ngữ nghĩa.