- UML5 – Giới thiệu cân bằng giữa Bias-Complexity
- UML5.1 – Định lý không có bữa ăn trưa miễn phí (The No-Free-Lunch Theorem)
- UML5.2 – Phân tích lỗi
Như trong chương 2, chúng ta đã thấy rằng dữ liệu huấn luyện có thể làm sai lệch bộ học và dẫn đến kết quả là Overfitting. Để khắc phục điều đó, thì chúng ta đã giới hạn không gian tìm kiếm trên một vài lớp giả thiết \(\mathcal H\). Lớp giả thiết này được xem như là một vài kiến thức biết trước (prior knowledge) mà bộ học biết về bài toán và có một niềm tin rằng một trong những giả thiết \(\mathcal h\) của lớp \(\mathcal H\) là một mô hình có lỗi thực nhỏ. Ví dụ trong bài toán đu đủ có vị ngon hay dở, dựa trên kiến thức biết trước về các loại quả khác thì chúng ta phần nào có thể dự đoán được vị quả đu đủ dựa trên một số vùng màu sắc-độ cứng của quả.
Và trong chương 5 này, chúng ta sẽ trả lời 2 câu hỏi:
- Liệu kiến thức biết trước có cần thiết cho sự thành công của việc học?
- Liệu rằng có một bộ học tổng quát có thể giải được tất các bài toán? Chúng ta sẽ toán học hóa chút câu hỏi này. Một bài toán học cụ thể được định nghĩa bởi một phân phối chưa biết \(\mathcal D\) trên \(\mathcal X \times \mathcal Y \). Mục tiêu của bộ học là để tìm một bộ dự đoán \(\mathcal h\): \(\mathcal X \rightarrow \mathcal Y\) mà rủi ro thực tế, \(L_{\mathcal D}(h)\) là đủ nhỏ. Câu hỏi đặt ra là liệu có tồn tại một thuật toán học A và kích thước tập huấn luyện \(\mathcal m\), với mọi phân phối \(\mathcal D\), nếu A nhận được \(\mathcal m\) i.i.d mẫu học từ \(\mathcal D\) thì thuật toán học A có khả năng sinh ra bộ dự đoán \(\mathcal h\) mà có rủi ro thực tế thấp hay không?
Ứng với từng câu trả lời sẽ là từng phần của chương này:
Phần đầu tiên 5.1: Sẽ trả lời cho câu hỏi thứ 2 ứng với định lý nổi tiếng “Không có bữa ăn nào miễn phí”(No-Free Lunch Theorem) tuyên bố rằng không tồn tại bộ học tổng quát. Nghĩa là rằng, không có bộ học nào có thể giải được tất cả các bài toán bởi vì luôn luôn tồn tại một phân phối mà nó làm cho bộ học này thất bại tuy nhiên bộ học khác lại học thành công.
Từ định lý này, một bài toán học cụ thể được định nghĩa bởi một vài phân phối \(\mathcal D\) thì chúng ta nên có thêm một vài kiến thức biết trước trên \(\mathcal D\). Một số dạng kiến thức biết trước:
-
-
- Kiến thức biết trước đến từ một vài họ tham số cụ thể của phân phối \(\mathcal D\) (sẽ học trong chương 24)
- Kiến thức biết trước mà chúng ta đã học khi định nghĩa mô hình học PAC. Chúng ta đã giả sử có tồn tại giả thiết \(\mathcal h\) trong lớp giả thiết hữu hạn \(\mathcal H\) mà \(L_{\mathcal D}(h) = 0\)
- Kiến thức biết trước mà chúng ta học khi định nghĩa mô hình học agnostic PAC . Giả thiết rằng, trong lớp hữu hạn \(\mathcal H\) có tồn tại \(min_{\mathcal h \in \mathcal H}L_{\mathcal D}(\mathcal h)\)
-
Phần thứ hai 5.2: Chúng ra sẽ nghiên cứu lợi ích và tác hại của việc khi thêm kiến thức biết trước trong một lớp giả thiết. Chúng ta sẽ phân tách lỗi của một thuật toán ERM qua lớp giả thiết \(\mathcal H\) thành 2 thành phần:
-
-
- Phản ánh chất lượng của kiến thức biết trước được đo bằng rủi ro nhỏ nhất của một giả thiết trong một lớp giả thiết \(min_{h \in \mathcal H}L_{\mathcal D}(h)\). Thành phân này gọi là bias hay lỗi xấy xỉ (approximation error).
- Lỗi do overfitting nó phụ thuộc vào kích thước và độ phức tạp của lớp giả thiết \(\mathcal H\). Thành phần này gọi là comlexity hay estimation error.
-
Trong đó, bias và comlexity của một lớp giả thiết \(\mathcal H\) có quan hệ trái ngược nhau và chúng ta cần cân bằng điều chỉ để hợp lý chúng. Bởi vì, nếu ta tăng độ phức tạp của lớp giả thiết \(\mathcal H\) thì nó sẽ giảm bias tuy nhiên lại tăng khả năng overfitting, còn nếu ta giảm độ phức tạp của lớp giả thiết \(\mathcal H\) thì nó sẽ tăng bias nhưng lại giảm khả năng overfitting.