UML5.1 – Định lý không có bữa ăn trưa miễn phí (The No-Free-Lunch Theorem)

This entry is part 2 of 3 in the series understanding machine learning chapter 5

Trong phần này, chúng ta sẽ chứng minh rằng không có một bộ học tổng quát nào có thể thành công trên tất cả các bài toán học.

  • Định lý 5.1 (No-Free-Lunch): Cho
    1. \(A\) là thuật toán học bất kì  cho bài toán phân lớp nhị phân trên miền \(\mathcal X\) với hàm lỗi \(0-1\).
    2. Tập huấn luyện trên miền \(S\) kích thước \(m<|\mathcal X|/2 \).

Khi đó, tồn tại phân phối \(\mathcal D\) trên \(\mathcal X \times \{0, 1\}\) sao cho:

    1. Có hàm dự đoán \(f\) để \(f\) dự đoán hoàn hảo trên \(\mathcal D\):  \(L_{\mathcal D}(\mathcal f) = 0\)
    2. Thuật toán A học “kém với xác suất không nhỏ”: \(\mathbb P_{S\sim \mathcal D^m}\left[ L_{\mathcal D}(A(S)) \geq 1/8\right] \geq 1/7\)

Định lý phát biểu rằng với mọi thuật toán học, luôn tồn tại bài toán (có lời giải) mà thuật toán học này không thể học tốt được.

Chứng minh định lý:

Cho \(C\) là một tập con của \(\mathcal X\) với kích thước \(2m\). Vậy sẽ có \(T=2^{2m}\) hàm từ \(C\) tới \(\{0,1\}\). Và chúng ta sẽ kí hiệu các hàm đó lần lượt là \(f_1, f_2, …, f_T\). Với mỗi hàm \(f_i\), cho \(\mathcal D_i\) là một phân phối trên \(C \times \{0,1\}\) được định nghĩa bởi:

\(\mathcal D_{i}(\{(x,y)\})=
\begin{cases}
1/|C| & \quad \text{nếu }y = f_{i}(x),\\
0 & \quad \text{trường hợp còn lại}
\end{cases}\)

Theo công thức trên ta thấy rằng xác suất để chọn một cặp \((x, y)\) là \(1/|C|\) nếu \(y\) là nhãn thực sự và có giá trị bằng \(0\) nếu \(y \ne f_{i}(x)\). Và rõ ràng \(L_{\mathcal D_i}(f_{i})= 0\)

Từ đó, với mọi thuật toán, \(A\), nhận một tập huấn luyện \(S\) gồm \(m\) mẫu từ miền \(C \times \{0,1\}\) và trả ra một hàm dự đoán \(A(S) : C \rightarrow \{0,1\}\) thì:

\(\max\limits_{i \in [T]} \underset{ S \sim \mathcal D_{i}^m}{\mathbb E} [L_{\mathcal D_i}(A(S))] \geq 1/4 \quad (5.1)\)

Bất đẳng thức (5.1) nghĩa là: có một chỉ số \(i\) sao cho khi tập huấn luyện \(S\) được lấy từ phân bố \(\mathcal D_i^m\), thì thuật toán \(A\) cho hàm dự đoán có kỳ vọng lỗi ít nhất là \(1/4\) (kỳ vọng được lấy theo phân bố của tập huấn luyện \(S\sim\mathcal D_i^m\)).

Vậy tổng quát hóa lên, với \(m\) mẫu từ miền \(X \times \{0,1\}\) ta có phát biểu:
Với mọi thuật toán học, \(A’\), mà nhận được một tập huấn luyện gồm \(m\) mẫu từ \(X \times \{0,1\}\), có một hàm \(f : \mathcal X \rightarrow \{0,1\}\) và một phân phối \(\mathcal D\) trên \(\mathcal X \times \{0,1\}\) sao cho \(L_{\mathcal D}(f) = 0\) và

\(\underset{ S \sim \mathcal D^m}{\mathbb E} [L_{\mathcal D}(A'(S))] \geq 1/4 \quad (5.2)\)

Phương trình (5.2) đủ để chứng minh rằng \({\mathbb P}[L_{\mathcal D}(A'(S)) \geq 1/8] \geq 1/7\)

  • Chứng minh phương trình (5.1):

Có \(k = (2m)^m\) chuỗi gồm \(m\) mẫu từ \(C\) và kí hiệu các chuỗi này bởi \(S_1, S_2,…, S_k\). (\(S_j = (x_1,…,x_m)\)). Chúng ta kí hiêu \(S_{j}^i\) là các phần tử của chuỗi \(S_j\) được đánh nhãn bởi hàm \(f_i\), \(S_{j}^i = ((x_1, f_{i}(x_1)), (x_2, f_{i}(x_2)), …, (x_m, f_{i}(x_m)))\). Nếu phân phối là \(\mathcal D_i\) thì các tập huấn luyện mà thuật toán học A có thế nhận được là \(S_{1}^i, S_{2}^i, …, S_{k}^i\) và tất cả các tập huấn luyện cùng có xác suất của việc lấy mẫu như nhau nên:

\(\underset{ S \sim \mathcal D_{i}^m}{\mathbb E} [L_{\mathcal D_i}(A(S))] = \frac{1}{k} \sum_{1}^{k} L_{\mathcal D_i}(A(S_{j}^i)) \quad (5.3)\)

 

Bằng việc sử dụng tính tính chất maximum > average > minimum, ta có:

\(\max\limits_{i \in [T]} \frac{1}{k} \sum_{1}^{k} L_{\mathcal D_i}(A(S_{j}^i)) \geq \frac{1}{T} \sum_{1}^{T} \frac{1}{k} \sum_{1}^{k} L_{\mathcal D_i}(A(S_{j}^i)) \geq \min\limits_{j \in [k]} \frac{1}{T} \sum_{1}^{T} L_{\mathcal D_i}(A(S_{j}^i)) \quad (5.4) \\\)

Cố định chuỗi \(S_{j} = (x_1, x_2,…, x_m)\) và \(v_1, v_2, …v_p\) là các mẫu trong \(C\) mà không xuất hiện trong \(S_j\). cho nên với mọi giả thiết \(h: C \rightarrow \{0,1\}\) và với mọi \(i\) ta có:

\(L_{\mathcal D_i}(h) = \frac{1}{2m} \sum_{x \in C} \mathbb 1 [h(x) \ne f_{i}(x)]\\ \quad \quad \quad \geq \frac{1}{2m} \sum_{r=1}^p \mathbb{1}[h(v_r) \ne f_{i}(v_r)] \\ \quad \quad \quad \geq \frac{1}{2p} \sum_{r=1}^p \mathbb{1}[h(v_r) \ne f_{i}(v_r)] \quad (5.5)\)

Vì thế áp dụng công thức (5.5),

\(\frac{1}{T} \sum_{1}^{T} L_{\mathcal D_i}(A(S_{j}^i)) \geq \frac{1}{T} \sum_{1}^{T} \frac{1}{2p} \sum_{r=1}^p 1[A(S_j^i)(v_r) \ne f_{i}(v_r)] \\ \quad \quad \quad \quad \quad \quad \quad \quad = \frac{1}{2p} \sum_{1}^{p} \frac{1}{T} \sum_{i=1}^T 1[A(S_j^i)(v_r) \ne f_{i}(v_r)] \\ \quad \quad \quad \quad \quad \quad \quad \quad \geq  \frac{1}{2} \min\limits_{r \in [p]} \frac{1}{T} \sum_{i=1}^T 1[A(S_j^i)(v_r) \ne f_{i}(v_r)] \quad (5.6)  \)

Chúng ta có thể phân hoạch các hàm \(f_1, f_2, …, f_T\) thành \(T/2\)  cặp không giao nhau. Trong đó 1 cặp \((f_i, f_i’)\) với mọi \(c \in C, f_{i}(c) \ne f_{i’}(c) \) nếu và chỉ nếu \(c = v_r\). Đối với 1 cặp như vậy chúng ta có \(S_{j}^i = S_{j}^{i’} \) thì:

\( 1[A(S_j^i)(v_r) \ne f_{i}(v_r)]  + 1[A(S_j^{i’})(v_r) \ne f_{i’}(v_r)]  =1 \)

Từ đó sinh ra,

\(\frac{1}{T} \sum_{r=1}^T 1[A(S_j^i)(v_r) \ne f_{i}(v_r)] = \frac{1}{2}\)

Từ công thức (5.6), (5.4) và (5.3) ta có thể suy ra công thức (5.1)

Vậy công thức (5.1) đã được chứng minh đồng nghĩa với (5.2) cũng được chứng minh. Vì công thức (5.2) bản chất là viết lại một cách khái quát của (5.1). Phần tiếp theo ta đi chứng minh định lý “không có bữa ăn nào miễn phí” (No-Free-Lunch).

Với (5.2) ta cần chứng minh \(\mathbb{P}[L_{\mathcal{D}}(A'(S)) \geq 1/8] \geq 1/7\)

Để chứng minh được bất đẳng thức trên cần sử dụng bổ đề B.1. Bổ đề B.1 được phát biểu và chứng minh như sau:

Bổ đề B.1: Cho \(Z\) là một biến ngẫu nhiên có giá trị trong khoảng \([0, 1]\). Giả sử rằng \(\mathbb{E}[Z] = \mu\). Thì với bất kì \(\alpha \in (0, 1)\)

\(\mathbb{P}[Z > 1 – \alpha] \geq \frac{\mu – (1-\alpha)}{\alpha}\)

hay viết cách khác rằng với mọi \(\alpha \in (0, 1)\)

\(\mathbb{P}[Z > \alpha] \geq \frac{\mu – \alpha}{1 -\alpha} \quad (5.7)\\\)

Chứng minh bổ đề B1:

Cho \(Y = 1 – Z\) thì \(Y\) là một biến ngẫu nhiên không âm với \(\mathbb{E}[Y] = 1 – \mathbb{E}[Z] = 1 – \mu\). Sử dụng bất đẳng thức Markov ta có:

\(\mathbb{P}[Z \leq 1 – \alpha] = \mathbb{P}[1-Z \geq \alpha] =\mathbb{P}[Y \geq \alpha] \leq \frac{\mathbb{E}[Y]}{\alpha} = \frac{1 – \mu}{\alpha}\\ \)

Vậy nên

\(\mathbb{P}[Z  > 1 – \alpha] \geq 1 – \frac{1 – \mu}{\alpha} = \frac{\alpha + \mu – 1}{\alpha} = \frac{\mu – (1-\alpha)}{\alpha} \)

 

Bất đẳng thức Markov: \(\forall \alpha \geq 0, \mathbb{P}[Z \geq \alpha] \leq \frac{\mathbb{E}[Z]}{\alpha}\)

Theo công thức (5.2) ta có: \(\underset{ S \sim \mathcal D^m}{\mathbb E} [L_{\mathcal D}(A'(S))] \geq 1/4\). Áp dụng công thức (5.7) với \( Z = L_{\mathcal D}(A'(S)), \alpha = 1/8 \) ta có:

\(\mathbb{P}[L_{\mathcal{D}}(A'(S)) > 1/8] \geq \frac{{\mathbb E} [L_{\mathcal D}(A'(S))] – 1/8}{1 – 1/8} \geq \frac{1/4 – 1/8}{7/8} =1/7 \)

  • Hệ quả 5.2: Cho \(\mathcal X\) là một tập miền vô hạn và cho \(\mathcal H\) là tập tất cả các hàm từ \(\mathcal X\) đến \(\{0, 1\}\) thì lớp giả thuyết \(\mathcal H\) không thể học PAC.

Chứng minh: Sử dụng phương pháp phản chứng. Giả sử rằng lớp giả thiết có khả năng học. Chọn \(\epsilon < 1/8\) và \(\delta < 1/7\). Theo như định nghĩa về lớp giả thiết là PAC thì phải có một vài thuật toán học \(A\) và một số nguyên \( m = (\epsilon, \delta)\), sao cho bất kì phân phối dữ liệu được sinh ra trên \(\mathcal X \times \{0, 1\}\). Nếu có một vài hàm \(f : \mathcal X \rightarrow \{0, 1\}\) mà \(L_{\mathcal D}(f) =  0\) thì thuật toán \(A\) sẽ trả về một giả thuyết \(A(S)\) có xác suất ít nhất là \(1 – \delta\) sao cho \(L_{\mathcal D}(A(S)) \leq \epsilon\). Trong đó S là tập huấn luyện có kích thước \(m\) được sinh độc lập bởi phân phối \(\mathcal D\). Mặt khác, theo định lý (5.1-No-Free-Lunch) khi không gian \(|X| > 2m\) thì với mọi thuật toán học, tồn tại một phân phối \(\mathcal D\) sao cho với xác suất lớn hơn 1/7 > \(\delta\) và \(L_{\mathcal D}(A(S)) > 1/8 >  \epsilon\). Điều này dẫn đến mâu thuẫn với bên trên.

UML5.2 – Phân tích lỗi

This entry is part 3 of 3 in the series understanding machine learning chapter 5

Nhắc lại: như phần trước chúng ta đã phân tách lỗi của một bộ dự đoán \(ERM_{\mathcal H}\) thành 2 thành phần bias (approximation error) và complexity (estimation error) (Độ phức tạp của lớp giả thiết \(\mathcal H\)). Gọi \(h_{S}\) là một giả thiết \(ERM_{\mathcal H}\). chúng ta có thể viết lại:

\(L_{D}(h_{S}) = \epsilon_{app} + \epsilon_{est}\) trong đó:

\(\epsilon_{app}  = \min\limits_{h \in \mathcal H} L_{\mathcal D}(h)) \\ \epsilon_{est} = L_{D}(h_{S})  –  \epsilon_{app} \)
  • Lỗi xấp xỉ (Approximation Error): là rủi ro tối thiểu đạt được bởi một bộ dự đoán trong một lớp giả thiết. Số hạng này không phụ thuộc vào kích thước mẫu mà nó phụ thuộc vào lớp giả thiết đã được lựa chọn. Việc mở rộng lớp giả thiết có thể giảm đi lỗi xấp xỉ (approximation error).
  • Lỗi ước lượng (Estimation Error): là hiệu giữa lỗi xấp xỉ và lỗi đạt được bởi bộ dự đoán ERM. Số hạng này phụ thuộc vào kích thước tập huấn luyện hoặc độ phức tạp của lớp giả thiết \(\mathcal H\).

Mục đích của chúng ta là tối thiểu hóa tổng rủi ro vậy nên chúng ta đối mặt với việc cân bằng giữa bias-complexity. Việc chọn lớp giả thiết \(\mathcal H\) lớn thì sẽ giảm lỗi xấp xỉ tuy nhiên đồng thời lại tăng lỗi ước lượng. Vậy nên một lớp giả thiết \(\mathcal H\) lớn có thể dẫn đến Overfitting. Ngược lại, khi một lớp giả thiết \(\mathcal H\) nhỏ thì lại dễ dẫn tới Underfitting. Mặc dù chúng ta không thể biết được làm thể nào để xây dựng một lớp giả thiết tối ưu, tuy nhiên chúng ta vẫn có thể dựa vào một vài kiến thức biết trước của một bài toán cụ thể mà có thể thiết kế được lớp giả thiết có lỗi xấp xỉlỗi ước lượng không quá lớn.  Ví dụ, mặc dù chúng ta không thể biết chính xác màu sắc và độ cứng để dự đoán một quả đu đủ ngon nhưng dựa trên những kiến thức biết trước về những loại quả khác có màu sắc độ cứng sẽ ngon như nào thì ta cũng có thể xây dựng được bộ dự đoán tốt cho việc dự đoán vị ngon của quả đu đủ.

 

UML5 – Giới thiệu cân bằng giữa Bias-Complexity

This entry is part 1 of 3 in the series understanding machine learning chapter 5

Như trong chương 2, chúng ta đã thấy rằng dữ liệu huấn luyện có thể làm sai lệch bộ học và dẫn đến kết quả là Overfitting. Để khắc phục điều đó, thì chúng ta đã giới hạn không gian tìm kiếm trên một vài lớp giả thiết \(\mathcal H\). Lớp giả thiết này được xem như là một vài kiến thức biết trước (prior knowledge) mà bộ học biết về bài toán và có một niềm tin rằng một trong những giả thiết \(\mathcal h\) của lớp \(\mathcal H\) là một mô hình có lỗi thực nhỏ. Ví dụ trong bài toán đu đủ có vị ngon hay dở,  dựa trên kiến thức biết trước về các loại quả khác thì chúng ta phần nào có thể dự đoán được vị quả đu đủ dựa trên một số vùng màu sắc-độ cứng của quả.

Và trong chương 5 này, chúng ta sẽ trả lời 2 câu hỏi:

  • Liệu kiến thức biết trước có cần thiết cho sự thành công của việc học?
  • Liệu rằng có một bộ học tổng quát có thể giải được tất các bài toán? Chúng ta sẽ toán học hóa chút câu hỏi này. Một bài toán học cụ thể được định nghĩa bởi một phân phối chưa biết \(\mathcal D\) trên \(\mathcal X \times \mathcal Y \). Mục tiêu của bộ học là để tìm một bộ dự đoán \(\mathcal h\): \(\mathcal X \rightarrow \mathcal Y\) mà rủi ro thực tế, \(L_{\mathcal D}(h)\) là đủ nhỏ. Câu hỏi đặt ra là liệu có tồn tại một thuật toán học A và kích thước tập huấn luyện \(\mathcal m\), với mọi phân phối \(\mathcal D\), nếu A nhận được \(\mathcal m\) i.i.d mẫu học từ \(\mathcal D\) thì thuật toán học A có khả năng sinh ra bộ dự đoán \(\mathcal h\) mà có rủi ro thực tế thấp hay không?

Ứng với từng câu trả lời sẽ là từng phần của chương này:

Phần đầu tiên 5.1: Sẽ trả lời cho câu hỏi thứ 2 ứng với định lý nổi tiếng “Không có bữa ăn nào miễn phí”(No-Free Lunch Theorem) tuyên bố rằng không tồn tại bộ học tổng quát. Nghĩa là rằng, không có bộ học nào có thể giải được tất cả các bài toán bởi vì luôn luôn tồn tại một phân phối mà nó làm cho bộ học này thất bại tuy nhiên bộ học khác lại học thành công.

Từ định lý này, một bài toán học cụ thể được định nghĩa bởi một vài phân phối \(\mathcal D\) thì chúng ta nên có thêm một vài kiến thức biết trước trên \(\mathcal D\). Một số dạng kiến thức biết trước:

      • Kiến thức biết trước đến từ một vài họ tham số cụ thể của phân phối \(\mathcal D\) (sẽ học trong chương 24)
      • Kiến thức biết trước mà chúng ta đã học khi định nghĩa mô hình học PAC. Chúng ta đã giả sử có tồn tại giả thiết \(\mathcal h\) trong lớp giả thiết hữu hạn \(\mathcal H\) mà \(L_{\mathcal D}(h) = 0\)
      • Kiến thức biết trước mà chúng ta học khi định nghĩa mô hình học agnostic PAC . Giả thiết rằng, trong lớp hữu hạn \(\mathcal H\) có tồn tại \(min_{\mathcal h \in \mathcal H}L_{\mathcal D}(\mathcal h)\)

Phần thứ hai 5.2: Chúng ra sẽ nghiên cứu lợi ích và tác hại của việc khi thêm kiến thức biết trước trong một lớp giả thiết. Chúng ta sẽ phân tách lỗi của một thuật toán ERM qua lớp giả thiết \(\mathcal H\) thành 2 thành phần:

      • Phản ánh chất lượng của kiến thức biết trước được đo bằng rủi ro nhỏ nhất của một giả thiết trong một lớp giả thiết \(min_{h \in \mathcal H}L_{\mathcal D}(h)\). Thành phân này gọi là bias hay lỗi xấy xỉ (approximation error).
      • Lỗi do overfitting nó phụ thuộc vào kích thước và độ phức tạp của lớp giả thiết \(\mathcal H\). Thành phần này gọi là comlexity hay estimation error.

Trong đó, biascomlexity của một lớp giả thiết \(\mathcal H\) có quan hệ trái ngược nhau và chúng ta cần cân bằng điều chỉ để hợp lý chúng. Bởi vì, nếu ta tăng độ phức tạp của lớp giả thiết \(\mathcal H\) thì nó sẽ giảm bias tuy nhiên lại tăng khả năng overfitting, còn nếu ta giảm độ phức tạp của lớp giả thiết \(\mathcal H\) thì nó sẽ tăng bias nhưng lại giảm khả năng overfitting.

[Weekly Seminar] 02/ 11/ 2019

  1. Sinh viên báo cáo tiến độ khoá luận tốt nghiệp (đã làm trong tuần và dự định làm trong tuần tới)
  • SV Trần Văn Thắng: Tìm hiểu kiến trúc Android và triển khai trên kiến trúc Android đó.
  • SV Trần Minh Đức:
    • Bài toán Deepfuse (Ghép nhiều ảnh phơi sáng thành một ảnh đẹp như HDR).
    • Framework Services_streamer sử dụng Flask xử lí nhiều requests một lúc (gộp các requests trong một khoảng thời gian thành một batch rồi tính toán trên batch)
  • SV Đồng Xuân Toàn: kết quả mask Polyp của bài toán segmentation cho Ảnh nội soi dạ dày.
  • SV Hoàng Giang trình bày thực nghiệm của mô hình segmentation cho Ảnh siêu âm tim:
    • Dùng Bottleneck để giảm số tham số trong mô hình.
    • Sử dụng biến đổi ASPP skip connection để tạo global context.
    • Ảnh hưởng các loss function khác nhau tới kết quả Dice của mô hình.
  • NCS Lê Thị Thu Hồng đưa ra kết quả thử nghiệm trên 2 tập dữ liệu (ETIS-Larib, CVC-ColonDB)
    • Backbone: EfficientNet
    • Loss functon: Dice Loss, Cross-Entropy
  • SV Lê Phạm Văn Linh: Chuẩn hoá dữ liệu trong bài toán xác định liên kết phân tử đưa ra danh sách các thuộc tính (thêm đặc trưng của phân tử).
  1. NCS Hoàng Đình Thắng đọc Understanding Machine Learning chương 4 (CN. Nguyễn Minh Tuấn đọc thay)

UML4.2 – Các lớp hữu hạn có thể học Agnostic PAC

This entry is part 2 of 2 in the series understanding machine learning chapter 4
  • Theo quan điểm của hệ quả 4.4, mọi lớp giả thuyết hữu hạn \(\mathcal H\) đều có thể học agnostic PAC sau khi chúng ta thiết lập được tính chất hội tụ đều cho nó.
  • Trong phần này, để chứng minh tính hội tụ đều cho lớp giả thuyết hữu hạn \(\mathcal H\), chúng ta thực hiện theo hai bước
    1. Bước thứ nhất áp dụng union bound
    2. Bước thứ hai sử dụng một bất đẳng thức đo mức độ tập trung quanh kỳ vọng của biến ngẫu nhiên – measure concentration inequality.
  • Với \(\epsilon, \delta\) cho trước, chúng ta cần tìm tập mẫu kích thước \(\mathcal{m}\)  đảm bảo rằng với bất kỳ \(\mathcal{D}\), với xác xuất ít nhất \(1-\delta\) khi chọn \(S=(z_1,…,z_m)\) ngẫu nhiên từ \(\mathcal{D}\), sao cho \(\forall h \in \mathcal{H}, |L_S(h)-L_\mathcal{D}(h)| \leq  \epsilon\) .
    Lúc đó, ta có:
    \[\mathcal{D^m}(\{S: \forall h \in \mathcal{H}, |L_S(\mathcal{h})-L_\mathcal{D}(h)| \leq  \epsilon\} ) \geq 1- \delta \]
    Tương đương với,
    \[A = \mathcal{D^m}(\{S: \exists h \in \mathcal{H}, |L_S(h)-L_\mathcal{D}(h)| >  \epsilon\} ) < \delta \qquad \textbf{(4.0)}  \]
    Khai triển:
    \[\{ S:\exists h \in \mathcal{H}, |L_S(h)-L_\mathcal{D}(h)| >  \epsilon \} =  \cup_{h \in \mathcal H} \{S: |L_S(h)-L_\mathcal{D}(h)| >  \epsilon\}\]
    Áp dụng bổ đề 2.2 (union bound), ta có:
    \[A  \leq \sum_{h \in \mathcal H} \mathcal{D^m}(\{S: |L_S(h)-L_\mathcal{D}(h)| >  \epsilon\} ) \qquad \textbf{(4.1)}  \]
  • Ý tưởng ở đây là, khi \(m\) đủ lớn và giả thuyết \(h\) cố định, mỗi số hạng bên vế phải, tức là khoảng cách giữa rủi ro kỳ vọng và rủi ro thực nghiệm \(|L_S(h)-L_\mathcal{D}(h)|\), sẽ nhỏ theo bất đẳng thức Hoeffding sau.
  • Bổ đề 4.5  (Bất đẳng thức Hoeffding-Hoeffding’s Inequality) Với \(\theta_1,…, \theta_m\) là chuỗi biến ngẫu nhiên độc lập, và giả sử rằng với mọi \(\mathcal{i}\), \(\mathbb E[\theta_i]=\mu\)  và \(\mathbb P[a \leq  \theta_i \leq b] =1\). Thì với bất kỳ \(\epsilon > 0\):
    \[\mathbb P\left[ \left| \frac{1}{m}\sum_{i=1}^m\theta_i -\mu  \right| > \epsilon  \right] \leq 2 \exp\left(-2\frac{m\epsilon^2}{(b-a)^2}\right)\]
    (Ý nghĩa: Xác suất để trung bình cộng cách xa kì vọng là rất nhỏ)
  • Với \(\theta_i \) là biến ngẫu nhiên \(\ell(h,z_i) \in [0,1]\), \(L_S(h)=\frac{1}{m}\sum_{i=1}^{m}\theta_i\) và \(L_\mathcal{D}(h)=\mu\). Áp dụng bổ đề 4.5, với mọi giả thuyết \(h\) cho trước:
    \[\mathcal{D^m}(\{S:|L_S(h)-L_\mathcal{D}(h)| >  \epsilon\} ) =\mathbb P\left[ \left| \frac{1}{m}\sum_{i=1}^m\theta_i -\mu  \right| > \epsilon  \right] \leq 2 \exp\left(-2m\epsilon^2\right) \qquad \textbf{(4.2)} \]
    Kết hợp với biểu thức (4.1), ta có
    \[ A \leq \sum_{h \in \mathcal H} 2 \exp\left(-2m\epsilon^2\right) = 2| \mathcal H| \exp\left(-2m\epsilon^2\right)  < \delta \]
  • Nếu chọn
    \[m \geq \frac{\log(2|\mathcal{H}|/\delta)}{2\epsilon^2}\]
    thì
    \[\mathcal{D^m}(\{S: \exists h \in \mathcal{H}, |L_S(h)-L_\mathcal{D}(h)| >  \epsilon\} )  \leq \delta \]
  • Hệ quả 4.6 Với lớp giả thuyết hữu hạn \(\mathcal{H} \), miền \(\mathcal{Z}\) và hàm lỗi \(\ell: \mathcal{H} \times \mathcal{Z} \rightarrow [0,1]\), thì \(\mathcal{H} \) có thuộc tính hội tụ đều với độ phức tạp mẫu
    \[\mathcal{m}_\mathcal{H}^{UC} (\epsilon, \delta) \leq  \lceil \frac{\log(2|\mathcal{H}|/\delta)}{2\epsilon^2} \rceil \]
    Hơn nữa, \(\mathcal{H}\) có thể học agnostic PAC bằng thuật toán ERM với độ phức tạp mẫu
    \[\mathcal{m}_\mathcal{H} (\epsilon, \delta) \leq \mathcal{m}_\mathcal{H}^{UC} (\epsilon/2, \delta)  \leq  \lceil \frac{2\log(2|\mathcal{H}|/\delta)}{\epsilon^2} \rceil\]
  • Chú ý 4.1: Mọi mô hình có \(d\) tham số (số thực 64 bit) đều đại diện cho không gian giả thuyết hữu hạn \(|\mathcal H| = 2^{64d}\), do đó mô hình đó có thể học Xấp xỉ đúng với xác suất cao (PAC learnable).

 

UML4.1- Hội tụ đều là điều kiện đủ cho khả năng học

This entry is part 1 of 2 in the series understanding machine learning chapter 4
  • Một số ký hiệu dùng trong phần này
    \(Z\) – tập các mẫu dữ liệu
    \(\mathcal H\) – không gian giả thuyết rút gọn (mô hình của hàm dự đoán \(h\))
    \(\ell\) – hàm lỗi \(\ell: \mathcal H \times Z \rightarrow \mathbb R^+\)
    \(\mathcal D\) – phân bố trên \(Z\) của dữ liệu
    \(L_S(h)\) – rủi ro thực nghiệm (lỗi) trên tập dữ liệu \(S\)
    \(L_{\mathcal D}(h)\) – rủi ro kỳ vòng trên phân bố dữ liệu \(\mathcal D\)
  • Chương trước đã chỉ ra rằng với giả định khả thi (realizability assumption), tập giả thuyết hữu hạn bất kỳ nào cũng có thể học được PAC (PAC learnable).
  • Trong chương này, sẽ giới thiệu một công cụ tổng quát -hội tụ đều (uniform convergence) và áp dụng nó để chỉ ra rằng bất kỳ tập giả thuyết hữu hạn nào cũng có thể học được trong mô hình agnostic PAC với hàm lỗi tổng quát, khi phạm vi hàm lỗi bị giới hạn.
  • Với một tập giả thuyết \(\mathcal{H}\), mô hình học ERM hoạt động như sau: Với một tập huấn luyện, thuật toán huấn luyện \(A\) đánh giá rủi ro thực nghiệm (hoặc lỗi) của mỗi hàm dự đoán (giả thuyết) \(h\) trong \(\mathcal{H}\) trên tập huấn luyện \(S\) và đưa ra một phần tử \(A(S) \in \mathcal{H}\) tối thiểu hóa rủi ro thực nghiệm này.
    Chúng ta muốn khi hàm dự đoán \(h\) giảm thiểu rủi ro thực nghiệm đối với \(S\) thì \(h\) cũng làm giảm thiểu rủi ro kỳ vọng trên phân bố dữ liệu \(\mathcal D\). Nói cách khác, rủi ro thực nghiệm cần phải gần với rủi ro kỳ vọng trên tất cả các giả thuyết trong tập giả thuyết.
  • Định nghĩa 4.1 (\(\epsilon\)-representative sample-mẫu \(\epsilon\)-đại diện):  Một tập huấn luyện \(S\) được gọi là \(\epsilon\)-đại diện (đối với miền \(Z\), tập giả thuyết \(\mathcal{H}\), hàm lỗi \(\ell \) và phân bố \(\mathcal{D}\)) nếu: \[\forall h \in \mathcal{H}, |L_S(h)-L_D(h)| \leq \epsilon \]
  • Bổ đề sau chỉ ra rằng, bất cứ khi nào mẫu huấn luyện là (\(\frac{\epsilon}{2}\) – đại diện), thì thuật toán học ERM đảm bảo trả về một hàm dự đoán (giả thuyết) tốt.
  • Bổ đề 4.2 Giả sử rằng một tập huấn luyện \(S\) là \(\frac{\epsilon}{2}\)-đại diện đối với \(\langle Z, \mathcal{H}, \ell, \mathcal{D}\rangle\), thì kết quả của thuật toán học \(ERM_{\mathcal H}\): \(h_S \in \underset{h \in \mathcal H}{\arg\min\ L_S(h)}\), thỏa mãn\[L_{\mathcal{D}} (h_S)  \leq \underset{ h \in \mathcal  {H} }{\min L_{\mathcal D } (h) } + \epsilon\]

Chứng minh: với mọi \(h \in \mathcal{H}\),
\(L_{\mathcal{D}} (h_S)  \leq L_{S} (h_S) + \frac{\epsilon}{2}  \leq L_{S} (\mathcal{h}) + \frac{\epsilon}{2}  \leq L_{\mathcal{D}} (h) + \frac{\epsilon}{2} + \frac{\epsilon}{2} = L_{\mathcal{D}} (h) + \epsilon \) 
Bất đẳng thức 1 và 3 là do giả định \(S\) là  \(\frac{\epsilon}{2} \)-đại diện
– Bất đẳng thức thứ 2 là do \(h_S\) là một dự đoán \(ERM\) thì \(L_{S} (h_S) \leq L_{S} (h)\)

  • Định nghĩa 4.3 (Hội tụ đều): Một tập giả thuyết \(\mathcal{H}\)  có tính chất hội tụ đều đối với \(\langle Z, \ell\rangle \) nếu tồn tại một hàm \(m_\mathcal{H}^{UC}: (0,1)^2 \rightarrow \mathbb{N}\)  sao cho với mọi \(\epsilon, \delta \in (0, 1)\) và với mọi phân bố xác xuất \(\mathcal{D}\) trên \(Z\), nếu \(S\) là tập mẫu của \(m \geq \mathcal{m}_{H}^{UC} (\epsilon, \delta)\) phần tử được lấy độc lập với nhau trong tập \(\mathcal{D}\) thì với xác xuất ít nhất \(1-\delta\), \(S\) là tập \(\epsilon\)-đại diện.
  • Hệ quả 4.4 Nếu \(\mathcal H\) có thuộc tính hội tụ đều với hàm \(m_\mathcal{H}^{UC}\) thì có thể học Xấp xỉ đúng với xác xuất cao (Agnostically PAC learnable) với độ phức tạp mẫu \(m_\mathcal{H} (\epsilon, \delta) \leq m_\mathcal{H}^{UC} (\frac{\epsilon}{2}, \delta)\). Hơn nữa, trong trường hợp này, thuật toán học \(ERM_\mathcal{H}\) là thuật toán học agnostic PAC trên \(\mathcal{H}\).