CÔNG CỤ

Cài đặt Anaconda KNN (K Nearest Neighbors) trong Python Hồi quy tuyến tính (Linear Regression) trong Python Hồi Quy Logistic (Logistic Regression) trong Python Reference Counting trong Python Hướng dẫn cài đặt PyTorch với Deep Learning Garbage Collection trong Python Hướng dẫn về Tensor cơ bản trong PyTorch Dynamic Typing trong Python Sử dụng Gradient Descent với Autograd trong PyTorch Mutable and Immutable trong Python Training Pipeline trong PyTorch Beginner Toán tử is trong Python Hồi quy tuyến tính trong PyTorch Beginner Hồi quy Logistic trong PyTorch Beginner Dataset và DataLoader trong PyTorch Beginner Dataset Transforms trong PyTorch Beginner Softmax và Cross Entropy trong PyTorch Beginner Tìm hiểu Activation Functions trong PyTorch Mạng Nơ-Ron truyền thẳng (Feed Forward Neural Network) trong PyTorch Hướng dẫn cơ bản mạng Nơ-ron Tích Chập (CNN) trong PyTorch Học chuyển giao (Transfer Learning) trong PyTorch Beginner Tìm hiểu về TensorBoard với PyTorch Cách lưu trữ và tải lại Models trong PyTorch Cài đặt Jupyter Notebook Cài đặt package Python

MODULES

Toán tử and trong Python Toán tử or trong Python Kiểu dữ liệu float trong Python Chuyển đổi float sang int trong Python Hàm round() trong Python Mô-đun decimal của Python Phạm vi biến trong Python Tổng quan về closures trong Python Các phạm vi nonlocal trong Python Bài tập Python: DateTime trong Python Decorator trong Python Decorator với tham số trong Python Chuyển chuỗi Python thành DateTime trong Python Decorator Class trong Python TimeDelta trong Python Monkey Patching trong Python Bài tập Python: JSON trong Python Các sequence trong Python Bài tập Python : Tạo dữ liệu ngẫu nhiên trong Python Tuple và List trong Python Cắt Chuỗi (Slicing) Trong Python Dãy số Fibonacci trong Python Tìm hiểu về Iterator trong Python Iterator vs Iterable trong Python Sử dụng hiệu quả hàm iter() trong Python Tìm hiểu Generators trong Python Biểu thức Generator trong Python Context Managers trong Python Multiprocessing trong Python Xử lý MySQL trong Python Python Google Translator JSON trong Python Random trong Python Đối tượng None trong Python Sử dụng số nguyên trong Python Tìm hiểu Floor Division trong Python Phép toán Modulo trong Python Phép toán Boolean trong Python

THAM KHẢO

Cách chia List thành các phần bằng nhau trong Python Cách xóa một khóa (key) ra khỏi dictionary trong Python Hướng dẫn chuyển đổi file Google Colab sang Markdown trong Python Bài tập Python: Lập trình cơ sở dữ liệu trong Python Kết nối cơ sở dữ liệu MySQL Python Hướng dẫn kết nối Python PostgreSQL bằng Psycopg2 Hướng dẫn kết nối SQLite sử dụng sqlite3 trong Python Bài tập Python : Pandas trong Python Phạm vi số float của Python Cách lên lịch chạy script Python bằng GitHub Actions Cách tạo hằng số trong Python Các nền tảng lưu trữ tốt nhất cho ứng dụng và script Python 6 Tip viết vòng lặp For hiệu quả hơn trong Python Cách đảo ngược Chuỗi String trong Python Cách gỡ lỗi ứng dụng Python trong Docker Container bằng VS Code 10 tip One Liner bạn cần biết trong Python Cách áp dụng ngưỡng hình ảnh trong Python với NumPy Tìm hiểu về các phép toán Groupby trong Pandas Lập trình Socket trong Python Mô-đun base64 trong Python Cách giới hạn float values trong Python Tìm hiểu Mô-đun statistics Trong Python File Organizing trong Python Đổi tên File trong Python Tìm hiểu về Deque trong Python Mô-đun Calendar trong Python Tìm hiểu về Enum trong Python Sử dụng pprint trong Python Làm việc với cấu trúc Dữ liệu Stack trong Python Thư viện functools trong Python Tip sử dụng hàm round() với tham số âm trong Python Hàm print có thể nhận thêm các tham số bổ sung trong Python Tip tìm chuỗi dài nhất bằng hàm max() trong Python Cách lặp qua nhiều list với hàm zip() trong Python Tìm hiểu về MLOps trong Python Docker và Kubernetes với MLOps trong Python Kết hợp DevOps với MLOps trong Python Xử lý độ chính xác các hàm floor, ceil, round, trunc, format trong Python tối ưu quy trình MLOps Với Python Sự khác biệt giữa byte objects và string trong Python Top 4 thư viện phổ biến nhất của NLP trong Python Cách sử dụng ThreadPoolExecutor trong Python Phân tích dữ liệu Blockchain với Python Hướng dẫn triển khai Smart Contracts với Python Blockchain APIs với Python Làm việc với file ZIP trong Python Sự khác biệt giữa toán tử == và is trong Python Chuyển đổi kiểu dữ liệu trong Python Cách làm việc với file tarball/tar trong Python Sự khác biệt giữa iterator và iterable trong Python Sự khác biệt giữa set() và frozenset() trong Python Làm việc với các biến môi trường trong Python Một tác vụ phổ biến khi làm việc với danh sách trong Python Định dạng chuỗi Strings trong Python Sử dụng Poetry để quản lý dependencies trong Python Sự khác biệt giữa sort() và sorted() trong Python Từ khóa yield trong Python Lớp dữ liệu (Data Classes) trong Python với decorator @dataclass Cách truy cập và thiết lập biến môi trường trong Python Hướng dẫn toàn diện về module datetime trong Python Hướng dẫn xây dựng Command-Line Interface (CLI) bằng Quo trong Python Sử dụng Virtual Environment trong Python Từ khóa super() trong Python Số phức trong Python Ý nghĩa của một hoặc hai dấu gạch dưới đứng đầu trong Python Làm việc với Video trong OpenCV bằng Python Chỉnh sửa file trực tiếp bằng module fileinput trong Python Hướng dẫn cách chuyển đổi kiểu dữ liệu trong Python Làm việc với hình ảnh trong OpenCV sử dụng Python Metaclasses trong Python Cách chọn ngẫu nhiên một phần tử từ danh sách trong Python Hướng dẫn cài đặt và sử dụng OpenCV trong Python Phạm vi toàn cục, cục bộ và không cục bộ trong Python Tìm hiểu về từ khóa self trong các lớp Python Hướng dẫn sử dụng Rich, Typer, và SQLite trên terminal bằng Python Giới thiệu về Graph Machine Learning trong Python Cách kiểm tra một đối tượng có thể lặp (iterable) trong Python Quản lý sinh viên Python & MySQL Cách cắt (slicing) chuỗi trong Python Cách loại bỏ phần tử trùng lặp khỏi danh sách (List) trong Python Phân tích dữ liệu Apple Health bằng Python Cách làm phẳng danh sách lồng nhau trong Python Tìm hiểu về *args và **kwargs trong Python Cách xóa file và thư mục trong Python 31 Phương thức xử lý chuỗi (String) quan trọng trong Python Cách sao chép file trong Python 8 Mẹo Refactor Code Python nhanh gọn (Phần 2) Cách yêu cầu người dùng nhập liệu đến khi nhận được phản hồi hợp lệ trong Python Làm chủ Pattern Matching trong Python 3.10 Tạo app ghi chú trong Python với nhận dạng giọng nói và API Notion Các tính năng mới trong Python 3.10 5 lỗi thường gặp trong Python Sự khác biệt giữa append() và extend() trong list Python Các cách nối hai danh sách trong Python Sự khác biệt giữa str và repr trong Python Sự khác biệt giữa @classmethod, @staticmethod và instance methods trong Python Cách thêm số 0 vào đầu chuỗi trong Python Cách tạo thư mục lồng nhau (nested directory) trong Python Cách hợp nhất hai Dictionaries trong Python Cách thực thi lệnh hệ thống hoặc System Command từ Python Cách kiểm tra một chuỗi có chứa chuỗi con trong Python Cách tìm chỉ mục của một phần tử trong danh sách (List) trong Python Cách truy cập index trong vòng lặp for trong Python Cách kiểm tra file hoặc thư mục có tồn tại trong Python Cách xóa phần tử trong danh sách Python Ý nghĩa của if __name__ == "__main__" trong Python 8 mẹo tái cấu trúc Python giúp mã sạch hơn và Pythonic Hỗ trợ Async trong Django 3.1 Hướng dẫn tạo ứng dụng AI hội thoại với NVIDIA Jarvis trong Python Hướng dẫn xây dựng ứng dụng dự đoán giá cổ phiếu bằng Python Cách cài đặt Jupyter Notebook trong môi trường Conda và thêm Kernel Xây dựng ứng dụng Web Style Transfer với PyTorch và Streamlit Cách sử dụng Python Debugger với hàm breakpoint() Cách sử dụng chế độ interactive trong Python Hướng dẫn viết game Rắn Săn Mồi bằng Python 11 mẹo và thủ thuật để viết Code Python hiệu quả hơn Hướng dẫn làm ứng dụng TODO với Flask dành cho người mới bắt đầu trong Python Hướng dẫn tạo Chatbot đơn giản bằng PyTorch Xây dựng Web Machine Learning đẹp mắt với Streamlit và Scikit-learn trong Python Xây dựng web Python tự động hóa Twitter | Flask, Heroku, Twitter API & Google Sheets API Hướng dẫn sử dụng Google Sheets API với Python Cách nạp dữ liệu Machine Learning từ File trong Python Toán tử Walrus Operator- Tính năng mới trong Python 3.8 Cách thêm Progress Bar trong Python với chỉ một dòng Code List Comprehension trong Python Tạo danh sách phim ngẫu nhiên với Python Hướng dẫn Web Scraping tự động tải hình ảnh với Python Hướng dẫn sử dụng Anaconda bằng Python Hồi quy tuyến tính và hồi quy Logistic trong Python Thuật toán Naive Bayes trong Python Bắt đầu tìm hiểu Perceptron bằng Python SVM (Support Vector Machine) bằng Python Triển khai Decision Tree bằng Python Triển khai thuật toán Random Forest bằng Python Triển khai PCA bằng Python Thuật toán AdaBoost trong Python LDA (Linear Discriminant Analysis) trong Python

PYTHON NÂNG CAO

Thuật toán K-Means Clustering trong Python

CÁC CHỦ ĐỀ

Python Unit Testing
Python Regex
Python Concurrency
Tkinter Tutorial
PyQt Tutorial
Python căn bản
Python nâng cao
Django
Matplotlib
Pandas
Numpy
Python function

BÀI MỚI NHẤT

c language jpg

Các kiểu dữ liệu trong C ( int - float - double - char ...) thuat toan va giai thuat gif

thuat toan va giai thuat gif

Thuật toán tìm ước chung lớn nhất trong C/C++ thuat toan va giai thuat gif

thuat toan va giai thuat gif

Thuật toán tính lũy thừa nhanh trong C/C++ hoc c plus plus gif

hoc c plus plus gif

Cấu trúc lệnh switch case trong C++ (có bài tập thực hành) winform jpg

winform jpg

ComboBox - ListBox trong lập trình C# winforms python gif

python gif

Random trong Python: Tạo số random ngẫu nhiên winform jpg

winform jpg

Cách kết nối SQL Server trong C# Winforms lenh cin va cout trong c 2B 2B gif

lenh cin va cout trong c 2B 2B gif

Lệnh cin và cout trong C++

MỚI CẬP NHẬT

codeigniter gif

Cách khai báo biến trong PHP, các loại biến thường gặp cai dat vertrigo server gif

cai dat vertrigo server gif

Download và cài đặt Vertrigo Server hoc html gif

hoc html gif

Thẻ li trong HTML hoc html gif

hoc html gif

Thẻ nav trong HTML5 tim hieu doi tuong article trong html5 gif

tim hieu doi tuong article trong html5 gif

Thẻ article trong HTML5 tao template html5 dau tien gif

tao template html5 dau tien gif

Cấu trúc HTML5: Cách tạo template HTML5 đầu tiên dung the img trong html de tao hinh anh gif

dung the img trong html de tao hinh anh gif

Cách dùng thẻ img trong HTML và các thuộc tính của img dung the a trong html de tao links gif

dung the a trong html de tao links gif

Thẻ a trong HTML và các thuộc tính của thẻ a thường dùng

Thông báo: Download 4 khóa học Python từ cơ bản đến nâng cao tại đây.

Thuật toán AdaBoost trong Python

Trong bài hướng dẫn này, mình sẽ triển khai thuật toán AdaBoost chỉ bằng các module Python cơ bản và thư viện numpy. Đây là một kỹ thuật tổ hợp mạnh mẽ giúp kết hợp nhiều mô hình "yếu" (weak classifiers) thành một mô hình "mạnh" (strong classifier).

test php

banquyen png

Bài viết này được đăng tại freetuts.net, không được copy dưới mọi hình thức.

Mình sẽ cùng tìm hiểu các khái niệm, toán học đằng sau thuật toán AdaBoost và triển khai chi tiết thuật toán từ đầu.

Tổng quan Về AdaBoost trong Python

t E1 BA A3i 20xu E1 BB 91ng 20 10 jpg

AdaBoost (Adaptive Boosting) là một thuật toán học tổ hợp, nổi bật nhờ việc tăng cường hiệu suất của các bộ phân loại yếu. Thuật toán sử dụng cách tiếp cận trọng số, trong đó:

Trọng số được gán ban đầu cho từng mẫu dữ liệu.
Sau mỗi lần huấn luyện, trọng số được điều chỉnh dựa trên mẫu nào bị phân loại sai.
Bộ phân loại yếu được tổng hợp bằng cách tính trọng số (alpha) dựa trên lỗi của nó.

Kết quả là một tổ hợp các mô hình phân loại được "boost" qua nhiều vòng lặp.

Bài viết này được đăng tại [free tuts .net]

Cây Quyết Định Nhỏ (Decision Stump)

Cây quyết định nhỏ là bộ phân loại đơn giản, thường được dùng làm mô hình "yếu" trong AdaBoost.

import numpy as np

class DecisionStump:
    def __init__(self):
        self.polarity = 1  # Hướng của quyết định (>= hoặc <)
        self.feature_idx = None  # Chỉ số đặc trưng
        self.threshold = None  # Ngưỡng phân loại
        self.alpha = None  # Trọng số của bộ phân loại

    def predict(self, X):
        """
        Dự đoán nhãn (-1 hoặc 1) cho dữ liệu X.
        """
        n_samples = X.shape[0]
        X_column = X[:, self.feature_idx]
        predictions = np.ones(n_samples)
        if self.polarity == 1:
            predictions[X_column < self.threshold] = -1
        else:
            predictions[X_column > self.threshold] = -1

        return predictions

Thuật Toán AdaBoost

Thuật toán AdaBoost kết hợp nhiều cây quyết định nhỏ để tạo thành một bộ phân loại mạnh.

class Adaboost:
    def __init__(self, n_clf=5):
        """
        - n_clf: Số bộ phân loại yếu (decision stumps) cần tạo.
        """
        self.n_clf = n_clf

    def fit(self, X, y):
        """
        Huấn luyện mô hình AdaBoost.
        - X: Dữ liệu đầu vào (n_samples, n_features).
        - y: Nhãn (-1 hoặc 1).
        """
        n_samples, n_features = X.shape
        # Khởi tạo trọng số cho từng mẫu
        w = np.full(n_samples, (1 / n_samples))

        self.clfs = []

        for _ in range(self.n_clf):
            clf = DecisionStump()

            min_error = float('inf')

            # Tìm ngưỡng tốt nhất cho từng đặc trưng
            for feature_i in range(n_features):
                X_column = X[:, feature_i]
                thresholds = np.unique(X_column)

                for threshold in thresholds:
                    p = 1  # Mặc định polarity = 1
                    predictions = np.ones(n_samples)
                    predictions[X_column < threshold] = -1

                    # Tính lỗi
                    misclassified = w[y != predictions]
                    error = sum(misclassified)

                    if error > 0.5:
                        error = 1 - error
                        p = -1

                    # Lưu cây quyết định tốt nhất
                    if error < min_error:
                        clf.polarity = p
                        clf.threshold = threshold
                        clf.feature_idx = feature_i
                        min_error = error

            # Tính trọng số alpha
            EPS = 1e-10  # Tránh lỗi số học khi chia cho 0
            clf.alpha = 0.5 * np.log((1.0 - min_error + EPS) / (min_error + EPS))

            # Cập nhật trọng số mẫu
            predictions = clf.predict(X)
            w *= np.exp(-clf.alpha * y * predictions)
            w /= np.sum(w)

            # Lưu bộ phân loại
            self.clfs.append(clf)

    def predict(self, X):
        """
        Dự đoán nhãn dữ liệu dựa trên tổ hợp các bộ phân loại yếu.
        """
        clf_preds = [clf.alpha * clf.predict(X) for clf in self.clfs]
        y_pred = np.sum(clf_preds, axis=0)
        y_pred = np.sign(y_pred)

        return y_pred

Giải thích mã nguồn

Khởi tạo DecisionStump:

Bộ phân loại yếu sử dụng một đặc trưng và một ngưỡng để dự đoán.

Tìm bộ phân loại tối ưu:

Mỗi vòng lặp, thuật toán tìm ngưỡng và đặc trưng sao cho giảm thiểu lỗi.

Cập nhật trọng số:

Trọng số của các mẫu bị phân loại sai sẽ tăng, giúp các vòng lặp sau chú trọng hơn vào chúng.

Tính trọng số (alpha):

Bộ phân loại yếu có hiệu quả tốt sẽ được gán trọng số lớn hơn trong tổ hợp.

Tổ hợp kết quả:

Kết quả cuối cùng là tổng có trọng số từ các bộ phân loại yếu.

Ví dụ sử dụng AdaBoost trong Python

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.datasets import make_classification

# Tạo dữ liệu mẫu
X, y = make_classification(n_samples=500, n_features=10, n_classes=2, random_state=42)
y = np.where(y == 0, -1, 1)  # Chuyển nhãn 0 thành -1 để phù hợp với AdaBoost

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Huấn luyện mô hình AdaBoost
model = Adaboost(n_clf=10)
model.fit(X_train, y_train)

# Dự đoán và đánh giá
y_pred = model.predict(X_test)
print("Độ chính xác:", accuracy_score(y_test, y_pred))

Kết bài

AdaBoost là thuật toán linh hoạt và hiệu quả cho các bài toán phân loại. Việc triển khai từ đầu giúp bạn hiểu rõ cơ chế hoạt động và cách tổ hợp các mô hình yếu để tạo thành mô hình mạnh mẽ. Hy vọng bài viết này hữu ích cho bạn trong việc áp dụng thuật toán vào các dự án thực tế!

Bài trước Bài tiếp

Cùng chuyên mục:

Cách lưu trữ và tải lại Models trong PyTorch

Cách lưu trữ và tải lại Models trong PyTorch

Tìm hiểu về TensorBoard với PyTorch

Tìm hiểu về TensorBoard với PyTorch

Học chuyển giao (Transfer Learning) trong PyTorch Beginner

Học chuyển giao (Transfer Learning) trong PyTorch Beginner

Hướng dẫn cơ bản mạng Nơ-ron Tích Chập (CNN) trong PyTorch

Hướng dẫn cơ bản mạng Nơ-ron Tích Chập (CNN) trong PyTorch

Mạng Nơ-Ron truyền thẳng (Feed Forward Neural Network) trong PyTorch

Mạng Nơ-Ron truyền thẳng (Feed Forward Neural Network) trong PyTorch

Tìm hiểu Activation Functions trong PyTorch

Tìm hiểu Activation Functions trong PyTorch

Softmax và Cross Entropy trong PyTorch Beginner

Softmax và Cross Entropy trong PyTorch Beginner

Dataset Transforms trong PyTorch Beginner

Dataset Transforms trong PyTorch Beginner

Dataset và DataLoader trong PyTorch Beginner

Dataset và DataLoader trong PyTorch Beginner

Hồi quy Logistic trong PyTorch Beginner

Hồi quy Logistic trong PyTorch Beginner

Hồi quy tuyến tính trong PyTorch Beginner

Hồi quy tuyến tính trong PyTorch Beginner

Training Pipeline trong PyTorch Beginner

Training Pipeline trong PyTorch Beginner

Sử dụng Gradient Descent với Autograd trong PyTorch

Sử dụng Gradient Descent với Autograd trong PyTorch

Hướng dẫn về Tensor cơ bản trong PyTorch

Hướng dẫn về Tensor cơ bản trong PyTorch

Hướng dẫn cài đặt PyTorch với Deep Learning

Hướng dẫn cài đặt PyTorch với Deep Learning

LDA (Linear Discriminant Analysis) trong Python

LDA (Linear Discriminant Analysis) trong Python

Thuật toán K-Means Clustering trong Python

Thuật toán K-Means Clustering trong Python

Triển khai PCA bằng Python

Triển khai PCA bằng Python

Triển khai thuật toán Random Forest bằng Python

Triển khai thuật toán Random Forest bằng Python

Triển khai Decision Tree bằng Python

Triển khai Decision Tree bằng Python

Top