CÔNG CỤ
MODULES
THAM KHẢO
Cách chia List thành các phần bằng nhau trong Python Cách xóa một khóa (key) ra khỏi dictionary trong Python Hướng dẫn chuyển đổi file Google Colab sang Markdown trong Python Bài tập Python: Lập trình cơ sở dữ liệu trong Python Kết nối cơ sở dữ liệu MySQL Python Hướng dẫn kết nối Python PostgreSQL bằng Psycopg2 Hướng dẫn kết nối SQLite sử dụng sqlite3 trong Python Bài tập Python : Pandas trong Python Phạm vi số float của Python Cách lên lịch chạy script Python bằng GitHub Actions Cách tạo hằng số trong Python Các nền tảng lưu trữ tốt nhất cho ứng dụng và script Python 6 Tip viết vòng lặp For hiệu quả hơn trong Python Cách đảo ngược Chuỗi String trong Python Cách gỡ lỗi ứng dụng Python trong Docker Container bằng VS Code 10 tip One Liner bạn cần biết trong Python Cách áp dụng ngưỡng hình ảnh trong Python với NumPy Tìm hiểu về các phép toán Groupby trong Pandas Lập trình Socket trong Python Mô-đun base64 trong Python Cách giới hạn float values trong Python Tìm hiểu Mô-đun statistics Trong Python File Organizing trong Python Đổi tên File trong Python Tìm hiểu về Deque trong Python Mô-đun Calendar trong Python Tìm hiểu về Enum trong Python Sử dụng pprint trong Python Làm việc với cấu trúc Dữ liệu Stack trong Python Thư viện functools trong Python Tip sử dụng hàm round() với tham số âm trong Python Hàm print có thể nhận thêm các tham số bổ sung trong Python Tip tìm chuỗi dài nhất bằng hàm max() trong Python Cách lặp qua nhiều list với hàm zip() trong Python Tìm hiểu về MLOps trong Python Docker và Kubernetes với MLOps trong Python Kết hợp DevOps với MLOps trong Python Xử lý độ chính xác các hàm floor, ceil, round, trunc, format trong Python tối ưu quy trình MLOps Với Python Sự khác biệt giữa byte objects và string trong Python Top 4 thư viện phổ biến nhất của NLP trong Python Cách sử dụng ThreadPoolExecutor trong Python Phân tích dữ liệu Blockchain với Python Hướng dẫn triển khai Smart Contracts với Python Blockchain APIs với Python Làm việc với file ZIP trong Python Sự khác biệt giữa toán tử == và is trong Python Chuyển đổi kiểu dữ liệu trong Python Cách làm việc với file tarball/tar trong Python Sự khác biệt giữa iterator và iterable trong Python Sự khác biệt giữa set() và frozenset() trong Python Làm việc với các biến môi trường trong Python Một tác vụ phổ biến khi làm việc với danh sách trong Python Định dạng chuỗi Strings trong Python Sử dụng Poetry để quản lý dependencies trong Python Sự khác biệt giữa sort() và sorted() trong Python Từ khóa yield trong Python Lớp dữ liệu (Data Classes) trong Python với decorator @dataclass Cách truy cập và thiết lập biến môi trường trong Python Hướng dẫn toàn diện về module datetime trong Python Hướng dẫn xây dựng Command-Line Interface (CLI) bằng Quo trong Python Sử dụng Virtual Environment trong Python Từ khóa super() trong Python Số phức trong Python Ý nghĩa của một hoặc hai dấu gạch dưới đứng đầu trong Python Làm việc với Video trong OpenCV bằng Python Chỉnh sửa file trực tiếp bằng module fileinput trong Python Hướng dẫn cách chuyển đổi kiểu dữ liệu trong Python Làm việc với hình ảnh trong OpenCV sử dụng Python Metaclasses trong Python Cách chọn ngẫu nhiên một phần tử từ danh sách trong Python Hướng dẫn cài đặt và sử dụng OpenCV trong Python Phạm vi toàn cục, cục bộ và không cục bộ trong Python Tìm hiểu về từ khóa self trong các lớp Python Hướng dẫn sử dụng Rich, Typer, và SQLite trên terminal bằng Python Giới thiệu về Graph Machine Learning trong Python Cách kiểm tra một đối tượng có thể lặp (iterable) trong Python Quản lý sinh viên Python & MySQL Cách cắt (slicing) chuỗi trong Python Cách loại bỏ phần tử trùng lặp khỏi danh sách (List) trong Python Phân tích dữ liệu Apple Health bằng Python Cách làm phẳng danh sách lồng nhau trong Python Tìm hiểu về *args và **kwargs trong Python Cách xóa file và thư mục trong Python 31 Phương thức xử lý chuỗi (String) quan trọng trong Python Cách sao chép file trong Python 8 Mẹo Refactor Code Python nhanh gọn (Phần 2) Cách yêu cầu người dùng nhập liệu đến khi nhận được phản hồi hợp lệ trong Python Làm chủ Pattern Matching trong Python 3.10 Tạo app ghi chú trong Python với nhận dạng giọng nói và API Notion Các tính năng mới trong Python 3.10 5 lỗi thường gặp trong Python Sự khác biệt giữa append() và extend() trong list Python Các cách nối hai danh sách trong Python Sự khác biệt giữa str và repr trong Python Sự khác biệt giữa @classmethod, @staticmethod và instance methods trong Python Cách thêm số 0 vào đầu chuỗi trong Python Cách tạo thư mục lồng nhau (nested directory) trong Python Cách hợp nhất hai Dictionaries trong Python Cách thực thi lệnh hệ thống hoặc System Command từ Python Cách kiểm tra một chuỗi có chứa chuỗi con trong Python Cách tìm chỉ mục của một phần tử trong danh sách (List) trong Python Cách truy cập index trong vòng lặp for trong Python Cách kiểm tra file hoặc thư mục có tồn tại trong Python Cách xóa phần tử trong danh sách Python Ý nghĩa của if __name__ == "__main__" trong Python 8 mẹo tái cấu trúc Python giúp mã sạch hơn và Pythonic Hỗ trợ Async trong Django 3.1 Hướng dẫn tạo ứng dụng AI hội thoại với NVIDIA Jarvis trong Python Hướng dẫn xây dựng ứng dụng dự đoán giá cổ phiếu bằng Python Cách cài đặt Jupyter Notebook trong môi trường Conda và thêm Kernel Xây dựng ứng dụng Web Style Transfer với PyTorch và Streamlit Cách sử dụng Python Debugger với hàm breakpoint() Cách sử dụng chế độ interactive trong Python Hướng dẫn viết game Rắn Săn Mồi bằng Python 11 mẹo và thủ thuật để viết Code Python hiệu quả hơn Hướng dẫn làm ứng dụng TODO với Flask dành cho người mới bắt đầu trong Python Hướng dẫn tạo Chatbot đơn giản bằng PyTorch Xây dựng Web Machine Learning đẹp mắt với Streamlit và Scikit-learn trong Python Xây dựng web Python tự động hóa Twitter | Flask, Heroku, Twitter API & Google Sheets API Hướng dẫn sử dụng Google Sheets API với Python Cách nạp dữ liệu Machine Learning từ File trong Python Toán tử Walrus Operator- Tính năng mới trong Python 3.8 Cách thêm Progress Bar trong Python với chỉ một dòng Code List Comprehension trong Python Tạo danh sách phim ngẫu nhiên với Python Hướng dẫn Web Scraping tự động tải hình ảnh với Python Hướng dẫn sử dụng Anaconda bằng Python Hồi quy tuyến tính và hồi quy Logistic trong Python Thuật toán Naive Bayes trong Python Bắt đầu tìm hiểu Perceptron bằng Python SVM (Support Vector Machine) bằng Python Triển khai Decision Tree bằng Python Triển khai thuật toán Random Forest bằng Python Triển khai PCA bằng Python Thuật toán AdaBoost trong Python LDA (Linear Discriminant Analysis) trong Python
PYTHON NÂNG CAO
CÁC CHỦ ĐỀ
BÀI MỚI NHẤT
MỚI CẬP NHẬT

Thông báo: Download 4 khóa học Python từ cơ bản đến nâng cao tại đây.

Giới thiệu về Graph Machine Learning trong Python

Đây là bài viết giới thiệu cơ bản, giúp bạn làm quen với các thuật ngữ cơ bản của lĩnh vực Học Máy trên Đồ Thị (Graph Machine Learning - Graph ML). Trong các phần tiếp theo, chúng ta sẽ đi sâu vào các khía cạnh chi tiết của Graph ML, cùng với những trải nghiệm thực tế khi sử dụng các mạng nơ-ron đồ thị (Graph Neural Networks) trong thư viện PyTorch Geometric hoặc DGL.

test php

banquyen png
Bài viết này được đăng tại freetuts.net, không được copy dưới mọi hình thức.

Tại sao Graph ML ngày càng phổ biến?

Các kỹ thuật học máy truyền thống, như hồi quy tuyến tính, Naive Bayes, cây quyết định, rừng ngẫu nhiên (Random Forest), SVM, SVR, vốn là sự kết hợp giữa suy luận thống kê và các thuật toán tính toán, đã hoạt động rất hiệu quả trên những loại dữ liệu có độ phức tạp thấp.

Tuy nhiên, khi dữ liệu ngày càng phức tạp hơn cả về cấu trúc lẫn độ chiều (ví dụ: hình ảnh, văn bản, sóng tín hiệu, đồ thị...), các thuật toán này bắt đầu gặp khó khăn. Những vấn đề phổ biến như lời nguyền của chiều không gian (curse of dimensionality), hiện tượng underfitting hoặc overfitting xuất hiện thường xuyên hơn.

Khi các thuật toán truyền thống không còn đáp ứng được độ phức tạp của dữ liệu, một nhánh mới của học máy là Học Sâu (Deep Learning) đã ra đời. Tất cả các thuật toán học sâu, từ cơ bản đến phức tạp, đều dựa trên nền tảng của Mạng Nơ-ron (Neural Networks). Dựa vào cơ chế hoạt động của mạng nơ-ron, các kiến trúc cơ bản như CNN (mạng tích chập) cho dữ liệu hình ảnh và RNN (mạng hồi quy) cho dữ liệu chuỗi lần lượt được phát triển. Chúng giúp học và khái quát hóa các hàm gần đúng phức tạp cho dữ liệu như hình ảnh, văn bản, sóng tín hiệu.

Bài viết này được đăng tại [free tuts .net]

Tuy nhiên, tất cả các phương pháp trên chủ yếu áp dụng cho dữ liệu có cấu trúc (structured data), ví dụ: bảng dữ liệu, hình ảnh, văn bản, đều thuộc dạng dữ liệu Euclidean. Tính chất Euclidean này giúp việc học và tối ưu hóa dễ dàng hơn.

Nhưng đối với dữ liệu đồ thị (graphical data), vấn đề trở nên phức tạp hơn. Dữ liệu đồ thị xuất hiện ở khắp nơi trong thế giới thực, ví dụ:

  • Mạng internet
  • Mạng xã hội (kết nối bạn bè trên Facebook)
  • Cấu trúc phân tử
  • Não bộ con người (kết nối hàng triệu neuron)
  • Hình khối 3D

Ngay cả hình ảnh, văn bản, hoặc sóng tín hiệu cũng có thể được biểu diễn dưới dạng đồ thị, nhưng những dạng này thuộc loại đồ thị có cấu trúc, không giống như các đồ thị tổng quát.

Dữ liệu đồ thị mang tính phi Euclidean (non-Euclidean), không có chiều dài hoặc hình dạng cụ thể. Điều này làm cho các mô hình học sâu truyền thống khó học được cấu trúc của đồ thị.

Ví dụ, bạn có thể dùng ma trận kề (adjacency matrix) để biểu diễn kết nối trong đồ thị, nhưng nếu dữ liệu lớn như mạng xã hội Facebook, ma trận này sẽ rất thưa thớt (sparse) và gây lãng phí tài nguyên tính toán. Vì vậy, cần một phương pháp mới để tối ưu và học từ dữ liệu đồ thị: Học Máy trên Đồ Thị (Graph Machine Learning).

Đồ thị là gì?

Đồ thị là một tập hợp các đỉnh (nodes) được kết nối bởi các cạnh (edges). Về mặt toán học, đồ thị được định nghĩa như sau:

G=(V,E,A)G = (V, E, A)

Trong đó:

  • GG: đồ thị
  • VV: tập hợp các đỉnh {v1,v2,,vn}\{v_1, v_2, \dots, v_n\}
  • EE: tập hợp các cạnh {e1,e2,,em}\{e_1, e_2, \dots, e_m\}
  • AA: ma trận kề biểu diễn cấu trúc kết nối.

Node Features (Đặc trưng đỉnh)

Screenshot 202024 11 25 20221107 png

Trong học máy, các đỉnh không chỉ đơn thuần là các số (1, 2, 3...) hay ký tự (A, B, C...), mà mỗi đỉnh thường mang một vector đặc trưng (feature vector). Ví dụ, trong đồ thị phân tử:

Các đỉnh là các nguyên tử.

Vector đặc trưng của mỗi nguyên tử có thể gồm:

  • Số hiệu nguyên tử
  • Số khối
  • Kiểu lai hóa (hybridization)

Tập hợp các vector đặc trưng của đỉnh tạo thành một ma trận XX kích thước N×dN \times d, trong đó NN là số đỉnh và dd là số chiều của vector đặc trưng.

Edge Features (Đặc trưng cạnh)

Screenshot 202024 11 25 20221122 png

Tương tự, các cạnh cũng có thể mang đặc trưng riêng, nhưng cần lưu ý rằng đặc trưng cạnh không đại diện cho kết nối giữa các đỉnh. Kết nối được biểu diễn thông qua ma trận kề (adjacency matrix).

Ví dụ, trong đồ thị phân tử, các cạnh là các liên kết hóa học:

  • Loại liên kết (đơn, đôi, ba...)
  • Góc liên kết
  • Tính chất hóa học khác

Những đặc trưng này được ghép lại thành vector mm chiều, gọi là vector đặc trưng cạnh. Tuy nhiên, không phải lúc nào đặc trưng cạnh cũng quan trọng bằng đặc trưng đỉnh.

Ma trận kề và danh sách kề

Screenshot 202024 11 25 20221135 png

Ma trận kề là cách lưu trữ kết nối giữa các đỉnh, với giá trị 1 biểu thị có kết nối và 0 biểu thị không kết nối. Tuy nhiên, với đồ thị lớn (như mạng xã hội), ma trận kề thường rất thưa thớt.

Để tối ưu, có thể sử dụng danh sách kề (adjacency list) hoặc định dạng tọa độ (COO), biểu diễn kết nối dưới dạng các cặp (source, target).

Screenshot 202024 11 25 20221149 png

Embedding (Biểu diễn nhúng)

Screenshot 202024 11 25 20221201 png

Embedding là cách biểu diễn dữ liệu từ không gian cao chiều về không gian thấp chiều, sao cho các đặc trưng quan trọng được giữ lại. Trong đồ thị, nhúng có thể áp dụng cho:

  • Đỉnh (node embedding): Biểu diễn vector đặc trưng của các đỉnh sao cho các đỉnh giống nhau được nhóm gần nhau.
  • Đồ thị (graph embedding): Biểu diễn đặc trưng tổng thể của đồ thị dựa trên đặc trưng của các đỉnh/cạnh.

Quy trình giải quyết bài toán Graph ML

Screenshot 202024 11 25 20221214 png

  • Thu thập dữ liệu thô.
  • Xây dựng bài toán dưới dạng bài toán đồ thị.
  • Chuyển dữ liệu thô thành dữ liệu đồ thị (đỉnh và cạnh có ý nghĩa).
  • Áp dụng các phương pháp Graph ML để trích xuất biểu diễn có ý nghĩa.
  • Thực hiện các nhiệm vụ cần thiết.
  • Triển khai mô hình đã huấn luyện.

Ứng dụng của Graph ML

Screenshot 202024 11 25 20221234 png

  • Phát hiện thuốc.
  • Sinh lưới 2D, 3D (Mesh generation).
  • Dự đoán tính chất phân tử.
  • Xác định vòng kết nối xã hội.
  • Hệ thống gợi ý thế hệ mới.
  • Dự báo giao thông.
  • Hoàn thiện đồ thị tri thức.

Kết bài

Qua bài viết này, bạn đã hiểu vì sao Graph ML trở nên quan trọng, cùng các khái niệm và thuật ngữ cơ bản. Ở các phần tiếp theo, chúng ta sẽ khám phá các loại đồ thị, bài toán trong Graph ML, và cách xây dựng mô hình bằng PyTorch Geometric hoặc DGL. Hãy đón chờ nhé!

Cùng chuyên mục:

Cách lưu trữ và tải lại Models trong PyTorch

Cách lưu trữ và tải lại Models trong PyTorch

Tìm hiểu về TensorBoard với PyTorch

Tìm hiểu về TensorBoard với PyTorch

Học chuyển giao (Transfer Learning) trong PyTorch Beginner

Học chuyển giao (Transfer Learning) trong PyTorch Beginner

Hướng dẫn cơ bản mạng Nơ-ron Tích Chập (CNN) trong PyTorch

Hướng dẫn cơ bản mạng Nơ-ron Tích Chập (CNN) trong PyTorch

Mạng Nơ-Ron truyền thẳng (Feed Forward Neural Network) trong PyTorch

Mạng Nơ-Ron truyền thẳng (Feed Forward Neural Network) trong PyTorch

Tìm hiểu Activation Functions trong PyTorch

Tìm hiểu Activation Functions trong PyTorch

Softmax và Cross Entropy trong PyTorch Beginner

Softmax và Cross Entropy trong PyTorch Beginner

Dataset Transforms trong PyTorch Beginner

Dataset Transforms trong PyTorch Beginner

Dataset và DataLoader trong PyTorch Beginner

Dataset và DataLoader trong PyTorch Beginner

Hồi quy Logistic trong PyTorch Beginner

Hồi quy Logistic trong PyTorch Beginner

Hồi quy tuyến tính trong PyTorch Beginner

Hồi quy tuyến tính trong PyTorch Beginner

Training Pipeline trong PyTorch Beginner

Training Pipeline trong PyTorch Beginner

Sử dụng Gradient Descent với Autograd trong PyTorch

Sử dụng Gradient Descent với Autograd trong PyTorch

Hướng dẫn về Tensor cơ bản trong PyTorch

Hướng dẫn về Tensor cơ bản trong PyTorch

Hướng dẫn cài đặt PyTorch với Deep Learning

Hướng dẫn cài đặt PyTorch với Deep Learning

LDA (Linear Discriminant Analysis) trong Python

LDA (Linear Discriminant Analysis) trong Python

Thuật toán AdaBoost trong Python

Thuật toán AdaBoost trong Python

Thuật toán K-Means Clustering trong Python

Thuật toán K-Means Clustering trong Python

Triển khai PCA bằng Python

Triển khai PCA bằng Python

Triển khai thuật toán Random Forest bằng Python

Triển khai thuật toán Random Forest bằng Python

Top