CÔNG CỤ
MODULES
THAM KHẢO
Cách chia List thành các phần bằng nhau trong Python Cách xóa một khóa (key) ra khỏi dictionary trong Python Hướng dẫn chuyển đổi file Google Colab sang Markdown trong Python Bài tập Python: Lập trình cơ sở dữ liệu trong Python Kết nối cơ sở dữ liệu MySQL Python Hướng dẫn kết nối Python PostgreSQL bằng Psycopg2 Hướng dẫn kết nối SQLite sử dụng sqlite3 trong Python Bài tập Python : Pandas trong Python Phạm vi số float của Python Cách lên lịch chạy script Python bằng GitHub Actions Cách tạo hằng số trong Python Các nền tảng lưu trữ tốt nhất cho ứng dụng và script Python 6 Tip viết vòng lặp For hiệu quả hơn trong Python Cách đảo ngược Chuỗi String trong Python Cách gỡ lỗi ứng dụng Python trong Docker Container bằng VS Code 10 tip One Liner bạn cần biết trong Python Cách áp dụng ngưỡng hình ảnh trong Python với NumPy Tìm hiểu về các phép toán Groupby trong Pandas Lập trình Socket trong Python Mô-đun base64 trong Python Cách giới hạn float values trong Python Tìm hiểu Mô-đun statistics Trong Python File Organizing trong Python Đổi tên File trong Python Tìm hiểu về Deque trong Python Mô-đun Calendar trong Python Tìm hiểu về Enum trong Python Sử dụng pprint trong Python Làm việc với cấu trúc Dữ liệu Stack trong Python Thư viện functools trong Python Tip sử dụng hàm round() với tham số âm trong Python Hàm print có thể nhận thêm các tham số bổ sung trong Python Tip tìm chuỗi dài nhất bằng hàm max() trong Python Cách lặp qua nhiều list với hàm zip() trong Python Tìm hiểu về MLOps trong Python Docker và Kubernetes với MLOps trong Python Kết hợp DevOps với MLOps trong Python Xử lý độ chính xác các hàm floor, ceil, round, trunc, format trong Python tối ưu quy trình MLOps Với Python Sự khác biệt giữa byte objects và string trong Python Top 4 thư viện phổ biến nhất của NLP trong Python Cách sử dụng ThreadPoolExecutor trong Python Phân tích dữ liệu Blockchain với Python Hướng dẫn triển khai Smart Contracts với Python Blockchain APIs với Python Làm việc với file ZIP trong Python Sự khác biệt giữa toán tử == và is trong Python Chuyển đổi kiểu dữ liệu trong Python Cách làm việc với file tarball/tar trong Python Sự khác biệt giữa iterator và iterable trong Python Sự khác biệt giữa set() và frozenset() trong Python Làm việc với các biến môi trường trong Python Một tác vụ phổ biến khi làm việc với danh sách trong Python Định dạng chuỗi Strings trong Python Sử dụng Poetry để quản lý dependencies trong Python Sự khác biệt giữa sort() và sorted() trong Python Từ khóa yield trong Python Lớp dữ liệu (Data Classes) trong Python với decorator @dataclass Cách truy cập và thiết lập biến môi trường trong Python Hướng dẫn toàn diện về module datetime trong Python Hướng dẫn xây dựng Command-Line Interface (CLI) bằng Quo trong Python Sử dụng Virtual Environment trong Python Từ khóa super() trong Python Số phức trong Python Ý nghĩa của một hoặc hai dấu gạch dưới đứng đầu trong Python Làm việc với Video trong OpenCV bằng Python Chỉnh sửa file trực tiếp bằng module fileinput trong Python Hướng dẫn cách chuyển đổi kiểu dữ liệu trong Python Làm việc với hình ảnh trong OpenCV sử dụng Python Metaclasses trong Python Cách chọn ngẫu nhiên một phần tử từ danh sách trong Python Hướng dẫn cài đặt và sử dụng OpenCV trong Python Phạm vi toàn cục, cục bộ và không cục bộ trong Python Tìm hiểu về từ khóa self trong các lớp Python Hướng dẫn sử dụng Rich, Typer, và SQLite trên terminal bằng Python Giới thiệu về Graph Machine Learning trong Python Cách kiểm tra một đối tượng có thể lặp (iterable) trong Python Quản lý sinh viên Python & MySQL Cách cắt (slicing) chuỗi trong Python Cách loại bỏ phần tử trùng lặp khỏi danh sách (List) trong Python Phân tích dữ liệu Apple Health bằng Python Cách làm phẳng danh sách lồng nhau trong Python Tìm hiểu về *args và **kwargs trong Python Cách xóa file và thư mục trong Python 31 Phương thức xử lý chuỗi (String) quan trọng trong Python Cách sao chép file trong Python 8 Mẹo Refactor Code Python nhanh gọn (Phần 2) Cách yêu cầu người dùng nhập liệu đến khi nhận được phản hồi hợp lệ trong Python Làm chủ Pattern Matching trong Python 3.10 Tạo app ghi chú trong Python với nhận dạng giọng nói và API Notion Các tính năng mới trong Python 3.10 5 lỗi thường gặp trong Python Sự khác biệt giữa append() và extend() trong list Python Các cách nối hai danh sách trong Python Sự khác biệt giữa str và repr trong Python Sự khác biệt giữa @classmethod, @staticmethod và instance methods trong Python Cách thêm số 0 vào đầu chuỗi trong Python Cách tạo thư mục lồng nhau (nested directory) trong Python Cách hợp nhất hai Dictionaries trong Python Cách thực thi lệnh hệ thống hoặc System Command từ Python Cách kiểm tra một chuỗi có chứa chuỗi con trong Python Cách tìm chỉ mục của một phần tử trong danh sách (List) trong Python Cách truy cập index trong vòng lặp for trong Python Cách kiểm tra file hoặc thư mục có tồn tại trong Python Cách xóa phần tử trong danh sách Python Ý nghĩa của if __name__ == "__main__" trong Python 8 mẹo tái cấu trúc Python giúp mã sạch hơn và Pythonic Hỗ trợ Async trong Django 3.1 Hướng dẫn tạo ứng dụng AI hội thoại với NVIDIA Jarvis trong Python Hướng dẫn xây dựng ứng dụng dự đoán giá cổ phiếu bằng Python Cách cài đặt Jupyter Notebook trong môi trường Conda và thêm Kernel Xây dựng ứng dụng Web Style Transfer với PyTorch và Streamlit Cách sử dụng Python Debugger với hàm breakpoint() Cách sử dụng chế độ interactive trong Python Hướng dẫn viết game Rắn Săn Mồi bằng Python 11 mẹo và thủ thuật để viết Code Python hiệu quả hơn Hướng dẫn làm ứng dụng TODO với Flask dành cho người mới bắt đầu trong Python Hướng dẫn tạo Chatbot đơn giản bằng PyTorch Xây dựng Web Machine Learning đẹp mắt với Streamlit và Scikit-learn trong Python Xây dựng web Python tự động hóa Twitter | Flask, Heroku, Twitter API & Google Sheets API Hướng dẫn sử dụng Google Sheets API với Python Cách nạp dữ liệu Machine Learning từ File trong Python Toán tử Walrus Operator- Tính năng mới trong Python 3.8 Cách thêm Progress Bar trong Python với chỉ một dòng Code List Comprehension trong Python Tạo danh sách phim ngẫu nhiên với Python Hướng dẫn Web Scraping tự động tải hình ảnh với Python Hướng dẫn sử dụng Anaconda bằng Python Hồi quy tuyến tính và hồi quy Logistic trong Python Thuật toán Naive Bayes trong Python Bắt đầu tìm hiểu Perceptron bằng Python SVM (Support Vector Machine) bằng Python Triển khai Decision Tree bằng Python Triển khai thuật toán Random Forest bằng Python Triển khai PCA bằng Python Thuật toán AdaBoost trong Python LDA (Linear Discriminant Analysis) trong Python
PYTHON NÂNG CAO
CÁC CHỦ ĐỀ
BÀI MỚI NHẤT
MỚI CẬP NHẬT

Thông báo: Download 4 khóa học Python từ cơ bản đến nâng cao tại đây.

Multiprocessing trong Python (xử lý đa tiến trình)

Trong bài này chúng ta sẽ tìm hiểu xử lý đa tiến trình trong Python. Đa xử lý hay còn gọi là multiprocessing, thường được dùng để xử lý nhiều tiến trình chạy song song.

test php

banquyen png
Bài viết này được đăng tại freetuts.net, không được copy dưới mọi hình thức.

Đa xử lý được tích hợp trong module multiprocessing, trong đó có lớp process, vì vậy bạn phải import thư viện này vào trước khi sử dụng nhé.

1. Multiprocessing là gì?

Multiprocessing là khả năng của một hệ thống hỗ trợ nhiều bộ vi xử lý processor cùng một lúc. Các ưng dụng trong hệ thống đa xử lý được chia thành nhiều quy trình nhỏ và chạy độc lập, và hệ điều hành sẽ phân bổ các luồng này cho bộ vi xử lý để cải thiện hiệu suất của hệ thống.

Câu hỏi đặt ra là tại sao ta phải sư dụng multiprocessing? Hãy đặt một ví dụ về máy tính có một processor nhé.

Bài viết này được đăng tại [free tuts .net]

Trong máy tính có một processor duy nhất, nếu processor được chỉ định chạy nhiều quy trình cùng lúc thì nó sẽ phải phân chia các task (tác vụ) bằng cách ngắt task này và chạy task kia một cách liên tục, điều này giúp đảm bảo tất cả các task đều được chạy.

Điều này giống như một người đầu bếp, khi khách hàng vào đặt nhiều món thì đầu bếp sẽ phải nấu nhiều món cùng lúc, phân chia thời gian giữa các món để đảm bảo món nào cũng được nấu đúng giờ.

Việc làm nhiều việc cùng lúc sẽ làm cho hiệu quả công việc không được tốt, sản phẩm hoàn thành không được như mong đời. Chính điều này đã xuất hiện thêm khái niệm xử lý đa tiến trình.

2. Multiprocessing trong Python là gì?

Multiprocessing trong Python là một module hỗ trợ lập trình viên có thể phân chia công việc theo nhiều quy trình. Bằng cách thông qua những phương thức (API) mà module cung cấp sẵn, chúng ta có thể quản lý được các task một cách dễ dàng.

Để hiểu rõ về xử lý tiến trình song song thì bạn phải biết có bao nhiêu core trong máy tính đang sử dụng, và module multiprocessing sẽ giúp bạn biết được điều đó, bằng cách sử dụng đoạn mã đơn giản dưới đây.

import multiprocessing
print("Số lượng cpu : ", multiprocessing.cpu_count())

Kết quả trên máy tính của mình là:

Số lượng cpu :  8

Đấy chỉ là mới tham khảo số lượng CPU. Nếu bạn muốn tìm hiểu sâu hơn thì hãy tiếp tục với các ví dụ phía dưới nhé.

Ví dụ 1: Bây giờ hãy xem một đoạn code đơn giản dưới đây.

# importing module multiprocessing
import multiprocessing

def print_cube(num):
    """
    Hàm in thể tích của khối lập phương
    """
    print("Giá trị lập phương: {}".format(num * num * num))

def print_square(num):
    """
    Hàm in diện tích hình vuông
    """
    print("Diện tích hình vuông: {}".format(num * num))

# Chương trình chính
if __name__ == "__main__":
    # Tạo hai tiến trình process
    p1 = multiprocessing.Process(target=print_square, args=(10, ))
    p2 = multiprocessing.Process(target=print_cube, args=(10, ))

    # Bắt đầu process 1
    p1.start()
    # Bắt đầu process 2
    p2.start()

    # Chờ tới khi process 1 hoàn thành
    p1.join()
    # Chờ tới khi process 2 hoàn thành
    p2.join()

    # Cả hai processes hoàn thành
    print("Done!")

Kết quả:

Diện tích hình vuông: 100
Giá trị lập phương: 1000
Done!

Giải thích một chút về chương trình:

  • Đoạn code import multiprocessing dùng để khai báo sử dụng module multiprocessing.
  • Để tạo một process thì ta sử dụng class tên là Process, nó có hai tham số như sau:
    • target là hàm được gọi để chạy
    • args là các tham số sẽ truyền vào hàm target
    • Class Process cũng có thêm các tham số khác, nhưng chúng ta sẽ tìm hiểu nó sau nhé.
  • Để bắt đầu một tiến trình thì ta gọi đến phương thức start.
  • Để dừng chương trình tạm thời, tức là chờ hai tiến trình xử lý xong thì ta sử dụng phương thức join.
  • Như vậy đoạn code print("Done!") chỉ được thực chạy khi hai tiến trình phía trên hoàn thành.

Nếu bạn vẫn chưa hình dung được việc xử lý các tiến trình là riêng biệt thì hãy tham khảo thêm ví dụ 2 dưới đây.

Ví dụ 2: Kiểm tra process ID và trạng thái của process.

# importing multiprocessing và os module
import multiprocessing
import os

def worker1():
    # In ra process id của worker1
    print("ID của tiến trình worker1: {}".format(os.getpid()))

def worker2():
    # In ra process id của worker2
    print("ID của tiến trình worker2: {}".format(os.getpid()))

# Chương trình chính
if __name__ == "__main__":
    # In ra process id của chương trình chính
    print("ID của chương trình chính: {}".format(os.getpid()))

    # Tạo processes
    p1 = multiprocessing.Process(target=worker1)
    p2 = multiprocessing.Process(target=worker2)

    # Chạy processes
    p1.start()
    p2.start()

    # Lấy process IDs
    print("ID của process p1: {}".format(p1.pid))
    print("ID của process p2: {}".format(p2.pid))

    # Chờ cho tới khi 2 process p1 và p2 hoàn thành
    p1.join()
    p2.join()

    # In thông báo cả hai đã hoàn thành
    print("Cả hai tiến trình đã hoàn thành!")

    # Kiểm tra trạng thái của hai process
    print("Process p1 có đang chạy? {}".format(p1.is_alive()))
    print("Process p2 có đang chạy? {}".format(p2.is_alive()))

Kết quả:

ID của chương trình chính: 2928
ID của process p1: 6160
ID của process p2: 9208
ID của tiến trình worker1: 6160
ID của tiến trình worker2: 9208
Cả hai tiến trình đã hoàn thành!
Process p1 có đang chạy? False
Process p2 có đang chạy? False

Giải thích một chút nhé:

  • Phương thức is_alive() dùng để kiểm tra một tiến trình đang live hay không.
  • Thuộc tính pid lưu trữ ID của tiến trình.
  • Đoạn code os.getpid() dùng để lấy pid của chương trình chính.

Như bạn thấy, từ tiến trình chính mình đã phân chia thành hai tiến trình con p1 và p2, điều này tương tự như hình sau:

Multiprocessing Python Set 1 png

Bạn cũng có thể hiểu đơn giản là "một công việc được chia cho hai công nhân".

3. Multiprocessing có không gian bộ nhớ riêng

Trong Python, các tiến trình chạy độc lập và có không gian bộ nhớ riêng.

Ví dụ, bạn sử dụng một biến global ở hai tiến trình khác nhau thì việc thay giá trị cho biến đó ở hai tiến trình là không ảnh hưởng đến nhau.

Xem ví dụ dưới đây để hiểu rõ hơn.

import multiprocessing

# Biến global là một mảng rỗng
result = []

def process1():
    """ Hàm chạy tiến trình 1"""
    global result
    result.append(100)
    print("Result trong process1:", result)


if __name__ == "__main__":

    # Tạo process1
    p1 = multiprocessing.Process(target=process1, args=())

    # Bắt đầu
    p1.start()

    # Chờ cho tới khi p1 hoàn thành
    p1.join()

    # Kiểm tra xem result có thay đổi không
    print("Result trong main: ".format(result))

Kết quả:

Result trong process1: [100]
Result trong main: 

Giải thích nhé:

  • Biến result là một biến cục bộ (global)
  • Trong process1 mình đã thêm một phần tử cho biến này, sau đó in ra
  • Sau khi process1 xử lý xong thì in ra giá trị result ở chương trình main
  • => Kết quả là giá trị khác nhau hoàn toàn.

Như vậy tất cả các tiến trình đều có thể sử dụng dữ liệu toàn cục, nhưng chúng sẽ có bộ nhớ xử lý khác nhau nên không ảnh hưởng lẫn nhau.

4. Shared memory trong Processing Python

Như phần 3 mình đã trình bày, các processor có không gian lưu trữ và chạy độc lập với nhau. Tuy nhiên, có những lúc ta muốn share dữ liệu giữa chúng thì làm thế nào?

Ta sẽ sử dụng hai phương thức:

  • Array() dùng để chia sẻ dữ liệu dạng mảng. Nó sẽ tạo ra một SynchronizedArray chứ không phải array bình thường, vì vậy bạn không thể sử dụng các phương thức như append, ...
  • Value() dùng để chia sẻ dữ liệu đơn. Nó sẽ trả về một Synchronized, vì vậy muốn lấy hay gán giá trị thì phải thông qua thuộc tính value.
import multiprocessing

def process1(arrayObj, valueObj):
    valueObj.value = 1000
    arrayObj[0] = 10
    arrayObj[1] = 20
    arrayObj[2] = 30
    arrayObj[3] = 40

    print("______________________________")
    print("Giá trị BÊN TRONG tiến trình")
    print('Array: ', arrayObj[:])
    print('Value: ', valueObj.value)


if __name__ == "__main__":
    # Tạo một mảng kiểu int gồm 4 phần tử
    arrayObj = multiprocessing.Array('i', 4)

    # Tạo một giá trị kiểu int
    valueObj = multiprocessing.Value('i')

    print("Giá trị TRƯỚC khi gọi tiến trình")
    print('Array: ', arrayObj[:])
    print('Value: ', valueObj.value)

    # Tạo và chạy tiến trình
    p1 = multiprocessing.Process(target=process1, args=(arrayObj, valueObj))
    p1.start()
    p1.join()

    print("______________________________")
    print("Giá trị SAU khi gọi tiến trình")
    print('Array: ', arrayObj[:])
    print('Value: ', valueObj.value)

Kết quả:

Giá trị TRƯỚC khi gọi tiến trình
Array:  [0, 0, 0, 0]
Value:  0
______________________________
Giá trị BÊN TRONG tiến trình
Array:  [10, 20, 30, 40]
Value:  1000
______________________________
Giá trị SAU khi gọi tiến trình
Array:  [10, 20, 30, 40]
Value:  1000

Bên trong tiến trình process1 mình đã thay đổi giá trị cho các đối tượng Array và Value, và nó được lưu lại cho mọi tiến trình chạy sau nó.

Lời kết: Trên là tổng hợp một số kiến thức quan trọng về xử lý đa tiến trình multiprocessing trong Python. Đây là một kiến thức nâng cao khá hay, và mình nghĩ các bạn nên dành chút thời gian để thực hành theo sẽ giúp ích rất nhiều trong việc hiểu về đa tiến trình.

Cùng chuyên mục:

Cách lưu trữ và tải lại Models trong PyTorch

Cách lưu trữ và tải lại Models trong PyTorch

Tìm hiểu về TensorBoard với PyTorch

Tìm hiểu về TensorBoard với PyTorch

Học chuyển giao (Transfer Learning) trong PyTorch Beginner

Học chuyển giao (Transfer Learning) trong PyTorch Beginner

Hướng dẫn cơ bản mạng Nơ-ron Tích Chập (CNN) trong PyTorch

Hướng dẫn cơ bản mạng Nơ-ron Tích Chập (CNN) trong PyTorch

Mạng Nơ-Ron truyền thẳng (Feed Forward Neural Network) trong PyTorch

Mạng Nơ-Ron truyền thẳng (Feed Forward Neural Network) trong PyTorch

Tìm hiểu Activation Functions trong PyTorch

Tìm hiểu Activation Functions trong PyTorch

Softmax và Cross Entropy trong PyTorch Beginner

Softmax và Cross Entropy trong PyTorch Beginner

Dataset Transforms trong PyTorch Beginner

Dataset Transforms trong PyTorch Beginner

Dataset và DataLoader trong PyTorch Beginner

Dataset và DataLoader trong PyTorch Beginner

Hồi quy Logistic trong PyTorch Beginner

Hồi quy Logistic trong PyTorch Beginner

Hồi quy tuyến tính trong PyTorch Beginner

Hồi quy tuyến tính trong PyTorch Beginner

Training Pipeline trong PyTorch Beginner

Training Pipeline trong PyTorch Beginner

Sử dụng Gradient Descent với Autograd trong PyTorch

Sử dụng Gradient Descent với Autograd trong PyTorch

Hướng dẫn về Tensor cơ bản trong PyTorch

Hướng dẫn về Tensor cơ bản trong PyTorch

Hướng dẫn cài đặt PyTorch với Deep Learning

Hướng dẫn cài đặt PyTorch với Deep Learning

LDA (Linear Discriminant Analysis) trong Python

LDA (Linear Discriminant Analysis) trong Python

Thuật toán AdaBoost trong Python

Thuật toán AdaBoost trong Python

Thuật toán K-Means Clustering trong Python

Thuật toán K-Means Clustering trong Python

Triển khai PCA bằng Python

Triển khai PCA bằng Python

Triển khai thuật toán Random Forest bằng Python

Triển khai thuật toán Random Forest bằng Python

Top