CÔNG CỤ
MODULES
THAM KHẢO
Cách chia List thành các phần bằng nhau trong Python Cách xóa một khóa (key) ra khỏi dictionary trong Python Hướng dẫn chuyển đổi file Google Colab sang Markdown trong Python Bài tập Python: Lập trình cơ sở dữ liệu trong Python Kết nối cơ sở dữ liệu MySQL Python Hướng dẫn kết nối Python PostgreSQL bằng Psycopg2 Hướng dẫn kết nối SQLite sử dụng sqlite3 trong Python Bài tập Python : Pandas trong Python Phạm vi số float của Python Cách lên lịch chạy script Python bằng GitHub Actions Cách tạo hằng số trong Python Các nền tảng lưu trữ tốt nhất cho ứng dụng và script Python 6 Tip viết vòng lặp For hiệu quả hơn trong Python Cách đảo ngược Chuỗi String trong Python Cách gỡ lỗi ứng dụng Python trong Docker Container bằng VS Code 10 tip One Liner bạn cần biết trong Python Cách áp dụng ngưỡng hình ảnh trong Python với NumPy Tìm hiểu về các phép toán Groupby trong Pandas Lập trình Socket trong Python Mô-đun base64 trong Python Cách giới hạn float values trong Python Tìm hiểu Mô-đun statistics Trong Python File Organizing trong Python Đổi tên File trong Python Tìm hiểu về Deque trong Python Mô-đun Calendar trong Python Tìm hiểu về Enum trong Python Sử dụng pprint trong Python Làm việc với cấu trúc Dữ liệu Stack trong Python Thư viện functools trong Python Tip sử dụng hàm round() với tham số âm trong Python Hàm print có thể nhận thêm các tham số bổ sung trong Python Tip tìm chuỗi dài nhất bằng hàm max() trong Python Cách lặp qua nhiều list với hàm zip() trong Python Tìm hiểu về MLOps trong Python Docker và Kubernetes với MLOps trong Python Kết hợp DevOps với MLOps trong Python Xử lý độ chính xác các hàm floor, ceil, round, trunc, format trong Python tối ưu quy trình MLOps Với Python Sự khác biệt giữa byte objects và string trong Python Top 4 thư viện phổ biến nhất của NLP trong Python Cách sử dụng ThreadPoolExecutor trong Python Phân tích dữ liệu Blockchain với Python Hướng dẫn triển khai Smart Contracts với Python Blockchain APIs với Python Làm việc với file ZIP trong Python Sự khác biệt giữa toán tử == và is trong Python Chuyển đổi kiểu dữ liệu trong Python Cách làm việc với file tarball/tar trong Python Sự khác biệt giữa iterator và iterable trong Python Sự khác biệt giữa set() và frozenset() trong Python Làm việc với các biến môi trường trong Python Một tác vụ phổ biến khi làm việc với danh sách trong Python Định dạng chuỗi Strings trong Python Sử dụng Poetry để quản lý dependencies trong Python Sự khác biệt giữa sort() và sorted() trong Python Từ khóa yield trong Python Lớp dữ liệu (Data Classes) trong Python với decorator @dataclass Cách truy cập và thiết lập biến môi trường trong Python Hướng dẫn toàn diện về module datetime trong Python Hướng dẫn xây dựng Command-Line Interface (CLI) bằng Quo trong Python Quản lý sinh viên Python & MySQL
CÁC CHỦ ĐỀ
BÀI MỚI NHẤT
MỚI CẬP NHẬT

Thông báo: Download 4 khóa học Python từ cơ bản đến nâng cao tại đây.

Tìm hiểu về các phép toán Groupby trong Pandas

Dưới đây là hướng dẫn toàn diện về cách sử dụng các phép toán groupby trong Pandas, một công cụ quan trọng trong phân tích dữ liệu giúp chia nhóm và tính toán thống kê theo các nhóm khác nhau trong dữ liệu. Bài viết sẽ đưa bạn qua từng bước từ cơ bản đến nâng cao, cùng với các ví dụ chi tiết, để bạn có thể áp dụng các thao tác này một cách hiệu quả trong thực tế.

test php

banquyen png
Bài viết này được đăng tại freetuts.net, không được copy dưới mọi hình thức.

Aggregation là gì?

Aggregation là quá trình nhóm các dữ liệu theo từng nhóm hoặc loại nhất định và sau đó áp dụng các hàm thống kê như trung bình, tổng, độ lệch chuẩn... trên những nhóm này. Đây là kỹ thuật quan trọng giúp chúng ta hiểu rõ hơn về dữ liệu.

Dataset review
Dataset này dựa trên dữ liệu các "pokemon", với các thuộc tính như: Attack (điểm tấn công), Defense (điểm phòng thủ), HP (sức mạnh), Speed (tốc độ), Generation (thế hệ) và Legendary (pokemon huyền thoại hay không).

Chúng ta sẽ loại bỏ cột Name do chứa dữ liệu kiểu chuỗi không cần thiết cho quá trình groupby.

import pandas as pd

# Đọc dữ liệu
path='https://gist.githubusercontent.com/armgilles/194bcff35001e7eb53a2a8b441e8b2c6/raw/92200bc0a673d5ce2110aaad4544ed6c4010f687/pokemon.csv'
pokemon_data = pd.read_csv(path, index_col = '#')

# Xóa cột 'Name'
del pokemon_data['Name']

Các bước sử dụng các phép toán groupby trong Pandas

Bước 1: Áp dụng groupby với hàm trung bình

Câu hỏi: Tính giá trị trung bình của thuộc tính "Total" cho từng "Generation".

Bài viết này được đăng tại [free tuts .net]

pokemon_data[['Total', 'Generation']].groupby('Generation').mean()

Kết quả:

Generation Total
1 426.813253
2 418.283019
3 436.225000
4 459.016529
5 434.987879
6 436.378049

Bước 2: Áp dụng nhiều Hàm Aggregate trong ,ột groupby

Câu hỏi: Tính giá trị trung bình và độ lệch chuẩn của thuộc tính "Speed" cho từng thế hệ.

pokemon_data.groupby("Generation").agg(
   average_speed=("Speed","mean"), 
   std_speed=("Speed", "std")
)

Kết quả:

Generation average_speed std_speed
1 72.584337 29.675857
2 61.811321 27.263132
3 66.925000 31.331972
4 71.338843 28.475005
5 68.078788 28.726632
6 66.439024 25.691954

Bước 3: Groupby với nhiều cột

Câu hỏi: Tìm Attack cao nhất cho từng Generation và kiểm tra xem pokemon đó có phải là Legendary hay không.

pokemon_data.groupby(['Generation', 'Legendary']).agg(
    maximum_attack = ('Attack', 'max')
)

Bước 4: Sắp xếp kết quả Groupby

Câu hỏi: Loại pokemon có Attack cao nhất cho từng Generation, cần sắp xếp kết quả để dễ quan sát.

pokemon_data.groupby(['Generation', 'Legendary']).agg(
    maximum_attack = ('Attack', 'max')
).sort_values(by = 'maximum_attack', ascending = False)

Bước 5: Sử dụng Groupby với lọc dữ liệu

Sử dụng groupby với filter để chọn ra các pokemon loại "Dragon" có Attack trung bình trên 100.

grouped = pokemon_data.groupby('Type 1')
grouped.filter(lambda x: x['Attack'].mean() > 100)

Qua các bước này, bạn đã nắm được cách sử dụng groupby của Pandas để thực hiện các phép toán thống kê từ cơ bản đến nâng cao.

Kết bài

Sau khi hoàn thành bài viết này, bạn sẽ có cái nhìn toàn diện về các phép toán groupby trong Pandas và cách chúng giúp khai thác dữ liệu theo từng nhóm khác nhau. Bằng cách thực hành và áp dụng các ví dụ này, bạn sẽ nắm vững kỹ năng xử lý, phân tích dữ liệu và dễ dàng sử dụng groupby để giải quyết các bài toán thống kê phức tạp. Chúc bạn thành công trong hành trình chinh phục Pandas và các công cụ phân tích dữ liệu khác!

Cùng chuyên mục:

Hướng dẫn xây dựng Command-Line Interface (CLI) bằng Quo trong Python

Hướng dẫn xây dựng Command-Line Interface (CLI) bằng Quo trong Python

Hướng dẫn toàn diện về module datetime trong Python

Hướng dẫn toàn diện về module datetime trong Python

Cách truy cập và thiết lập biến môi trường trong Python

Cách truy cập và thiết lập biến môi trường trong Python

Lớp dữ liệu (Data Classes) trong Python với decorator @dataclass

Lớp dữ liệu (Data Classes) trong Python với decorator @dataclass

Từ khóa yield trong Python

Từ khóa yield trong Python

Sự khác biệt giữa sort() và sorted() trong Python

Sự khác biệt giữa sort() và sorted() trong Python

Sử dụng Poetry để quản lý dependencies trong Python

Sử dụng Poetry để quản lý dependencies trong Python

Định dạng chuỗi Strings trong Python

Định dạng chuỗi Strings trong Python

Một tác vụ phổ biến khi làm việc với danh sách trong Python

Một tác vụ phổ biến khi làm việc với danh sách trong Python

Làm việc với các biến môi trường trong Python

Làm việc với các biến môi trường trong Python

Sự khác biệt giữa set() và frozenset() trong Python

Sự khác biệt giữa set() và frozenset() trong Python

Sự khác biệt giữa iterator và iterable trong Python

Sự khác biệt giữa iterator và iterable trong Python

Cách làm việc với file tarball/tar trong Python

Cách làm việc với file tarball/tar trong Python

Chuyển đổi kiểu dữ liệu trong Python

Chuyển đổi kiểu dữ liệu trong Python

Sự khác biệt giữa toán tử == và is trong Python

Sự khác biệt giữa toán tử == và is trong Python

Làm việc với file ZIP trong Python

Làm việc với file ZIP trong Python

Cách sử dụng ThreadPoolExecutor trong Python

Cách sử dụng ThreadPoolExecutor trong Python

Sự khác biệt giữa byte objects và string trong Python

Sự khác biệt giữa byte objects và string trong Python

Xử lý độ chính xác các hàm floor, ceil, round, trunc, format  trong Python

Xử lý độ chính xác các hàm floor, ceil, round, trunc, format trong Python

Cách lặp qua nhiều list với hàm zip() trong Python

Cách lặp qua nhiều list với hàm zip() trong Python

Top