CÔNG CỤ
MODULES
THAM KHẢO
Cách chia List thành các phần bằng nhau trong Python Cách xóa một khóa (key) ra khỏi dictionary trong Python Hướng dẫn chuyển đổi file Google Colab sang Markdown trong Python Bài tập Python: Lập trình cơ sở dữ liệu trong Python Kết nối cơ sở dữ liệu MySQL Python Hướng dẫn kết nối Python PostgreSQL bằng Psycopg2 Hướng dẫn kết nối SQLite sử dụng sqlite3 trong Python Bài tập Python : Pandas trong Python Phạm vi số float của Python Cách lên lịch chạy script Python bằng GitHub Actions Cách tạo hằng số trong Python Các nền tảng lưu trữ tốt nhất cho ứng dụng và script Python 6 Tip viết vòng lặp For hiệu quả hơn trong Python Cách đảo ngược Chuỗi String trong Python Cách gỡ lỗi ứng dụng Python trong Docker Container bằng VS Code 10 tip One Liner bạn cần biết trong Python Cách áp dụng ngưỡng hình ảnh trong Python với NumPy Tìm hiểu về các phép toán Groupby trong Pandas Lập trình Socket trong Python Mô-đun base64 trong Python Cách giới hạn float values trong Python Tìm hiểu Mô-đun statistics Trong Python File Organizing trong Python Đổi tên File trong Python Tìm hiểu về Deque trong Python Mô-đun Calendar trong Python Tìm hiểu về Enum trong Python Sử dụng pprint trong Python Làm việc với cấu trúc Dữ liệu Stack trong Python Thư viện functools trong Python Tip sử dụng hàm round() với tham số âm trong Python Hàm print có thể nhận thêm các tham số bổ sung trong Python Tip tìm chuỗi dài nhất bằng hàm max() trong Python Cách lặp qua nhiều list với hàm zip() trong Python Tìm hiểu về MLOps trong Python Docker và Kubernetes với MLOps trong Python Kết hợp DevOps với MLOps trong Python Xử lý độ chính xác các hàm floor, ceil, round, trunc, format trong Python tối ưu quy trình MLOps Với Python Sự khác biệt giữa byte objects và string trong Python Top 4 thư viện phổ biến nhất của NLP trong Python Cách sử dụng ThreadPoolExecutor trong Python Phân tích dữ liệu Blockchain với Python Hướng dẫn triển khai Smart Contracts với Python Blockchain APIs với Python Làm việc với file ZIP trong Python Sự khác biệt giữa toán tử == và is trong Python Chuyển đổi kiểu dữ liệu trong Python Cách làm việc với file tarball/tar trong Python Sự khác biệt giữa iterator và iterable trong Python Sự khác biệt giữa set() và frozenset() trong Python Làm việc với các biến môi trường trong Python Một tác vụ phổ biến khi làm việc với danh sách trong Python Định dạng chuỗi Strings trong Python Sử dụng Poetry để quản lý dependencies trong Python Sự khác biệt giữa sort() và sorted() trong Python Từ khóa yield trong Python Lớp dữ liệu (Data Classes) trong Python với decorator @dataclass Cách truy cập và thiết lập biến môi trường trong Python Hướng dẫn toàn diện về module datetime trong Python Hướng dẫn xây dựng Command-Line Interface (CLI) bằng Quo trong Python Sử dụng Virtual Environment trong Python Từ khóa super() trong Python Số phức trong Python Ý nghĩa của một hoặc hai dấu gạch dưới đứng đầu trong Python Làm việc với Video trong OpenCV bằng Python Chỉnh sửa file trực tiếp bằng module fileinput trong Python Hướng dẫn cách chuyển đổi kiểu dữ liệu trong Python Làm việc với hình ảnh trong OpenCV sử dụng Python Metaclasses trong Python Cách chọn ngẫu nhiên một phần tử từ danh sách trong Python Hướng dẫn cài đặt và sử dụng OpenCV trong Python Phạm vi toàn cục, cục bộ và không cục bộ trong Python Tìm hiểu về từ khóa self trong các lớp Python Hướng dẫn sử dụng Rich, Typer, và SQLite trên terminal bằng Python Giới thiệu về Graph Machine Learning trong Python Cách kiểm tra một đối tượng có thể lặp (iterable) trong Python Quản lý sinh viên Python & MySQL Cách cắt (slicing) chuỗi trong Python Cách loại bỏ phần tử trùng lặp khỏi danh sách (List) trong Python Phân tích dữ liệu Apple Health bằng Python Cách làm phẳng danh sách lồng nhau trong Python Tìm hiểu về *args và **kwargs trong Python Cách xóa file và thư mục trong Python 31 Phương thức xử lý chuỗi (String) quan trọng trong Python Cách sao chép file trong Python 8 Mẹo Refactor Code Python nhanh gọn (Phần 2) Cách yêu cầu người dùng nhập liệu đến khi nhận được phản hồi hợp lệ trong Python Làm chủ Pattern Matching trong Python 3.10 Tạo app ghi chú trong Python với nhận dạng giọng nói và API Notion Các tính năng mới trong Python 3.10 5 lỗi thường gặp trong Python Sự khác biệt giữa append() và extend() trong list Python Các cách nối hai danh sách trong Python Sự khác biệt giữa str và repr trong Python Sự khác biệt giữa @classmethod, @staticmethod và instance methods trong Python Cách thêm số 0 vào đầu chuỗi trong Python Cách tạo thư mục lồng nhau (nested directory) trong Python
CÁC CHỦ ĐỀ
BÀI MỚI NHẤT
MỚI CẬP NHẬT

Thông báo: Download 4 khóa học Python từ cơ bản đến nâng cao tại đây.

Tìm hiểu về các phép toán Groupby trong Pandas

Dưới đây là hướng dẫn toàn diện về cách sử dụng các phép toán groupby trong Pandas, một công cụ quan trọng trong phân tích dữ liệu giúp chia nhóm và tính toán thống kê theo các nhóm khác nhau trong dữ liệu. Bài viết sẽ đưa bạn qua từng bước từ cơ bản đến nâng cao, cùng với các ví dụ chi tiết, để bạn có thể áp dụng các thao tác này một cách hiệu quả trong thực tế.

test php

banquyen png
Bài viết này được đăng tại freetuts.net, không được copy dưới mọi hình thức.

Aggregation là gì?

Aggregation là quá trình nhóm các dữ liệu theo từng nhóm hoặc loại nhất định và sau đó áp dụng các hàm thống kê như trung bình, tổng, độ lệch chuẩn... trên những nhóm này. Đây là kỹ thuật quan trọng giúp chúng ta hiểu rõ hơn về dữ liệu.

Dataset review
Dataset này dựa trên dữ liệu các "pokemon", với các thuộc tính như: Attack (điểm tấn công), Defense (điểm phòng thủ), HP (sức mạnh), Speed (tốc độ), Generation (thế hệ) và Legendary (pokemon huyền thoại hay không).

Chúng ta sẽ loại bỏ cột Name do chứa dữ liệu kiểu chuỗi không cần thiết cho quá trình groupby.

import pandas as pd

# Đọc dữ liệu
path='https://gist.githubusercontent.com/armgilles/194bcff35001e7eb53a2a8b441e8b2c6/raw/92200bc0a673d5ce2110aaad4544ed6c4010f687/pokemon.csv'
pokemon_data = pd.read_csv(path, index_col = '#')

# Xóa cột 'Name'
del pokemon_data['Name']

Các bước sử dụng các phép toán groupby trong Pandas

Bước 1: Áp dụng groupby với hàm trung bình

Câu hỏi: Tính giá trị trung bình của thuộc tính "Total" cho từng "Generation".

Bài viết này được đăng tại [free tuts .net]

pokemon_data[['Total', 'Generation']].groupby('Generation').mean()

Kết quả:

Generation Total
1 426.813253
2 418.283019
3 436.225000
4 459.016529
5 434.987879
6 436.378049

Bước 2: Áp dụng nhiều Hàm Aggregate trong ,ột groupby

Câu hỏi: Tính giá trị trung bình và độ lệch chuẩn của thuộc tính "Speed" cho từng thế hệ.

pokemon_data.groupby("Generation").agg(
   average_speed=("Speed","mean"), 
   std_speed=("Speed", "std")
)

Kết quả:

Generation average_speed std_speed
1 72.584337 29.675857
2 61.811321 27.263132
3 66.925000 31.331972
4 71.338843 28.475005
5 68.078788 28.726632
6 66.439024 25.691954

Bước 3: Groupby với nhiều cột

Câu hỏi: Tìm Attack cao nhất cho từng Generation và kiểm tra xem pokemon đó có phải là Legendary hay không.

pokemon_data.groupby(['Generation', 'Legendary']).agg(
    maximum_attack = ('Attack', 'max')
)

Bước 4: Sắp xếp kết quả Groupby

Câu hỏi: Loại pokemon có Attack cao nhất cho từng Generation, cần sắp xếp kết quả để dễ quan sát.

pokemon_data.groupby(['Generation', 'Legendary']).agg(
    maximum_attack = ('Attack', 'max')
).sort_values(by = 'maximum_attack', ascending = False)

Bước 5: Sử dụng Groupby với lọc dữ liệu

Sử dụng groupby với filter để chọn ra các pokemon loại "Dragon" có Attack trung bình trên 100.

grouped = pokemon_data.groupby('Type 1')
grouped.filter(lambda x: x['Attack'].mean() > 100)

Qua các bước này, bạn đã nắm được cách sử dụng groupby của Pandas để thực hiện các phép toán thống kê từ cơ bản đến nâng cao.

Kết bài

Sau khi hoàn thành bài viết này, bạn sẽ có cái nhìn toàn diện về các phép toán groupby trong Pandas và cách chúng giúp khai thác dữ liệu theo từng nhóm khác nhau. Bằng cách thực hành và áp dụng các ví dụ này, bạn sẽ nắm vững kỹ năng xử lý, phân tích dữ liệu và dễ dàng sử dụng groupby để giải quyết các bài toán thống kê phức tạp. Chúc bạn thành công trong hành trình chinh phục Pandas và các công cụ phân tích dữ liệu khác!

Cùng chuyên mục:

Cách tạo thư mục lồng nhau (nested directory) trong Python

Cách tạo thư mục lồng nhau (nested directory) trong Python

Cách thêm số 0 vào đầu chuỗi trong Python

Cách thêm số 0 vào đầu chuỗi trong Python

Sự khác biệt giữa @classmethod, @staticmethod và instance methods trong Python

Sự khác biệt giữa @classmethod, @staticmethod và instance methods trong Python

Sự khác biệt giữa str và repr trong Python

Sự khác biệt giữa str và repr trong Python

Các cách nối hai danh sách trong Python

Các cách nối hai danh sách trong Python

Sự khác biệt giữa append() và extend() trong list Python

Sự khác biệt giữa append() và extend() trong list Python

5 lỗi thường gặp trong Python

5 lỗi thường gặp trong Python

Các tính năng mới trong Python 3.10

Các tính năng mới trong Python 3.10

Tạo app ghi chú trong Python với nhận dạng giọng nói và API Notion

Tạo app ghi chú trong Python với nhận dạng giọng nói và API Notion

Làm chủ Pattern Matching trong Python 3.10

Làm chủ Pattern Matching trong Python 3.10

Cách yêu cầu người dùng nhập liệu đến khi nhận được phản hồi hợp lệ trong Python

Cách yêu cầu người dùng nhập liệu đến khi nhận được phản hồi hợp lệ trong Python

8 Mẹo Refactor Code Python nhanh gọn (Phần 2)

8 Mẹo Refactor Code Python nhanh gọn (Phần 2)

Cách sao chép file trong Python

Cách sao chép file trong Python

31 Phương thức xử lý chuỗi (String) quan trọng trong Python

31 Phương thức xử lý chuỗi (String) quan trọng trong Python

Cách xóa file và thư mục trong Python

Cách xóa file và thư mục trong Python

Tìm hiểu về *args và **kwargs trong Python

Tìm hiểu về *args và **kwargs trong Python

Cách làm phẳng danh sách lồng nhau trong Python

Cách làm phẳng danh sách lồng nhau trong Python

Phân tích dữ liệu Apple Health bằng Python

Phân tích dữ liệu Apple Health bằng Python

Cách loại bỏ phần tử trùng lặp khỏi danh sách (List) trong Python

Cách loại bỏ phần tử trùng lặp khỏi danh sách (List) trong Python

Cách cắt (slicing) chuỗi trong Python

Cách cắt (slicing) chuỗi trong Python

Top