CÔNG CỤ
MODULES
THAM KHẢO
Cách chia List thành các phần bằng nhau trong Python Cách xóa một khóa (key) ra khỏi dictionary trong Python Hướng dẫn chuyển đổi file Google Colab sang Markdown trong Python Bài tập Python: Lập trình cơ sở dữ liệu trong Python Kết nối cơ sở dữ liệu MySQL Python Hướng dẫn kết nối Python PostgreSQL bằng Psycopg2 Hướng dẫn kết nối SQLite sử dụng sqlite3 trong Python Bài tập Python : Pandas trong Python Phạm vi số float của Python Cách lên lịch chạy script Python bằng GitHub Actions Cách tạo hằng số trong Python Các nền tảng lưu trữ tốt nhất cho ứng dụng và script Python 6 Tip viết vòng lặp For hiệu quả hơn trong Python Cách đảo ngược Chuỗi String trong Python Cách gỡ lỗi ứng dụng Python trong Docker Container bằng VS Code 10 tip One Liner bạn cần biết trong Python Cách áp dụng ngưỡng hình ảnh trong Python với NumPy Tìm hiểu về các phép toán Groupby trong Pandas Lập trình Socket trong Python Mô-đun base64 trong Python Cách giới hạn float values trong Python Tìm hiểu Mô-đun statistics Trong Python File Organizing trong Python Đổi tên File trong Python Tìm hiểu về Deque trong Python Mô-đun Calendar trong Python Tìm hiểu về Enum trong Python Sử dụng pprint trong Python Làm việc với cấu trúc Dữ liệu Stack trong Python Thư viện functools trong Python Tip sử dụng hàm round() với tham số âm trong Python Hàm print có thể nhận thêm các tham số bổ sung trong Python Tip tìm chuỗi dài nhất bằng hàm max() trong Python Cách lặp qua nhiều list với hàm zip() trong Python Tìm hiểu về MLOps trong Python Docker và Kubernetes với MLOps trong Python Kết hợp DevOps với MLOps trong Python Xử lý độ chính xác các hàm floor, ceil, round, trunc, format trong Python tối ưu quy trình MLOps Với Python Sự khác biệt giữa byte objects và string trong Python Top 4 thư viện phổ biến nhất của NLP trong Python Cách sử dụng ThreadPoolExecutor trong Python Phân tích dữ liệu Blockchain với Python Hướng dẫn triển khai Smart Contracts với Python Blockchain APIs với Python Làm việc với file ZIP trong Python Sự khác biệt giữa toán tử == và is trong Python Chuyển đổi kiểu dữ liệu trong Python Cách làm việc với file tarball/tar trong Python Sự khác biệt giữa iterator và iterable trong Python Sự khác biệt giữa set() và frozenset() trong Python Làm việc với các biến môi trường trong Python Một tác vụ phổ biến khi làm việc với danh sách trong Python Định dạng chuỗi Strings trong Python Sử dụng Poetry để quản lý dependencies trong Python Sự khác biệt giữa sort() và sorted() trong Python Từ khóa yield trong Python Lớp dữ liệu (Data Classes) trong Python với decorator @dataclass Cách truy cập và thiết lập biến môi trường trong Python Hướng dẫn toàn diện về module datetime trong Python Hướng dẫn xây dựng Command-Line Interface (CLI) bằng Quo trong Python Quản lý sinh viên Python & MySQL
CÁC CHỦ ĐỀ
BÀI MỚI NHẤT
MỚI CẬP NHẬT

Làm sạch file dữ liệu và cập nhật file CSV bằng Pandas trong Python

Trong thực tế, dữ liệu thường không hoàn hảo và chứa giá trị thiếu hoặc các giá trị đặc biệt (ví dụ: "?", "n.a", "NaN"). Điều này có thể gây rối khi phân tích dữ liệu hoặc xây dựng các mô hình dự đoán. Trong bài viết này, mình sẽ tìm hiểu cách làm sạch file dữ liệu bằng thư viện Pandas và sau đó cập nhật file CSV gốc.

Bước 1: Import thư viện và đọc dữ liệu

Trước tiên, mình import thư viện Pandas và đọc dữ liệu từ file CSV. Bạn cần chỉ định đường dẫn file CSV của bạn.

import pandas as pd

# Đọc dữ liệu từ file CSV và xử lý các giá trị đặc biệt
df = pd.read_csv("Đường_dẫn_đến_tập_tin.csv", na_values={
    'price': ["?", "n.a"],
    'stroke': ["?", "n.a"],
    'horsepower': ["?", "n.a"],
    'peak-rpm': ["?", "n.a"],
    'average-mileage': ["?", "n.a"]
})

Trong bước này, mình đã sử dụng tham số na_values để thay thế các giá trị "?", "n.a" bằng giá trị NaN (giá trị bị thiếu).

Bước 2: Hiển thị dữ liệu sau khi làm sạch

Sau khi đọc và làm sạch dữ liệu, hãy in ra dữ liệu để xác nhận rằng các giá trị đặc biệt đã được thay thế thành NaN.

# In ra dữ liệu sau khi làm sạch
print(df)

Kết quả sẽ hiển thị file dữ liệu sau khi đã thay thế các giá trị đặc biệt bằng NaN.

Bước 3: Lưu dữ liệu vào file CSV

Cuối cùng, mình cần lưu file dữ liệu đã làm sạch vào file CSV gốc hoặc file mới (tuỳ thuộc vào mục tiêu của bạn).

# Lưu file dữ liệu đã làm sạch vào file CSV
df.to_csv("Đường_dẫn_đến_file_mới.csv", index=False)

Trong bước này, bạn cần chỉ định đường dẫn file CSV mà bạn muốn lưu. Tham số index=False được sử dụng để không lưu cột index trong file CSV.

Kết quả

Dưới đây là kết quả mà bạn có thể mong đợi:

   index      Make  ...  highway-mpg    price
0      0       BMW  ...           27  13495.0
1      1       BMW  ...           27  16500.0
2      2       BMW  ...           26  13950.0
3      3  Chevrolet  ...           30  17450.0
4      4  Chevrolet  ...           22  15250.0
...
[205 rows x 27 columns]

Như bạn có thể thấy, tất cả các giá trị "?", "n.a" đã được thay thế bằng NaN trong file dữ liệu sau khi làm sạch. Đồng thời, file dữ liệu đã được lưu vào file CSV mới (hoặc file gốc nếu bạn chỉ định đường dẫn file gốc). Điều này giúp bạn làm sạch và cập nhật dữ liệu một cách dễ dàng bằng thư viện Pandas trong Python.

Trong bài viết này, mình đã tìm hiểu cách làm sạch file dữ liệu và cập nhật file CSV bằng thư viện Pandas trong Python. Quá trình này là quan trọng khi làm việc với dữ liệu thô và đảm bảo rằng mình có dữ liệu sạch sẽ để tiến hành phân tích hoặc xây dựng các mô hình dự đoán. Các bước cụ thể đã được trình bày trong bài viết:

  • Import thư viện Pandas và đọc dữ liệu từ file CSV, đồng thời sử dụng na_values để thay thế các giá trị đặc biệt (ví dụ: "?", "n.a") bằng NaN.

  • In ra dữ liệu sau khi làm sạch để xác nhận rằng các giá trị đã được thay thế thành NaN.

  • Lưu file dữ liệu đã làm sạch vào file CSV mới hoặc file gốc (tuỳ thuộc vào mục tiêu).

Việc này giúp bạn duy trì tính toàn vẹn của dữ liệu và chuẩn bị nền tảng cho các công việc phân tích và xử lý dữ liệu trong tương lai. Hy vọng bài viết này đã hữu ích cho bạn trong việc làm sạch và quản lý dữ liệu bằng Python và thư viện Pandas.

test php

Bài giải

-------------------- ######## --------------------

Câu hỏi thường gặp liên quan:

Cùng chuyên mục:

Hướng dẫn xây dựng Command-Line Interface (CLI) bằng Quo trong Python

Hướng dẫn xây dựng Command-Line Interface (CLI) bằng Quo trong Python

Hướng dẫn toàn diện về module datetime trong Python

Hướng dẫn toàn diện về module datetime trong Python

Cách truy cập và thiết lập biến môi trường trong Python

Cách truy cập và thiết lập biến môi trường trong Python

Lớp dữ liệu (Data Classes) trong Python với decorator @dataclass

Lớp dữ liệu (Data Classes) trong Python với decorator @dataclass

Từ khóa yield trong Python

Từ khóa yield trong Python

Sự khác biệt giữa sort() và sorted() trong Python

Sự khác biệt giữa sort() và sorted() trong Python

Sử dụng Poetry để quản lý dependencies trong Python

Sử dụng Poetry để quản lý dependencies trong Python

Định dạng chuỗi Strings trong Python

Định dạng chuỗi Strings trong Python

Một tác vụ phổ biến khi làm việc với danh sách trong Python

Một tác vụ phổ biến khi làm việc với danh sách trong Python

Làm việc với các biến môi trường trong Python

Làm việc với các biến môi trường trong Python

Sự khác biệt giữa set() và frozenset() trong Python

Sự khác biệt giữa set() và frozenset() trong Python

Sự khác biệt giữa iterator và iterable trong Python

Sự khác biệt giữa iterator và iterable trong Python

Cách làm việc với file tarball/tar trong Python

Cách làm việc với file tarball/tar trong Python

Chuyển đổi kiểu dữ liệu trong Python

Chuyển đổi kiểu dữ liệu trong Python

Sự khác biệt giữa toán tử == và is trong Python

Sự khác biệt giữa toán tử == và is trong Python

Làm việc với file ZIP trong Python

Làm việc với file ZIP trong Python

Cách sử dụng ThreadPoolExecutor trong Python

Cách sử dụng ThreadPoolExecutor trong Python

Sự khác biệt giữa byte objects và string trong Python

Sự khác biệt giữa byte objects và string trong Python

Xử lý độ chính xác các hàm floor, ceil, round, trunc, format  trong Python

Xử lý độ chính xác các hàm floor, ceil, round, trunc, format trong Python

Cách lặp qua nhiều list với hàm zip() trong Python

Cách lặp qua nhiều list với hàm zip() trong Python

Top