PANDAS
CÁC CHỦ ĐỀ
BÀI MỚI NHẤT
MỚI CẬP NHẬT

Thông báo: Download 4 khóa học Python từ cơ bản đến nâng cao tại đây.

Pandas là gì? Cách cài đặt Pandas Python

Trong bài này mình sẽ hướng dẫn các bạn cách cài đặt thư viện Pandas Python. Qua bài này sẽ giúp bạn hiểu khái niệm Pandas là gì? Những lợi ích khi sử dụng Pandas? Và các bước cài đặt như thế nào?

test php

banquyen png
Bài viết này được đăng tại freetuts.net, không được copy dưới mọi hình thức.

1. Pandas là gì?

Pandas là một thư viện mã nguồn mở giúp phân tích và thao tác dữ liệu nhanh, mạnh mẽ, linh hoạt và dễ sử dụng, được xây dựng dựa trên ngôn ngữ lập trình Python. Cái tên pandas không phải vì tác giả của nó là người yêu gấu trúc mà là viết tắt cho panel data (bảng dữ liệu).

Pandas hỗ trợ rất nhiều kiểu dữ liệu khác nhau như CSV, TSV, Excel, HDF, JSON, THML, SQL,.... Thư viện này sẽ xử lý và phân tích dữ liệu theo năm bước: tải, chuẩn bị, thao tác, mô hình hoá và phân tích, dữ liệu được biểu thị dưới dạng một khung dữ liệu (data frame) trông khá giống với Excel nên rất dễ sử dụng.

Trong chương NumPy, chúng ta đã biết được cách thao tác và tính toán trên mảng một cách hiệu quả hơn nhiều so với sử dụng các phương thức truyền thống trong Python.

Bài viết này được đăng tại [free tuts .net]

Dù ta có thể thấy NumPy là một thư viện rất mạnh, tuy nhiên những hạn chế của nó trở nên rõ ràng khi chúng ta cần sự linh hoạt hơn, đặc biệt là trong việc cấu trúc dữ liệu. Trong bài cuối của NumPy, ta đã tìm hiểu về Structured Array là một tính năng của NumPy để làm việc này, tuy nhiên nó vẫn chưa thực sự hiệu quả.

Pandas là một thư viện được xây dựng trên NumPy và cung cấp cho chúng ta những tính năng rất mạnh trong việc xử lý dữ liệu thiếu, gắn nhãn, nhóm,... vốn chiếm nhiều thời gian trong xử lý dữ liệu. Trong Series này, chúng ta sẽ cùng tìm hiểu từ cơ bản đến nâng cao về Pandas nhé. Bài đầu tiên này sẽ giới thiệu về lợi ích cũng như cách cài đặt Pandas.

2. Lợi ích khi sử dụng Pandas

Dưới đây là những lợi ích khi sử dụng thư viện Pandas Python.

  • Biểu diễn dữ liệu: dễ đọc, dễ dùng, thích hợp để phân tích dữ liệu
  • Dễ dàng xử lý dữ liệu bị thiếu (biểu diễn nó dưới dạng NaNs)
  • Nhanh và cung cấp hiệu suất được tối ưu hóa cao vì nó được xây dựng trên NumPy.
  • Hoạt động hiệu quả với Time Series
  • Thích hợp cho việc xử lý các tập dữ liệu lớn
  • Tương thích với rất nhiều định dạng file khác nhau

... và còn rất nhiều lợi ích khác, và sau khi học xong series này bạn sẽ thấy điểm mạnh của Pandas.

3. Hướng dẫn cài đặt Pandas

Để cài đặt Pandas thì chắc chạn bạn cần có Python. Nếu như bạn chưa cài Python thì mình khuyến khích sử dụng Anaconda, nó bao gồm Python, Pandas và các thư viện phổ biến được sử dụng khác (NumPy, Matplotlib, Scipy,...) cho tính toán khoa học và xử lý dữ liệu.

Ngoài ra, Pandas hoàn toàn có thể cài như một package Python bình thường, bạn có thể cài qua Pip bằng câu lệnh:

pip install pandas

Hoặc nếu bạn đang dùng conda:

conda install pandas

Hoặc bạn muốn cài đặt trên các phiên bản Linux:

Linux Distro Trạng thái Repository Link Câu lệnh cài đặt
Debian Ổn định official Debian repository sudo apt-get install python3-pandas
Debian & Ubuntu Không ổn định NeuroDebian sudo apt-get install python3-pandas
Ubuntu Ổn định official Ubuntu repository sudo apt-get install python3-pandas
OpenSUSE Ổn định OpenSuse Repository zypper in python3-pandas
Fedora Ổn định official Fedora repository dnf install python3-pandas
Centos/RHEL Ổn định EPEL repository yum install python3-pandas

Với người mới, chưa có nhiều kinh nghiệm thì cài đặt Pandas nói riêng cũng như Python nói chung khá khó khăn, mình khuyến khích cài đặt pandas theo các bước sau:

  1. Cài đặt Anaconda (giúp cài đặt tất cả các gói bạn cần và tất cả các công cụ khác được đề cập ở dưới).
  2. Để viết code, sử dụng notebooks trong JupyterLab.
  3. Dùng Anaconda Navigator để quản lý các packages sẽ cài.

4. Kiểm tra version của Pandas

Khi đã hoàn tất việc cài đặt Pandas, bạn có thể kiểm tra version pandas (trong thời điểm viết bài này thì pandas version đang là 1.1.3) để xem nó đã được cài đặt ổn định hay chưa bằng cú pháp sau:

In
import pandas as pd

pd.__version__
Out
'1.1.3'

Trong Jupyter Notebook:

cai dan pandas JPG

Trong series này sẽ dùng pd làm alias cho Pandas, đây là alias được cộng đồng Python trên thế giới sử dụng rất phổ biến cho pandas nên bạn nên làm quen với cách dùng này.

5. Tổng kết

Qua bài này ta đã tìm hiểu được khái niệm Pandas là gì? Công dụng của Pandas? Và cách cài đặt Pandas trong Python.

Pandas là một thư viện quan trọng, cùng với NumPy và Matplotlib làm nên 3 thư viện cơ bản nhất trong Data Science với Python. Trong bài tiếp theo, ta sẽ tìm hiểu về Pandas Object - thành phần cốt lõi nhất của Pandas. Hẹn gặp bạn ở bài sau.

Cùng chuyên mục:

Hướng dẫn xây dựng Command-Line Interface (CLI) bằng Quo trong Python

Hướng dẫn xây dựng Command-Line Interface (CLI) bằng Quo trong Python

Hướng dẫn toàn diện về module datetime trong Python

Hướng dẫn toàn diện về module datetime trong Python

Cách truy cập và thiết lập biến môi trường trong Python

Cách truy cập và thiết lập biến môi trường trong Python

Lớp dữ liệu (Data Classes) trong Python với decorator @dataclass

Lớp dữ liệu (Data Classes) trong Python với decorator @dataclass

Từ khóa yield trong Python

Từ khóa yield trong Python

Sự khác biệt giữa sort() và sorted() trong Python

Sự khác biệt giữa sort() và sorted() trong Python

Sử dụng Poetry để quản lý dependencies trong Python

Sử dụng Poetry để quản lý dependencies trong Python

Định dạng chuỗi Strings trong Python

Định dạng chuỗi Strings trong Python

Một tác vụ phổ biến khi làm việc với danh sách trong Python

Một tác vụ phổ biến khi làm việc với danh sách trong Python

Làm việc với các biến môi trường trong Python

Làm việc với các biến môi trường trong Python

Sự khác biệt giữa set() và frozenset() trong Python

Sự khác biệt giữa set() và frozenset() trong Python

Sự khác biệt giữa iterator và iterable trong Python

Sự khác biệt giữa iterator và iterable trong Python

Cách làm việc với file tarball/tar trong Python

Cách làm việc với file tarball/tar trong Python

Chuyển đổi kiểu dữ liệu trong Python

Chuyển đổi kiểu dữ liệu trong Python

Sự khác biệt giữa toán tử == và is trong Python

Sự khác biệt giữa toán tử == và is trong Python

Làm việc với file ZIP trong Python

Làm việc với file ZIP trong Python

Cách sử dụng ThreadPoolExecutor trong Python

Cách sử dụng ThreadPoolExecutor trong Python

Sự khác biệt giữa byte objects và string trong Python

Sự khác biệt giữa byte objects và string trong Python

Xử lý độ chính xác các hàm floor, ceil, round, trunc, format  trong Python

Xử lý độ chính xác các hàm floor, ceil, round, trunc, format trong Python

Cách lặp qua nhiều list với hàm zip() trong Python

Cách lặp qua nhiều list với hàm zip() trong Python

Top