PANDAS
CÁC CHỦ ĐỀ
BÀI MỚI NHẤT
MỚI CẬP NHẬT

Thông báo: Download 4 khóa học Python từ cơ bản đến nâng cao tại đây.

Pandas là gì? Cách cài đặt Pandas Python

Trong bài này mình sẽ hướng dẫn các bạn cách cài đặt thư viện Pandas Python. Qua bài này sẽ giúp bạn hiểu khái niệm Pandas là gì? Những lợi ích khi sử dụng Pandas? Và các bước cài đặt như thế nào?

test php

banquyen png
Bài viết này được đăng tại freetuts.net, không được copy dưới mọi hình thức.

1. Pandas là gì?

Pandas là một thư viện mã nguồn mở giúp phân tích và thao tác dữ liệu nhanh, mạnh mẽ, linh hoạt và dễ sử dụng, được xây dựng dựa trên ngôn ngữ lập trình Python. Cái tên pandas không phải vì tác giả của nó là người yêu gấu trúc mà là viết tắt cho panel data (bảng dữ liệu).

Pandas hỗ trợ rất nhiều kiểu dữ liệu khác nhau như CSV, TSV, Excel, HDF, JSON, THML, SQL,.... Thư viện này sẽ xử lý và phân tích dữ liệu theo năm bước: tải, chuẩn bị, thao tác, mô hình hoá và phân tích, dữ liệu được biểu thị dưới dạng một khung dữ liệu (data frame) trông khá giống với Excel nên rất dễ sử dụng.

Trong chương NumPy, chúng ta đã biết được cách thao tác và tính toán trên mảng một cách hiệu quả hơn nhiều so với sử dụng các phương thức truyền thống trong Python.

Bài viết này được đăng tại [free tuts .net]

Dù ta có thể thấy NumPy là một thư viện rất mạnh, tuy nhiên những hạn chế của nó trở nên rõ ràng khi chúng ta cần sự linh hoạt hơn, đặc biệt là trong việc cấu trúc dữ liệu. Trong bài cuối của NumPy, ta đã tìm hiểu về Structured Array là một tính năng của NumPy để làm việc này, tuy nhiên nó vẫn chưa thực sự hiệu quả.

Pandas là một thư viện được xây dựng trên NumPy và cung cấp cho chúng ta những tính năng rất mạnh trong việc xử lý dữ liệu thiếu, gắn nhãn, nhóm,... vốn chiếm nhiều thời gian trong xử lý dữ liệu. Trong Series này, chúng ta sẽ cùng tìm hiểu từ cơ bản đến nâng cao về Pandas nhé. Bài đầu tiên này sẽ giới thiệu về lợi ích cũng như cách cài đặt Pandas.

2. Lợi ích khi sử dụng Pandas

Dưới đây là những lợi ích khi sử dụng thư viện Pandas Python.

  • Biểu diễn dữ liệu: dễ đọc, dễ dùng, thích hợp để phân tích dữ liệu
  • Dễ dàng xử lý dữ liệu bị thiếu (biểu diễn nó dưới dạng NaNs)
  • Nhanh và cung cấp hiệu suất được tối ưu hóa cao vì nó được xây dựng trên NumPy.
  • Hoạt động hiệu quả với Time Series
  • Thích hợp cho việc xử lý các tập dữ liệu lớn
  • Tương thích với rất nhiều định dạng file khác nhau

... và còn rất nhiều lợi ích khác, và sau khi học xong series này bạn sẽ thấy điểm mạnh của Pandas.

3. Hướng dẫn cài đặt Pandas

Để cài đặt Pandas thì chắc chạn bạn cần có Python. Nếu như bạn chưa cài Python thì mình khuyến khích sử dụng Anaconda, nó bao gồm Python, Pandas và các thư viện phổ biến được sử dụng khác (NumPy, Matplotlib, Scipy,...) cho tính toán khoa học và xử lý dữ liệu.

Ngoài ra, Pandas hoàn toàn có thể cài như một package Python bình thường, bạn có thể cài qua Pip bằng câu lệnh:

pip install pandas

Hoặc nếu bạn đang dùng conda:

conda install pandas

Hoặc bạn muốn cài đặt trên các phiên bản Linux:

Linux Distro Trạng thái Repository Link Câu lệnh cài đặt
Debian Ổn định official Debian repository sudo apt-get install python3-pandas
Debian & Ubuntu Không ổn định NeuroDebian sudo apt-get install python3-pandas
Ubuntu Ổn định official Ubuntu repository sudo apt-get install python3-pandas
OpenSUSE Ổn định OpenSuse Repository zypper in python3-pandas
Fedora Ổn định official Fedora repository dnf install python3-pandas
Centos/RHEL Ổn định EPEL repository yum install python3-pandas

Với người mới, chưa có nhiều kinh nghiệm thì cài đặt Pandas nói riêng cũng như Python nói chung khá khó khăn, mình khuyến khích cài đặt pandas theo các bước sau:

  1. Cài đặt Anaconda (giúp cài đặt tất cả các gói bạn cần và tất cả các công cụ khác được đề cập ở dưới).
  2. Để viết code, sử dụng notebooks trong JupyterLab.
  3. Dùng Anaconda Navigator để quản lý các packages sẽ cài.

4. Kiểm tra version của Pandas

Khi đã hoàn tất việc cài đặt Pandas, bạn có thể kiểm tra version pandas (trong thời điểm viết bài này thì pandas version đang là 1.1.3) để xem nó đã được cài đặt ổn định hay chưa bằng cú pháp sau:

In
import pandas as pd

pd.__version__
Out
'1.1.3'

Trong Jupyter Notebook:

cai dan pandas JPG

Trong series này sẽ dùng pd làm alias cho Pandas, đây là alias được cộng đồng Python trên thế giới sử dụng rất phổ biến cho pandas nên bạn nên làm quen với cách dùng này.

5. Tổng kết

Qua bài này ta đã tìm hiểu được khái niệm Pandas là gì? Công dụng của Pandas? Và cách cài đặt Pandas trong Python.

Pandas là một thư viện quan trọng, cùng với NumPy và Matplotlib làm nên 3 thư viện cơ bản nhất trong Data Science với Python. Trong bài tiếp theo, ta sẽ tìm hiểu về Pandas Object - thành phần cốt lõi nhất của Pandas. Hẹn gặp bạn ở bài sau.

Cùng chuyên mục:

Phạm vi số float của Python

Phạm vi số float của Python

Bài tập Python : Pandas trong Python

Bài tập Python : Pandas trong Python

Hướng dẫn kết nối Python PostgreSQL bằng Psycopg2

Hướng dẫn kết nối Python PostgreSQL bằng Psycopg2

Kết nối cơ sở dữ liệu MySQL Python

Kết nối cơ sở dữ liệu MySQL Python

Bài tập Python: Lập trình cơ sở dữ liệu trong Python

Bài tập Python: Lập trình cơ sở dữ liệu trong Python

Tạo số ngẫu nhiên trong một phạm vi bằng Python

Tạo số ngẫu nhiên trong một phạm vi bằng Python

Bài tập Python : Tạo dữ liệu ngẫu nhiên trong Python

Bài tập Python : Tạo dữ liệu ngẫu nhiên trong Python

Bài tập Python : Matplotlib trong Python

Bài tập Python : Matplotlib trong Python

Bài tập Python: NumPy trong Python

Bài tập Python: NumPy trong Python

Bài tập Python: JSON trong Python

Bài tập Python: JSON trong Python

Bài tập Python: Lập trình hướng đối tượng (OOP) trong Python

Bài tập Python: Lập trình hướng đối tượng (OOP) trong Python

TimeDelta trong Python

TimeDelta trong Python

Chuyển chuỗi Python thành DateTime trong Python

Chuyển chuỗi Python thành DateTime trong Python

Bài tập Python: DateTime trong Python

Bài tập Python: DateTime trong Python

Bài tập Python: Tuple trong Python

Bài tập Python: Tuple trong Python

Bài tập Python: Set trong Python

Bài tập Python: Set trong Python

Bài tập Python: Dictionary trong Python

Bài tập Python: Dictionary trong Python

Bài tập Python: List trong Python

Bài tập Python: List trong Python

Bài tập Python: Cấu trúc dữ liệu trong Python

Bài tập Python: Cấu trúc dữ liệu trong Python

Bài tập Python: Chuỗi trong Python

Bài tập Python: Chuỗi trong Python

Top