Thông báo: Download 4 khóa học Python từ cơ bản đến nâng cao tại đây.
Nhóm Non-capturing trong Regex Python
Trong bài viết này, bạn sẽ tìm hiểu cách sử dụng nhóm non-capturing trong regex của Python. Đây là một công cụ mạnh mẽ giúp tạo ra các nhóm trong biểu thức chính quy mà không cần lưu trữ chúng trong kết quả khớp, giúp tiết kiệm bộ nhớ và tối ưu hóa hiệu suất. Nhóm non-capturing cung cấp sự linh hoạt trong việc tạo các mẫu regex phức tạp mà không làm tăng chi phí lưu trữ không cần thiết.
Giới thiệu về nhóm non-capturing trong regex Python
Regular expressions có hai loại nhóm:
- Nhóm capturing
- Nhóm non-capturing
Bạn đã học cách sử dụng nhóm bắt để trích xuất thông tin từ một kết quả khớp lớn hơn hoặc khớp lại nhóm đã khớp trước đó bằng cách sử dụng backreference.
Để tạo nhóm bắt, bạn đặt một mẫu (hoặc quy tắc) bên trong dấu ngoặc đơn, ví dụ:
Bài viết này được đăng tại [free tuts .net]
(X)
Cú pháp này sẽ bắt bất cứ thứ gì khớp với X bên trong kết quả khớp để bạn có thể truy cập nó thông qua phương thức group()
của đối tượng Match
.
Đôi khi, bạn có thể muốn tạo một nhóm nhưng không muốn lưu trữ nó trong các nhóm của kết quả khớp. Để làm điều đó, bạn có thể sử dụng nhóm non-capturing với cú pháp sau:
(?:X)
Ví dụ về nhóm non-capturing trong Regex Python
Ví dụ sau minh họa cách sử dụng các nhóm bắt để bắt phiên bản chính và phụ của Python trong chuỗi "Python 3.10":
import re s = 'Python 3.10' pattern = '(\d+)\.(\d+)' match = re.search(pattern, s) # hiển thị kết quả khớp toàn bộ print(match.group()) # hiển thị các nhóm for group in match.groups(): print(group)
Kết quả:
3.10 3 10
Mẫu sau khớp một hoặc nhiều chữ số theo sau bởi ký tự "." và một hoặc nhiều chữ số:
(\d+)\.(\d+)
Nó có hai nhóm bắt. Chúng bắt các chữ số trước và sau ký tự ".":
3 10
Giả sử bạn không muốn bắt các chữ số trước ký tự ".", bạn có thể sử dụng nhóm non-capturing như sau:
import re s = 'Python 3.10' pattern = '(?:\d+)\.(\d+)' match = re.search(pattern, s) # hiển thị kết quả khớp toàn bộ print(match.group()) # hiển thị các nhóm for group in match.groups(): print(group)
Kết quả:
3.10 10
Trong ví dụ này, chúng ta sử dụng nhóm non-capturing cho nhóm đầu tiên:
(?:\d+)
Để chỉ bắt phiên bản phụ, bạn có thể bỏ qua nhóm non-capturing ở vị trí đầu tiên như sau:
import re s = 'Python 3.10' pattern = '\d+\.(\d+)' match = re.search(pattern, s) # hiển thị kết quả khớp toàn bộ print(match.group()) # hiển thị các nhóm for group in match.groups(): print(group)
Kết quả:
3.10 10
Vậy tại sao bạn lại sử dụng nhóm non-capturing? Lý do là để tiết kiệm bộ nhớ, vì regex engine không cần lưu trữ các nhóm trong bộ đệm.
Kết bài
Nhóm non-capturing trong regex của Python giúp bạn tạo ra các nhóm mà không cần lưu trữ chúng trong kết quả khớp, giúp tiết kiệm bộ nhớ và tối ưu hóa hiệu suất. Bằng cách sử dụng cú pháp (?), bạn có thể tạo ra các mẫu regex phức tạp một cách hiệu quả mà không làm tăng chi phí lưu trữ không cần thiết. Đây là một công cụ mạnh mẽ và linh hoạt, giúp bạn viết các biểu thức chính quy một cách hiệu quả và tối ưu hơn.