PYTHON REGEX
CÁC CHỦ ĐỀ
BÀI MỚI NHẤT
MỚI CẬP NHẬT

Thông báo: Download 4 khóa học Python từ cơ bản đến nâng cao tại đây.

Lookahead trong Python Regex

Trong bài viết này, bạn sẽ tìm hiểu về lookahead trong regex của Python, một công cụ mạnh mẽ để xử lý và kiểm tra chuỗi ký tự theo các quy tắc phức tạp. Lookahead cho phép bạn xác định các mẫu (pattern) chỉ khi chúng được theo sau bởi các điều kiện cụ thể, hoặc ngược lại, không được theo sau bởi các điều kiện đó. Điều này giúp bạn tạo ra các biểu thức chính quy (regular expressions) tinh vi và linh hoạt hơn, phục vụ cho nhiều mục đích khác nhau trong xử lý chuỗi và dữ liệu.

test php

banquyen png
Bài viết này được đăng tại freetuts.net, không được copy dưới mọi hình thức.

Giới thiệu về Lookahead trong Python Regex

Đôi khi, bạn muốn khớp với X nhưng chỉ khi nó được theo sau bởi Y. Trong trường hợp này, bạn có thể sử dụng lookahead trong các biểu thức chính quy.

Cú pháp của lookahead như sau:

X(?=Y)

Cú pháp này có nghĩa là tìm X nhưng chỉ khớp nếu nó được theo sau bởi Y.

Bài viết này được đăng tại [free tuts .net]

Ví dụ, giả sử bạn có chuỗi sau:

'1 Python dài khoảng 4 feet'

Và bạn muốn khớp với số (4) được theo sau bởi một khoảng trắng và chuỗi ký tự 'feet', không phải số 1. Trong trường hợp này, bạn có thể sử dụng mẫu sau chứa lookahead:

\d+(?=\s*feet)

Trong mẫu này:

  • \d+ là sự kết hợp của tập hợp ký tự số với toán tử + để khớp với một hoặc nhiều chữ số.
  • ?= là cú pháp của lookahead.
  • \s* là sự kết hợp của tập hợp ký tự khoảng trắng và toán tử * để khớp với không hoặc nhiều khoảng trắng.
  • feet khớp với chuỗi ký tự 'feet'.

Đoạn mã sau sử dụng mẫu trên để khớp với số được theo sau bởi không hoặc nhiều khoảng trắng và chuỗi ký tự 'feet':

import re

s = '1 Python dài khoảng 4 feet'
pattern = '\d+(?=\s*feet)'

matches = re.finditer(pattern, s)
for match in matches:
    print(match.group())

Kết quả:

4

Lookahead nhiều lần trong Regex

Regex cho phép bạn có nhiều lookahead với cú pháp sau:

X(?=Y)(?=Z)

Trong cú pháp này, regex engine sẽ thực hiện các bước sau:

  • Tìm X.
  • Kiểm tra nếu Y nằm ngay sau X, bỏ qua nếu không phải.
  • Kiểm tra nếu Z cũng nằm ngay sau Y, bỏ qua nếu không phải.
  • Nếu cả hai kiểm tra đều thành công, X sẽ khớp; nếu không, tìm kiếm kết quả khớp tiếp theo.

Vậy mẫu X(?=Y)(?=Z) khớp với X theo sau bởi cả Y và Z cùng một lúc.

Negative Lookahead trong Regex

Giả sử bạn muốn khớp chỉ số 1 trong văn bản sau mà không phải số 4:

'1 Python dài khoảng 4 feet'

Để làm điều đó, bạn có thể sử dụng cú pháp negative lookahead:

X(?!Y)

Mẫu X(?!Y) khớp với X chỉ khi nó không được theo sau bởi Y. Nó là \d+ không theo sau bởi chuỗi ký tự 'feet':

import re

s = '1 Python dài khoảng 4 feet'
pattern = '\d+(?!\s*feet)'

matches = re.finditer(pattern, s)
for match in matches:
    print(match.group())

Kết quả:

1

Kết bài

Việc sử dụng lookahead trong Python regex với cú pháp X(?=Y) cho phép bạn khớp với X chỉ khi nó được theo sau bởi Y, trong khi sử dụng negative lookahead với cú pháp X(?!Y) cho phép bạn khớp với X chỉ khi nó không được theo sau bởi Y. Những kỹ thuật này cung cấp khả năng kiểm tra và xử lý chuỗi một cách linh hoạt và chính xác, giúp bạn dễ dàng áp dụng vào nhiều tình huống khác nhau trong lập trình và phân tích dữ liệu.

Cùng chuyên mục:

Hướng dẫn xây dựng Command-Line Interface (CLI) bằng Quo trong Python

Hướng dẫn xây dựng Command-Line Interface (CLI) bằng Quo trong Python

Hướng dẫn toàn diện về module datetime trong Python

Hướng dẫn toàn diện về module datetime trong Python

Cách truy cập và thiết lập biến môi trường trong Python

Cách truy cập và thiết lập biến môi trường trong Python

Lớp dữ liệu (Data Classes) trong Python với decorator @dataclass

Lớp dữ liệu (Data Classes) trong Python với decorator @dataclass

Từ khóa yield trong Python

Từ khóa yield trong Python

Sự khác biệt giữa sort() và sorted() trong Python

Sự khác biệt giữa sort() và sorted() trong Python

Sử dụng Poetry để quản lý dependencies trong Python

Sử dụng Poetry để quản lý dependencies trong Python

Định dạng chuỗi Strings trong Python

Định dạng chuỗi Strings trong Python

Một tác vụ phổ biến khi làm việc với danh sách trong Python

Một tác vụ phổ biến khi làm việc với danh sách trong Python

Làm việc với các biến môi trường trong Python

Làm việc với các biến môi trường trong Python

Sự khác biệt giữa set() và frozenset() trong Python

Sự khác biệt giữa set() và frozenset() trong Python

Sự khác biệt giữa iterator và iterable trong Python

Sự khác biệt giữa iterator và iterable trong Python

Cách làm việc với file tarball/tar trong Python

Cách làm việc với file tarball/tar trong Python

Chuyển đổi kiểu dữ liệu trong Python

Chuyển đổi kiểu dữ liệu trong Python

Sự khác biệt giữa toán tử == và is trong Python

Sự khác biệt giữa toán tử == và is trong Python

Làm việc với file ZIP trong Python

Làm việc với file ZIP trong Python

Cách sử dụng ThreadPoolExecutor trong Python

Cách sử dụng ThreadPoolExecutor trong Python

Sự khác biệt giữa byte objects và string trong Python

Sự khác biệt giữa byte objects và string trong Python

Xử lý độ chính xác các hàm floor, ceil, round, trunc, format  trong Python

Xử lý độ chính xác các hàm floor, ceil, round, trunc, format trong Python

Cách lặp qua nhiều list với hàm zip() trong Python

Cách lặp qua nhiều list với hàm zip() trong Python

Top