Thông báo: Download 4 khóa học Python từ cơ bản đến nâng cao tại đây.
Lookahead trong Python Regex
Trong bài viết này, bạn sẽ tìm hiểu về lookahead trong regex của Python, một công cụ mạnh mẽ để xử lý và kiểm tra chuỗi ký tự theo các quy tắc phức tạp. Lookahead cho phép bạn xác định các mẫu (pattern) chỉ khi chúng được theo sau bởi các điều kiện cụ thể, hoặc ngược lại, không được theo sau bởi các điều kiện đó. Điều này giúp bạn tạo ra các biểu thức chính quy (regular expressions) tinh vi và linh hoạt hơn, phục vụ cho nhiều mục đích khác nhau trong xử lý chuỗi và dữ liệu.
Giới thiệu về Lookahead trong Python Regex
Đôi khi, bạn muốn khớp với X nhưng chỉ khi nó được theo sau bởi Y. Trong trường hợp này, bạn có thể sử dụng lookahead trong các biểu thức chính quy.
Cú pháp của lookahead như sau:
X(?=Y)
Cú pháp này có nghĩa là tìm X nhưng chỉ khớp nếu nó được theo sau bởi Y.
Bài viết này được đăng tại [free tuts .net]
Ví dụ, giả sử bạn có chuỗi sau:
'1 Python dài khoảng 4 feet'
Và bạn muốn khớp với số (4) được theo sau bởi một khoảng trắng và chuỗi ký tự 'feet', không phải số 1. Trong trường hợp này, bạn có thể sử dụng mẫu sau chứa lookahead:
\d+(?=\s*feet)
Trong mẫu này:
\d+
là sự kết hợp của tập hợp ký tự số với toán tử+
để khớp với một hoặc nhiều chữ số.?=
là cú pháp của lookahead.\s*
là sự kết hợp của tập hợp ký tự khoảng trắng và toán tử*
để khớp với không hoặc nhiều khoảng trắng.feet
khớp với chuỗi ký tự 'feet'.
Đoạn mã sau sử dụng mẫu trên để khớp với số được theo sau bởi không hoặc nhiều khoảng trắng và chuỗi ký tự 'feet':
import re s = '1 Python dài khoảng 4 feet' pattern = '\d+(?=\s*feet)' matches = re.finditer(pattern, s) for match in matches: print(match.group())
Kết quả:
4
Lookahead nhiều lần trong Regex
Regex cho phép bạn có nhiều lookahead với cú pháp sau:
X(?=Y)(?=Z)
Trong cú pháp này, regex engine sẽ thực hiện các bước sau:
- Tìm X.
- Kiểm tra nếu Y nằm ngay sau X, bỏ qua nếu không phải.
- Kiểm tra nếu Z cũng nằm ngay sau Y, bỏ qua nếu không phải.
- Nếu cả hai kiểm tra đều thành công, X sẽ khớp; nếu không, tìm kiếm kết quả khớp tiếp theo.
Vậy mẫu X(?=Y)(?=Z)
khớp với X theo sau bởi cả Y và Z cùng một lúc.
Negative Lookahead trong Regex
Giả sử bạn muốn khớp chỉ số 1 trong văn bản sau mà không phải số 4:
'1 Python dài khoảng 4 feet'
Để làm điều đó, bạn có thể sử dụng cú pháp negative lookahead:
X(?!Y)
Mẫu X(?!Y)
khớp với X chỉ khi nó không được theo sau bởi Y. Nó là \d+
không theo sau bởi chuỗi ký tự 'feet':
import re s = '1 Python dài khoảng 4 feet' pattern = '\d+(?!\s*feet)' matches = re.finditer(pattern, s) for match in matches: print(match.group())
Kết quả:
1
Kết bài
Việc sử dụng lookahead trong Python regex với cú pháp X(?=Y) cho phép bạn khớp với X chỉ khi nó được theo sau bởi Y, trong khi sử dụng negative lookahead với cú pháp X(?!Y) cho phép bạn khớp với X chỉ khi nó không được theo sau bởi Y. Những kỹ thuật này cung cấp khả năng kiểm tra và xử lý chuỗi một cách linh hoạt và chính xác, giúp bạn dễ dàng áp dụng vào nhiều tình huống khác nhau trong lập trình và phân tích dữ liệu.