Xử lý chuỗi (string) trong C
Trong bài này chúng ta sẽ tìm hiểu về chuỗi string trong ngôn ngữ C, đây là loại dữ liệu được sử dụng rất thường xuyên khi học lập trình C.
C là ngôn ngữ rất nghiêm ngặt, vì vậy việc đồng bộ dữ liệu rất quan trọng, và bạn sẽ nhận lỗi nếu cố tình vi phạm đến kiểu dữ liệu đã khai báo cho biến.
Không giống với những ngôn ngữ lập trình khác, trong C không có kiểu string mà chỉ có kiểu char. Như ta đã học ở bài trước, char
là kiểu ký tự nên nó chỉ có độ dài là 1 byte, nhưng chuỗi thì phải có nhiều ký tự nên để để khai báo một chuỗi thì ta phải khai báo char là một mảng.
1. Khai báo chuỗi trong C
Trong lập trình C, một chuỗi là một danh sách các ký tự được kết thúc bằng ký tự null \0
. Ví dụ:
Bài viết này được đăng tại [free tuts .net]
char c[] = "c string";
Khi trình biên dịch gặp một chuỗi ký tự được đặt trong dấu ngoặc kép, theo mặc định, nó sẽ thêm một ký tự null \0
vào cuối chuỗi.
Để khai báo chuỗi trong C thì ta sử dụng cú pháp sau:
char s[5];
Cú pháp này giống với cú pháp trong khai báo mảng, vì thực tế chuỗi là một mảng các ký tự nên nó sẽ có độ dài nhất định. Như ví dụ này mình đã khai báo một chuỗi có độ dài là 5.
2. Gán giá dữ liệu lúc khai báo chuỗi trong C
Bạn có thể gán giá trị ngay lúc khai báo biến kiểu chuỗi như sau:
char c[] = "abcd"; char c[50] = "abcd"; char c[] = {'a', 'b', 'c', 'd', '\0'}; char c[5] = {'a', 'b', 'c', 'd', '\0'};
Hãy xem thêm một ví dụ khác:
char c[5] = "abcde";
Mình khai báo chuỗi gồm 5 ký tự, và cũng gán 5 ký tự vào. Tuy nhiên thực tế trình biên dịch sẽ tự thêm một ký tự null vào cuối chuỗi nên tổng sẽ là 6. Điều này là không tốt, bạn phải khai báo độ dài của chuỗi lớn hơn 1 so với dữ liệu mà bạn muốn gán vào.
3. Gán dữ liệu vào chuỗi sau khi khai báo biến
Chuỗi và mảng là second-class trong lập trình C, vì vậy bạn không thể sử dụng toán tử gán sau khi khai báo.
char c[100]; c = "C programming"; // Error! array type is not assignable.
4. Đọc chuỗi từ bàn phím mà người dùng nhập vào
Bạn có thể sử dụng hàm scanf để đọc dữ liệu từ bàn phím và gán vào chuỗi. Hàm này sẽ đọc cho tới khi gặp ký tự whitespace (space, newline, tab, ...).
Ví dụ: Dùng scanf để đọc một chuỗi
#include <stdio.h> int main() { char name[20]; printf("Enter name: "); scanf("%s", name); printf("Your name is %s.", name); return 0; }
Kết quả:
Enter name: Cuong Nguyen Your name is Cuong
Như bạn thấy, mình đã cố tình nhập vào là Cuong Nguyen nhưng trình biên dịch chỉ nhận được chuỗi Cuong, lý do là sau chữ Cuong có khoảng trắng nên nó dừng ngại vị trí đó.
Để giải quyết vấn đề này ta sử dụng hàm fgets để đọc một dòng chuỗi và puts để hiển thị dòng đó ra màn hình.
Ví dụ: fgets()
và puts()
#include <stdio.h> int main() { char name[30]; printf("Enter name: "); fgets(name, sizeof(name), stdin); // read string printf("Name: "); puts(name); // display string return 0; }
Kết quả:
Enter name: Cuong Nguyen Your name is Cuong Nguyen
Note: Thực tế bạn cũng có thể sử dụng ham
fget
để đọc dữ liệu chuỗi từ người dùng, tuy nhiên nó đã bị loại bỏ khỏi thư viện của C bởi vì hàm đó cho phép nhập độ dài bất kì, điều này dễ gây ra tình trạng tràn bộ nhớ.
Trên là những kiến thức cơ bản của chuỗi trong C. Vì bạn chưa học về function nên những hàm xử lý chuỗi thường gặp mình sẽ nói ở một bài khác nhé.