Câu hỏi phỏng vấn về String trong Java
Trong các cuộc phỏng vấn thì String thường được đề cập đến. String trong java cũng giống như trong các ngôn ngữ khác, là một chuỗi các kí tự. Có thể nói, String giống như một class tiện ích (utility class hay helper class) để làm việc chuỗi kí tự. Những câu hỏi về String khá đa dạng, từ sự bất biến (immutablility
) đến tràn bộ nhớ (memory leak
). Trong bài viết này, mình sẽ đi vào các vấn đề thường gặp này.
1. Tại sao String là immutable?
Lí do đầu tiên là về hiệu năng (performance). Team JVM đã nhận thấy các chuỗi trong các ứng dụng thực tế hầu như là lặp lại. Do vậy thay vì tạo ra 20 instance khác nhau cho cùng 1 chuỗi thì JVM team đã thiết kế để sử dụng string pool (hay còn gọi là string constants pool) , chỉ tạo ra 1 instance duy nhất.
Lí do thứ hai là về bảo mật (security). String là kiểu dữ liệu được sử dụng nhiều nhất trong các ứng dụng. Khi sử dụng driver hay tạo một kết nối đến URL nào đó, bạn thường phải truyền đối dưới dạng String. Nếu String không phải là immutable thì có thể gây ra một vấn đề bảo mật gọi là Pandora box. Cái này mình cũng chưa tìm hiểu kĩ lắm nên chưa viết chi tiết thêm được. Khi nào tìm hiểu được về Pandora box security thì mình sẽ cập nhật vào bài viết này.
2. String pool là gì?
String pool là một vùng nhớ đặc biệt nằm trong vùng heap
để lưu trữ các chuỗi immutable
mà ta đề cập ở phía trên
Bài viết này được đăng tại [free tuts .net]
Có 2 cách để tạo ra chuỗi trong Java:
Tạo ra bằng cách gán (assignment)
String str = "abc";
Khi gặp đoạn code trên, JVM xác định xem chuỗi "abc" đã tồn tại trong pool chưa. Nếu đã tồn tại, JVM sẽ tham chiếu biến str đến vùng nhớ của chuỗi này trong pool. Nếu chưa tồn tại, JVM sẽ tạo ra object chứa chuỗi này, đưa vào pool, rồi tham chiếu biến str đến vùng nhớ vừa tạo này.
Tạo ra bằng cách sử dụng từ khoá new
String str = new String("abc")
Với đoạn code này, JVM tạo ra 1 object trong vùng nhớ heap có giá trị là "abc"
Java docs có đoạn viết:
Unless an explicit copy of original is needed, use of this constructor is unnecessary since Strings are immutable.
Tức là: "Chỉ dùng cách khởi tạo này khi thực sự cần thiết. Vì String là kiểu dữ liệu bất biến".
Nhìn hình bên dưới, chúng ta có thể thấy được tổng quan về cách tạo String trong Java.
3. Phương thức String.intern()
Mô tả từ java docs:
When the intern() method is invoked, if the pool already contains a string equal to this String object as determined by the equals(Object) method, then the string from the pool is returned. Otherwise, this String object is added to the pool and a reference to this String object is returned
Dịch ra là:
Khi phương thức intern() được thực thi, nếu trong pool đã có đối tượng string có giá trị bằng với string được xác định bởi phương thức equals(Object) thì đối tượng string từ trong pool sẽ được trả về. Ngược lại, đối tượng string này sẽ được thêm vào pool và tham chiếu đến đối tượng này được trả về.
Dịch thì lằng ngoằng, nhưng bạn có thể hiểu đơn giản: String.intern() sẽ lấy object trong pool có giá trị giống với giá trị chuỗi mà String này đang giữ. ra để so sánh. Điều này làm cho 2 object kể cả có vùng nhớ khác nhau thì chỉ cần có cùng giá trị thì phép so sánh == vẫn trả về true.
4. Regular Expresssion (RegEx)
Có thể bạn đã biết đến cách sử dụng RegEx thông qua Pattern và Matcher. String giúp bạn khai báo Pattern và Matcher thông qua việc sử dụng phương thức str.matches("<regex>")
. Nghĩa là bạn chỉ cần gọi str.matches("<regex>")
là tương đương với việc sử dụng Pattern và Matcher.
5. So sánh string
Đây là một trong những câu hỏi ưa thích của nhà tuyển dụng.
Có 2 cách so sánh một đối tượng trong java:
- Sử dụng toán tử ==
- Sử dụng phương thức equals()
Toán tử ==
so sánh sự tham chiếu của đối tượng. Đó là sự giống nhau về vùng nhớ. Vì thế, nếu 2 đối tượng string a và b cùng tham chiếu đến một literal trong string pool, hoặc cùng tham chiếu đến một object trong vùng nhớ heap thì a == b
sẽ trả về true. Ngược lại, sẽ trả về false
Phương thức equals()
được override trong lớp String. Nó kiểm tra giá trị của chuỗi kí tự lưu trữ trong string object. Vì thế, nếu a và b cùng chứa chuỗi kí tự như nhau thì a.equals(b) luôn trả về true, bất kể chúng có tham chiếu tới đâu đi nữa.