Sitemap là một loại tệp thường ở định dạng XML, đóng vai trò như “bản thiết kế” hoặc “bản đồ đường đi” của website dành cho các công cụ tìm kiếm. Sitemap liệt kê tất cả các URL trên website mà bạn muốn công cụ tìm kiếm thu thập dữ liệu và lập chỉ mục.
Vậy tại sao phải sử dụng sitemap? Sử dụng trong trường hợp nào? Có những loại Sitemap nào? Và làm thế nào để tự tạo sitemap cho website của mình? Tất cả sẽ được mình, Nguyễn Thanh Trường – Founder & CEO của SEO Center chia sẻ chi tiết trong bài viết dưới đây.
Mục tiêu của bài viết này là giúp cho bạn nắm vững tất cả các kiến thức về Sitemap từ cơ bản tới nâng cao, qua đó mà bạn mới có thể hiểu rõ hơn về bản chất của sitemap và tối ưu cho website của mình được tốt hơn.
Nội dung chính của bài viết:
- Sitemap là “bản đồ” thiết yếu (thường là XML) giúp các công cụ tìm kiếm như Google dễ dàng khám phá, thu thập dữ liệu và lập chỉ mục hiệu quả tất cả các trang quan trọng trên website của bạn, đặc biệt hữu ích cho các trang lớn, mới hoặc có nội dung đa phương tiện.
- Có hai loại sitemap cơ bản: XML Sitemap dành cho bot công cụ tìm kiếm để tối ưu SEO và HTML Sitemap dành cho người dùng nhằm cải thiện trải nghiệm điều hướng.
- Để sitemap XML hiệu quả, bạn phải luôn liệt kê các URL đầy đủ, chính tắc, liên quan đến SEO và tuyệt đối không bao gồm các trang lỗi (404), chuyển hướng (301), noindex, bị chặn bởi robots.txt, hoặc các trang có tham số không cần thiết.
- Đối với website lớn, cần chia nhỏ sitemap thành nhiều tệp con (dưới 50.000 URL hoặc 50MB mỗi tệp) và sử dụng tệp chỉ mục sitemap để quản lý một cách có tổ chức.
- Sitemap cần được cập nhật thường xuyên (lý tưởng là tự động) khi có thay đổi trên website và luôn được gửi qua Google Search Console để thông báo cho công cụ tìm kiếm, đảm bảo thông tin luôn được đồng bộ.
Nội dung bài học
Sitemap là gì?
Sitemap hay sơ đồ website là một tệp chứa danh sách tất cả các URL của một website, cùng với các thông tin liên quan như thời gian cập nhật, tần suất cập nhật và mức độ ưu tiên của từng URL.
Sitemap giúp các công cụ tìm kiếm như Google dễ dàng thu thập dữ liệu và lập chỉ mục nội dung của website một cách hiệu quả hơn.
Hiểu đơn giản, sitemap là một tệp chứa danh sách tất cả các URL trên website của bạn. Nó hoạt động như một lộ trình hoặc bản đồ chỉ dẫn giúp các “robot” của công cụ tìm kiếm biết được nội dung nào có sẵn trên website của bạn và crawl vào các bài này.
Sitemap thường được viết theo một định dạng chuẩn là XML (Extensible Markup Language). Điều này cho phép nó chia sẻ thông tin với các công cụ tìm kiếm một cách hiệu quả.

Mục đích chính của sitemap là:
- Giúp công cụ tìm kiếm thu thập dữ liệu hiệu quả hơn: Các robot của công cụ tìm kiếm có thể tự tìm các trang của bạn bằng cách theo dõi các internal link, nhưng sitemap cung cấp cho chúng một “danh sách được ưu tiên”, giúp chúng tìm thấy các trang quan trọng nhanh hơn, đặc biệt là những trang mồ côi hoặc những trang nằm sâu trong cấu trúc website.
- Là một “tín hiệu” cho Google: Bằng cách liệt kê các URL trong sitemap, bạn đang nói với Google rằng “Đây là những trang mà tôi muốn bạn chú ý và thu thập dữ liệu”.
Sitemap thường chứa những thông tin gì?
Ngoài danh sách các URL, sitemap còn có thể cung cấp thêm một số thông tin hữu ích về mỗi trang, giúp công cụ tìm kiếm hiểu rõ hơn về nội dung của bạn:
- Thời điểm cập nhật cuối cùng (
<lastmod>
): Cho biết trang đó được cập nhật nội dung quan trọng lần gần nhất là khi nào. Ví dụ, một thay đổi lớn về nội dung chính hoặc dữ liệu có cấu trúc được coi là quan trọng, chứ không phải chỉ là cập nhật năm bản quyền. Google sử dụng thông tin này để ưu tiên thu thập dữ liệu các trang có nội dung mới hoặc thay đổi. - Tần suất thay đổi (
<changefreq>
): Chỉ ra mức độ thường xuyên trang đó thay đổi. Tuy nhiên, điều quan trọng cần biết là Google sẽ bỏ qua giá trị này và không sử dụng nó để quyết định tần suất thu thập dữ liệu hay xếp hạng trang của bạn. - Mức độ ưu tiên (
<priority>
): Cho biết mức độ quan trọng của trang đó so với các trang khác trên website của bạn (thường là giá trị từ 0.0 đến 1.0). Tương tự như <changefreq>
, Google cũng bỏ qua giá trị này.
Ví dụ minh họa Sitemap XML cơ bản
Để bạn dễ hình dung, đây là một ví dụ về một sitemap XML rất cơ bản cho một website, chứa thông tin về một số trang chính:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.Sitemap.org/schemas/sitemap/0.9">
<url>
<loc>https://www.example.vn/</loc>
<lastmod>2024-05-20T10:00:00+07:00</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://www.example.vn/menu-banh/</loc>
<lastmod>2024-05-18T14:30:00+07:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>https://www.example.vn/lien-he/</loc>
<lastmod>2024-01-10T09:00:00+07:00</lastmod>
<changefreq>monthly</changefreq>
<priority>0.5</priority>
</url>
</urlset>
XMLHãy giải thích các thành phần trong ví dụ này:
<?xml version="1.0" encoding="UTF-8"?>
: Đây là dòng khai báo tiêu chuẩn cho mọi tệp XML. Nó cho biết đây là một tệp XML, sử dụng phiên bản 1.0 và được mã hóa bằng UTF-8 (để đảm bảo tất cả các ký tự, bao gồm cả tiếng Việt, đều được công cụ tìm kiếm hiểu đúng).<urlset xmlns="http://www.Sitemap.org/schemas/sitemap/0.9">
: Đây là thẻ gốc của sitemap. Nó khai báo một “namespace” (không gian tên) để công cụ tìm kiếm biết rằng tệp này tuân thủ các quy tắc của giao thức Sitemap.org phiên bản 0.9.: Mỗi thẻ đại diện cho một trang cụ thể trên website của bạn. <loc>https://www.example.vn/</loc>
: Đây là thẻ bắt buộc và quan trọng nhất. Nó chứa URL đầy đủ và chính xác của trang (ví dụ: trang chủ của “Tiệm Bánh Ngon”). Luôn sử dụng URL tuyệt đối (có đủ https:// và tên miền đầy đủ).<lastmod>2024-05-20T10:00:00+07:00</lastmod>
: Thẻ này cho biết lần cuối trang được cập nhật là vào ngày 20 tháng 5 năm 2024, lúc 10 giờ sáng theo múi giờ +07:00. Dù là tùy chọn nhưng được khuyến nghị để Google biết trang nào có nội dung mới.<changefreq>daily</changefreq>
: Thẻ này gợi ý rằng trang này được thay đổi hàng ngày. Tuy nhiên, như đã nói ở trên, Google thường bỏ qua thông tin này.<priority>1.0</priority>
: Thẻ này gợi ý mức độ ưu tiên của trang (1.0 là cao nhất). Tương tự, Google cũng bỏ qua thông tin này.
Tại sao sơ đồ Website quan trọng đối với SEO?
Tăng khả năng khám phá và lập chỉ mục
Sitemap giúp các công cụ tìm kiếm như Google và Bing dễ dàng tìm thấy các trang quan trọng của bạn, bao gồm cả các trang nằm sâu trong cấu trúc website hoặc các trang “mồ côi”.
Bên cạnh đó, sitemap còn giúp tăng tốc độ lập chỉ mục nội dung mới hoặc các thay đổi trên Website của bạn.
Cung cấp cho công cụ tìm kiếm một cái nhìn đầy đủ hơn về nội dung trên website của bạn, đặc biệt hữu ích cho các trang không có liên kết ngược hoặc liên kết nội bộ mạnh.

Cải thiện hiệu quả thu thập dữ liệu
Sitemap sẽ cung cấp một cấu trúc rõ ràng và có tổ chức, giúp bot thu thập dữ liệu website hiệu quả hơn, đặc biệt là các website lớn.
Ví dụ được phân chia rõ ràng:
- Post
- Page
- Category
- Product
Khi nào website của bạn cần Sitemap?
Bạn nên tạo sơ đồ Website nếu:
- Website của bạn rất lớn (ví dụ: cửa hàng trực tuyến với hàng trăm hoặc hàng triệu sản phẩm) thì cần PHẢI có sitemap để Google dễ Crawl hơn.
- Website của bạn mới hoặc có ít liên kết ngoài đến nó, vì Googlebot có thể khó khám phá các trang của bạn.
- Website của bạn có nhiều nội dung đa phương tiện (video, hình ảnh) hoặc xuất hiện trong Google Tin tức, vì sitemap cung cấp thông tin bổ sung cho công cụ tìm kiếm.
- Nội dung trên Website của bạn thay đổi nhanh chóng và thường xuyên (ví dụ: Website tin tức).
- Các trang của bạn bị cô lập hoặc không được liên kết tốt với nhau (còn gọi là “trang mồ côi”).
- Bạn muốn theo dõi hiệu suất lập chỉ mục chi tiết thông qua Search Console.
Bạn có thể không cần sơ đồ Website nếu (nhưng vẫn nên cân nhắc):
- Website của bạn có quy mô “nhỏ” (khoảng 500 trang trở xuống và tất cả các trang quan trọng được liên kết đúng cách).
- Các trang trong Website của bạn được liên kết hoàn toàn với nhau, tức là Googlebot có thể tìm thấy mọi trang quan trọng bằng cách đi theo các liên kết bắt đầu từ trang chủ.
- Bạn không có nhiều tệp nội dung đa phương tiện (video, hình ảnh) hoặc trang tin tức mà bạn muốn hiển thị trong kết quả tìm kiếm.
Mặc dù không bắt buộc, nhưng việc có một sitemap không gây hại và thường mang lại lợi ích cho SEO. Vậy nên theo cá nhân mình, cho dù là website lớn hay nhỏ thì cũng nên có sitemap.
Có những loại Sitemap nào được Google hỗ trợ?
1. Sơ đồ website XML (XML Sitemap)
Hãy tưởng tượng sơ đồ trang web XML là một “bản thiết kế kỹ thuật” của ngôi nhà website của bạn, được viết bằng một ngôn ngữ mà các “người máy” của công cụ tìm kiếm (như Googlebot) có thể dễ dàng đọc và hiểu.
Mục đích chính của nó là giúp các công cụ tìm kiếm thu thập dữ liệu và lập chỉ mục trang web của bạn một cách hiệu quả nhất.

Như đã giới thiệu ở trên, thông tin thường có trong sơ đồ trang web XML:
- Loc (Location – Vị trí)
- Lastmod (Last Modified – Lần sửa đổi cuối cùng)
- Changefreq (Change Frequency – Tần suất thay đổi) và Priority (Mức độ ưu tiên)
- ….
Ưu điểm của sơ đồ trang web XML:
- Linh hoạt và dễ dàng mở rộng: Nó có thể cung cấp nhiều thông tin nhất về các URL của bạn.
- Tự động hóa cao: Hầu hết các hệ thống quản lý nội dung (CMS) như WordPress (thông qua các plugin như Yoast SEO hoặc RankMath) đều có thể tự động tạo sơ đồ trang web XML và cập nhật chúng mỗi khi bạn thêm hoặc chỉnh sửa nội dung. Điều này giúp bạn tiết kiệm thời gian và giảm thiểu lỗi.
- Giúp Google thu thập dữ liệu hiệu quả hơn: Đặc biệt hữu ích cho các trang web lớn hoặc có các trang bị “cô lập” (ít liên kết nội bộ).
Nhược điểm của sitemap XML: Có thể trở nên cồng kềnh và phức tạp khi duy trì đối với các web rất lớn hoặc thường xuyên thay đổi URL.
Ví dụ định dạng sơ đồ trang web XML cơ bản:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.Sitemap.org/schemas/sitemap/0.9">
<url>
<loc>https://www.cua_hang_cua_toi.vn/ao-thun-nam</loc>
<lastmod>2024-03-20</lastmod>
</url>
<url>
<loc>https://www.cua_hang_cua_toi.vn/quan-jeans-nu</loc>
<lastmod>2024-03-15</lastmod>
</url>
</urlset>
XMLTrong ví dụ trên, bạn có thể thấy rõ URL của từng sản phẩm và thời gian chúng được cập nhật lần cuối.
2. Chỉ mục sơ đồ website XML (XML Sitemap Index)
Khi trang web của bạn trở nên quá lớn, ví dụ như một sàn thương mại điện tử với hàng trăm nghìn hoặc hàng triệu sản phẩm, thì một tệp sơ đồ trang web XML duy nhất sẽ không đủ. Bởi vì, chính Google cũng khuyến nghị rằng, mỗi tệp sitemap XML chỉ giới hạn 50.000 URL hoặc dung lượng 50 MB (khi chưa nén).

Lúc này, bạn sẽ cần tạo nhiều tệp sơ đồ trang web nhỏ hơn, ví dụ:
- Sitemap_sanpham.xml
- Sitemap_blog.xml
- Sitemap_danh_muc.xml
- …..
Sau đó, bạn sẽ sử dụng một “tệp chỉ mục sơ đồ website” hay XML Sitemap Index để liệt kê và tổ chức tất cả các sitemap nhỏ đó lại với nhau.
Hãy tưởng tượng nó như một mục lục chính của một cuốn sách gồm nhiều tập, giúp Google dễ dàng tìm thấy tất cả các “tập” (các tệp sitemap nhỏ) của bạn. Bạn có thể tạo nhiều tệp chỉ mục sitemap, nhưng không thể lồng các tệp chỉ mục sitemap vào nhau.
3. Sơ đồ website chuyên biệt
Đây là các loại sitemap XML được tạo ra với mục đích cụ thể, giúp Google hiểu rõ hơn về các loại nội dung đặc biệt trên trang của bạn:
Image Sitemap
Nếu bạn có một trang web về nhiếp ảnh hoặc một thư viện ảnh khổng lồ, sơ đồ trang web hình ảnh có thể giúp Googlebot tìm và lập chỉ mục các hình ảnh của bạn hiệu quả hơn, tăng cơ hội xuất hiện trong Google Hình ảnh.
Bạn có thể thêm thông tin chi tiết về từng hình ảnh (ví dụ: vị trí ảnh trên trang).
Mặc dù có thể tạo sitemap riêng cho hình ảnh, nhưng thực hành tốt nhất hiện nay là thêm các thẻ hình ảnh trực tiếp vào sitemap chính của bạn, thường bằng cách sử dụng Schema.org/ImageObject JSON-LD markup.
Video Sitemap
Dành cho các web có nhiều nội dung video, ví dụ như một kênh hướng dẫn nấu ăn. Sitemap video cung cấp thông tin chi tiết như tiêu đề video, danh mục, thời lượng, và xếp hạng độ tuổi. Tương tự hình ảnh, bạn có thể thêm các thẻ video vào sitemap hiện có.

Nếu bạn sử dụng rất nhiều thẻ mở rộng hoặc có nguy cơ vượt quá giới hạn kích thước tệp, hãy cân nhắc tạo sitemap video chuyên biệt.
Tuy nhiên, Schema cho video đã thay thế phần lớn sự cần thiết của sitemap video.
News Sitemap
Loại này chỉ dùng cho các bài viết tin tức được xuất bản trong vòng 48 giờ gần nhất. Để nội dung của bạn xuất hiện nhanh chóng trong Google Tin tức, bạn cần cập nhật sitemap này liên tục và loại bỏ các URL cũ hơn 48 giờ.
Lưu ý rằng sitemap tin tức không hỗ trợ URL hình ảnh, và chỉ Google sử dụng tiện ích mở rộng này, không phải Bing hay các công cụ lập chỉ mục khác.
RSS, mRSS và Atom 1.0
Các định dạng này có cấu trúc tương tự sơ đồ trang web XML và thường được các hệ thống CMS tự động tạo ra, đặc biệt hữu ích để cung cấp thông tin về các URL gần đây và nội dung video. Google chấp nhận các nguồn cấp dữ liệu RSS 2.0 và Atom 1.0.
4. Sơ đồ website HTML (HTML Sitemap)
Nếu sitemap XML là dành cho “người máy”, thì sitemap HTML là “bản đồ” dành cho “con người” – tức là khách truy cập website của bạn. Nó trông giống như một trang thông thường, thường được đặt liên kết ở chân trang (footer) hoặc trong menu để người dùng dễ dàng tìm thấy.
Hãy tưởng tượng một sitemap HTML như một “mục lục” hoặc “danh mục” chi tiết của một cửa hàng lớn. Thay vì phải đi lòng vòng tìm kiếm từng khu vực, khách hàng (người dùng) có thể nhìn vào mục lục này để nhanh chóng biết có những khu vực nào (các trang chính), và sản phẩm nào (liên kết) nằm ở đâu.

Ưu điểm của sơ đồ trang web HTML:
- Cải thiện trải nghiệm người dùng: Giúp khách truy cập dễ dàng tìm thấy nội dung họ cần, đặc biệt là trên các web có cấu trúc phức tạp hoặc nhiều trang.
- Nâng cao khả năng tiếp cận: Theo các tiêu chuẩn WCAG (Web Content Accessibility Guidelines), sitemap giúp người dùng khuyết tật (ví dụ: người khiếm thị sử dụng trình đọc màn hình) hoặc người lớn tuổi dễ dàng điều hướng và tìm kiếm nội dung.
- Hữu ích cho các web có cấu trúc phức tạp hoặc liên kết nội bộ yếu: Nếu một số trang bị “mồ côi” (không có liên kết từ các trang khác), sitemap HTML sẽ giúp người dùng tìm thấy chúng.
- Hỗ trợ phân bổ “link equity”: Bằng cách sắp xếp các liên kết theo mức độ quan trọng, sitemap HTML có thể giúp điều hướng “sức mạnh” của liên kết nội bộ đến các trang quan trọng hơn.
Tuy nhiên hiện nay có khá nhiều quan điểm và tranh cãi xoay quanh việc sử dụng HTML Sitemap.
John Mueller của Google từng phát biểu trên Mastodon rằng sitemap HTML “không bao giờ cần thiết” nếu website có cấu trúc điều hướng rõ ràng và tốt. Và phần load more của HTML sitemap thì lại không tốt cho SEO.
Tuy nhiên, nhiều chuyên gia SEO vẫn cho rằng chúng có giá trị, đặc biệt trong các trường hợp như website lớn và phức tạp mà việc thay đổi cấu trúc điều hướng là khó khăn và tốn thời gian (ví dụ: trang web đã tồn tại lâu đời và có hàng triệu trang). Chúng có thể là một giải pháp tạm thời hữu ích.
Vậy Google có đọc được sơ đồ trang web HTML không? Theo quan điểm cá nhân mình là có. Google hoàn toàn đọc và lập chỉ mục Sitemap HTML. Nhưng mình làm HTML sitemap với mục đích chính là tối ưu trải nghiệm người dùng chứ không phải là chỉ cho bot đọc và chỉ dành cho mục đích SEO.
Cách tạo XML Sitemap
Việc tạo sơ đồ trang web bao gồm ba bước chính: tạo sơ đồ trực quan (để lên kế hoạch), sau đó tạo sơ đồ XML (dành cho công cụ tìm kiếm) và sơ đồ HTML (dành cho người dùng).
Note: Nếu website của bạn là website code bằng tay, hoặc bạn chuyên về code và muốn tự làm sitemap cho website của mình thì hướng dẫn dưới đây cực kỳ hữu ích với bạn.
Nhưng nếu bạn sử dụng các hệ thống CMS như Shopify, Haravan, WordPress,…. Và bạn muốn nhanh và tiện thì bạn nên sử dụng các plugin SEO như Rank Math, Yoast SEO hoặc các plugin chuyên tạo Sitemap như XML Sitemap Generator for Google, XML Sitemap & Google News, WP Sitemap Page,… để chúng hỗ trợ bạn làm Sitemap cho nhanh nhé. Và bạn cũng không cần phải đọc phần này.
Bước 1. Tạo Visual Sitemap
Trước khi bắt tay vào tạo các tệp sơ đồ kỹ thuật, bước đầu tiên và quan trọng là phác thảo một sơ đồ trực quan. Sơ đồ này giống như một bản vẽ kiến trúc sơ bộ, giúp bạn hình dung rõ ràng về cấu trúc và sự phân cấp của website.
Mục đích của sơ đồ trực quan là giúp bạn xác định bố cục và thứ bậc của các trang trên website của mình. Nó là nền tảng để bạn quyết định những trang nào cần được đưa vào sơ đồ XML và HTML sau này, và cách tổ chức chúng một cách hợp lý.
Cách thực hiện:
- Bạn bắt đầu bằng việc liệt kê tất cả các trang quan trọng và thiết yếu trên trang web của mình. Ví dụ: nếu bạn có một trang web bán sách trực tuyến, bạn sẽ liệt kê các trang như “Trang Chủ”, “Giới Thiệu”, “Sản Phẩm (Sách)”, “Blog”, “Liên Hệ”.
- Tiếp theo, bạn xây dựng hệ thống phân cấp cho các trang này. Ví dụ, trong mục “Sản Phẩm (Sách)”, bạn có thể có các danh mục con như “Sách Tiểu Thuyết”, “Sách Khoa Học”, “Sách Lịch Sử”. Dưới mỗi danh mục con lại có thể là các trang chi tiết về từng cuốn sách.
- Một điểm quan trọng là giữ độ sâu liên kết không quá ba lần nhấp. Điều này có nghĩa là người dùng (và cả công cụ tìm kiếm) có thể truy cập bất kỳ trang nào trên website của bạn chỉ với tối đa ba lần nhấp chuột từ trang chủ. Việc này giúp công cụ tìm kiếm thu thập dữ liệu dễ dàng hơn, từ đó có thể cải thiện thứ hạng tìm kiếm của bạn.
Ví dụ: Tưởng tượng bạn có một trang web bán cây cảnh online. Sơ đồ trực quan của bạn có thể trông như hình sau:
Bước 2. Tạo XML Sitemap
Có ba cách chính để tạo sơ đồ XML:
Cách 1. Tạo tự động
Đây là phương pháp phổ biến và dễ dàng nhất, đặc biệt phù hợp với người mới bắt đầu hoặc các trang web có cấu trúc đơn giản.
Sử dụng plugin CMS (Hệ thống quản lý nội dung): Nếu trang web của bạn sử dụng các nền tảng CMS như WordPress, bạn có thể tận dụng các plugin SEO mạnh mẽ như Yoast SEO hoặc RankMath.

Sử dụng công cụ tạo sitemap trực tuyến: Nếu bạn không dùng WordPress hoặc muốn một công cụ độc lập, có rất nhiều công cụ online miễn phí hoặc trả phí có thể giúp bạn.

Ví dụ: Các công cụ như XML-Sitemaps.com, Duplichecker, hoặc Screaming Frog. Bạn chỉ cần nhập URL trang web của mình vào công cụ, nó sẽ tự động quét và tạo ra tệp XML.
Cách tải lên: Sau khi tệp XML được tạo, bạn cần tải xuống và sau đó tải lên thư mục gốc (root directory) của trang web (thường là thư mục public_html) trên máy chủ lưu trữ của bạn. Thư mục gốc là nơi mà tất cả các tệp chính của website của bạn được lưu trữ.
Cách 2. Tạo thủ công
Phương pháp này phù hợp cho các website rất nhỏ (dưới 100 trang) hoặc khi bạn cần kiểm soát hoàn toàn từng chi tiết của sitemap.
Cách thực hiện:
- Bước 1: Xác định nội dung: Bạn cần tự mình liệt kê tất cả các trang, hình ảnh, video quan trọng mà bạn muốn công cụ tìm kiếm lập chỉ mục.
- Bước 2: Sử dụng trình soạn thảo văn bản: Mở một trình soạn thảo văn bản thuần túy như Notepad (trên Windows) hoặc TextEdit (trên MacOS).
- Bước 3: Tạo tệp XML: Bạn sẽ tạo một tệp mới và lưu nó với đuôi mở rộng .xml (ví dụ: sitemap.xml).
- Bước 4: Thêm thẻ XML cần thiết: Bạn cần viết mã XML theo một cấu trúc nhất định. Sơ đồ XML cơ bản sẽ bắt đầu bằng dòng khai báo XML và sau đó là thẻ
(chứa tất cả các URL của bạn) và thẻ cho mỗi trang. - Thẻ
<loc>
(Location): Đây là thẻ bắt buộc, chứa URL đầy đủ và chính tắc của trang (ví dụ: https://www.example.com/trang-gioi-thieu.html). - Thẻ
<lastmod>
(Last Modified): Đây là thẻ tùy chọn nhưng rất được khuyến khích, cho biết ngày và giờ trang được cập nhật lần cuối cùng một cách quan trọng. - Lưu ý: Thẻ
<changefreq>
(tần suất thay đổi) và<priority>
(mức độ ưu tiên) từng được sử dụng nhưng Google hiện nay đã bỏ qua các giá trị này. Vì vậy, bạn không cần phải đưa chúng vào để tối ưu SEO.
- Thẻ
- Bước 5: Lưu và tải lên: Sau khi hoàn tất, lưu tệp và tải lên thư mục gốc của trang web tương tự như phương pháp tự động.
Ví dụ về cấu trúc XML sitemap thủ công (đơn giản, ví dụ tiếng Việt): Giả sử bạn có trang web bán cây cảnh như ví dụ trên, một đoạn sitemap.xml có thể trông như sau:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.example.vn/</loc>
<lastmod>2024-05-10</lastmod>
</url>
<url>
<loc>https://www.example.vn/san-pham/cay-noi-that.html</loc>
<lastmod>2024-05-08</lastmod>
</url>
<url>
<loc>https://www.example.vn/blog/meo-cham-soc-cay-luoi-ho.html</loc>
<lastmod>2024-05-05</lastmod>
</url>
<!-- Thêm các URL trang quan trọng khác vào đây -->
</urlset>
XMLBạn có thể thấy rõ các thẻ <loc>
và <lastmod>
cung cấp thông tin cần thiết cho công cụ tìm kiếm.
Cách 3. Sử dụng script tùy chỉnh (Dynamic XML sitemap)
Đây là giải pháp tiên tiến hơn, đặc biệt hữu ích cho các web lớn và phức tạp mà nội dung thường xuyên thay đổi.
Bạn cần nhờ đội ngũ phát triển của mình viết các đoạn mã (script) bằng các ngôn ngữ lập trình như Python, PHP, hoặc JavaScript.
Khi này thì sơ đồ XML sẽ được tạo và cập nhật tự động theo thời gian thực mỗi khi có nội dung mới được thêm vào, chỉnh sửa hoặc xóa trên website.
Cách tạo HTML Sitemap
Có hai cách chính để tạo sơ đồ HTML:
Cách 1. Tạo tự động
Một số nền tảng xây dựng web và plugin CMS có thể tự động tạo sơ đồ HTML.
Ví dụ: Hostinger Website Builder có thể tạo sitemap theo mặc định, hoặc các plugin như Yoast SEO hay rankmath cho WordPress cũng có thể hỗ trợ tạo sitemap HTML. Sitemap này sẽ được tạo và xuất bản tự động khi bạn khởi chạy website.
Cách 2. Tạo thủ công
Phương pháp này yêu cầu kỹ năng kỹ thuật cao hơn một chút về HTML nhưng mang lại sự tùy chỉnh tối đa về cách bạn muốn hiển thị các liên kết cho người dùng.

Cách thực hiện:
- Liệt kê liên kết quan trọng: Dựa trên sơ đồ trực quan đã phác thảo, xác định các trang chính và các khu vực nội dung quan trọng bạn muốn đưa vào.
- Tạo tệp HTML: Sử dụng trình soạn thảo văn bản hoặc trình chỉnh sửa HTML để tạo một tệp HTML mới (ví dụ: sitemap.html).
- Viết mã HTML: Bạn sẽ viết mã HTML để cấu trúc sơ đồ của mình.
- Sử dụng các thẻ tiêu đề (như
<h1>, <h2>
) để phân loại các phần chính (ví dụ: “Các Mục Chính”, “Tài Nguyên Bổ Sung”). - Sử dụng các danh sách (thẻ
<ul>
cho danh sách không thứ tự, và<li>
cho từng mục trong danh sách) để liệt kê các liên kết. - Sử dụng thẻ liên kết (
<a>
) để tạo các liên kết có thể nhấp đến các trang khác trên website của bạn.
- Sử dụng các thẻ tiêu đề (như
- Lưu và tải lên: Lưu tệp HTML và tải nó lên máy chủ web của bạn để khách truy cập có thể truy cập. Sơ đồ HTML thường được đặt ở chân trang (footer) của website để dễ dàng tìm thấy.
Ví dụ về cấu trúc HTML sitemap thủ công (đơn giản, ví dụ tiếng Việt): Tiếp tục với trang web bán cây cảnh:
<!DOCTYPE html>
<html lang="vi">
<head>
<meta charset="UTF-8">
<title>Sơ đồ trang web - Cây Cảnh Online</title>
</head>
<body>
<h1>Sơ đồ trang web của Cây Cảnh Online</h1>
<h2>Các Mục Chính</h2>
<ul>
<li><a href="https://www.example.vn/">Trang Chủ</a></li>
<li><a href="https://www.example.vn/ve-chung-toi.html">Về Chúng Tôi</a></li>
<li>
<a href="https://www.example.vn/san-pham.html">Sản Phẩm</a>
<ul>
<li><a href="https://www.example.vn/san-pham/cay-noi-that.html">Cây Nội Thất</a></li>
<li><a href="https://www.example.vn/san-pham/cay-ngoai-that.html">Cây Ngoại Thất</a></li>
</ul>
</li>
<li><a href="https://www.example.vn/blog.html">Blog Cẩm Nang Cây Cảnh</a></li>
<li><a href="https://www.example.vn/lien-he.html">Liên Hệ</a></li>
</ul>
<h2>Tài Nguyên Bổ Sung</h2>
<ul>
<li><a href="https://www.example.vn/chinh-sach-bao-mat.html">Chính Sách Bảo Mật</a></li>
<li><a href="https://www.example.vn/dieu-khoan-su-dung.html">Điều Khoản Sử Dụng</a></li>
</ul>
</body>
</html>
HTMLTrong ví dụ này, bạn thấy cách sử dụng các thẻ <h1>, <h2>
để tạo tiêu đề, <ul> và <li>
để tạo danh sách, và <a>
để tạo liên kết có thể nhấp. Các danh mục con được lồng trong danh sách chính, tạo nên một cấu trúc phân cấp rõ ràng.
Cách gửi sitemap cho công cụ tìm kiếm
Gửi qua Google Search Console
Phương pháp khuyến nghị nhất để thông báo cho Google về sitemap của bạn.
Các bước thực hiện gồm:
- Đăng nhập vào tài khoản GSC của bạn.
- Chọn Website của bạn.
- Trong menu bên trái, chuyển đến phần “Sitemap” (dưới mục “Indexing”).
- Nhập URL sitemap của bạn (ví dụ: sitemap.xml) vào phần “Add a new sitemap” và nhấn “Submit”.
- Bạn sẽ thấy trạng thái “Success” nếu sitemap được định dạng đúng.

Chèn vào tệp robots.txt
Bạn có thể chỉ định đường dẫn đến sitemap của mình bằng cách chèn dòng Sitemap: https://example.com/my_sitemap.xml
vào bất kỳ vị trí nào trong tệp robots.txt của bạn.
Vị trí của dòng này trong robots.txt không ảnh hưởng đến việc Google phát hiện sitemap.
Cách định dạng sơ đồ Website tốt nhất cho SEO
1. Cấu trúc và định dạng tệp XML Sitemap
Đây là những quy tắc cơ bản về mặt kỹ thuật mà tệp sitemap của bạn cần tuân thủ.
URL đầy đủ và là phiên bản chính
Khi bạn liệt kê các trang trong sitemap, hãy luôn sử dụng URL đầy đủ và phiên bản chính.
URL đầy đủ nghĩa là bạn phải ghi đầy đủ từ “https://” cho đến tên miền và đường dẫn của trang. Ví dụ, thay vì chỉ ghi /sanpham-moi.html
, bạn phải ghi https://www.example.vn/sanpham-moi.html
.
URL chính tắc (canonical URL) là phiên bản “chính thức” mà bạn muốn Google lập chỉ mục khi có nhiều URL cùng trỏ về một nội dung. Nếu web của bạn có cùng một nội dung được hiển thị qua nhiều URL (ví dụ: example.vn/sanpham
và example.vn/sanpham?id=123
), bạn chỉ nên đưa URL chính tắc vào sitemap.
Mã hóa UTF-8
Tệp sitemap của bạn phải được mã hóa theo chuẩn UTF-8. Đây là một chuẩn mã hóa ký tự giúp các công cụ tìm kiếm có thể đọc và hiểu được tất cả các ký tự, bao gồm cả các ký tự đặc biệt như tiếng Việt có dấu (á, à, ạ, ơ, ư…).
Nếu không mã hóa UTF-8, sitemap của bạn có thể bị lỗi khi Google cố gắng xử lý các URL có chứa ký tự tiếng Việt hoặc các ký hiệu đặc biệt.
Ví dụ: Nếu bạn có URL là https://www.example.vn/hà-nội.html
, thì bạn phải mã hóa là https://www.example.vn/H%C3%A0_N%E1%BB%99i
.
Vị trí tệp
Google khuyến nghị bạn nên đặt tệp sitemap ở thư mục gốc (root directory) của website. Thư mục gốc thường là thư mục public_html trên máy chủ của bạn.
Khi sitemap được đặt ở thư mục gốc, nó sẽ “ảnh hưởng” (tức là cung cấp thông tin) cho tất cả các trang và tệp nằm trong toàn bộ website của bạn. Nếu bạn đặt sitemap trong một thư mục con, nó chỉ có thể cung cấp thông tin cho các URL trong thư mục con đó.
Ví dụ: Bạn nên đặt tệp sitemap.xml trực tiếp tại https://www.example.vn/sitemap.xml
.
2. Tối ưu hóa nội dung sitemap
Sitemap không phải là nơi để bạn liệt kê tất cả mọi URL trên website. Thay vào đó, nó nên là một danh sách chọn lọc những trang quan trọng mà bạn muốn công cụ tìm kiếm tập trung vào.
- Chỉ đưa vào các trang liên quan đến SEO: Mục đích chính của sitemap là báo cho các công cụ tìm kiếm biết những trang nào bạn muốn được lập chỉ mục và hiển thị trên kết quả tìm kiếm. Điều này giúp các bot của công cụ tìm kiếm tập trung tài nguyên thu thập dữ liệu (crawl budget) vào những trang thực sự giá trị.
- Không bao gồm các URL sau: Để tránh gửi tín hiệu mâu thuẫn hoặc làm lãng phí crawl budget, bạn tuyệt đối không nên đưa các loại URL sau vào sitemap của mình:
- Trang chuyển hướng (301, 3xx): Những trang này đã chuyển hướng sang URL khác, không cần công cụ tìm kiếm lập chỉ mục bản thân chúng.
- Trang lỗi (404, 410, 5xx): Các trang không tồn tại hoặc có lỗi máy chủ, không có nội dung để lập chỉ mục.
- URL không phải là phiên bản chính tắc (non-canonical URLs): Nếu bạn có nhiều URL trỏ về cùng một nội dung và đã khai báo một URL chính tắc, chỉ URL chính tắc đó mới nên có trong sitemap.
- Các trang có thẻ noindex: Thẻ noindex đã nói rõ với công cụ tìm kiếm rằng không lập chỉ mục trang này, vậy thì không nên đưa vào sitemap.
- Các trang bị chặn bởi robots.txt: Tệp robots.txt đã cấm công cụ tìm kiếm truy cập các trang này, do đó chúng không thể được thu thập dữ liệu và không nên có trong sitemap.
- Các trang phân trang (paginated pages): Thường là các trang liệt kê bài viết theo số trang (ví dụ: blog/page/2), thường không cần thiết phải đưa vào sitemap.
- Các URL tham số không liên quan đến SEO: Những URL có các tham số không ảnh hưởng đến nội dung chính (ví dụ:
sanpham?sort=price hay tin-tuc?source=facebook
). - Các trang tài nguyên hoặc tiện ích không phải trang đích: Ví dụ như các tệp PDF tài liệu, trang đăng nhập, trang chính sách bảo mật, trang tài khoản người dùng, v.v., những trang này hữu ích cho người dùng nhưng không phải là trang đích để xếp hạng trên kết quả tìm kiếm.
- Đảm bảo URL duy nhất: Trừ sitemap dành cho Google Tin tức (Google News sitemap), mỗi URL chỉ nên xuất hiện duy nhất một lần trong toàn bộ các tệp sitemap của bạn.
- Làm sạch URL: Loại bỏ các tham số theo dõi (ví dụ:
?utm_source=...
), ID phiên (session IDs) và các ký tự đặc biệt không cần thiết khỏi các URL trong sitemap. Những yếu tố này có thể làm cho URL trở nên khó đọc và gây ra vấn đề trong quá trình thu thập dữ liệu.

3. Quản lý sitemap cho trang web lớn (Managing sitemaps for large websites)
Đối với các website có quy mô lớn (hàng chục nghìn, hàng triệu trang), bạn cần có chiến lược đặc biệt để quản lý sitemap.
- Giới hạn kích thước: Mỗi tệp sitemap XML riêng lẻ không được vượt quá 50.000 URL hoặc dung lượng 50 MB (khi chưa nén). Đây là giới hạn được Google và các công cụ tìm kiếm khác áp dụng.
- Sử dụng tệp chỉ mục sitemap (XML Sitemap Index): Nếu website của bạn có nhiều hơn 50.000 URL hoặc dung lượng sitemap vượt quá 50MB, bạn phải chia sitemap lớn thành nhiều tệp sitemap nhỏ hơn. Sau đó, bạn sẽ tạo một tệp chỉ mục sitemap (sitemap index file) để liệt kê và tổ chức tất cả các sitemap nhỏ này. Tệp chỉ mục sitemap giống như một “sitemap của các sitemap”. Nó có thể chứa tới 50.000 sitemap con.
- Đặt tên sitemap mô tả: Khi bạn chia sitemap thành nhiều tệp nhỏ, hãy đặt tên cho chúng một cách mô tả và có ý nghĩa. Việc đặt tên rõ ràng (ví dụ:
sitemap-sanpham-nam.xml
,sitemap-tin-tuc-cong-nghe.xml
) sẽ giúp bạn dễ dàng theo dõi hiệu suất của từng phần website trong các báo cáo của Google Search Console và Bing Webmaster Tools. Nếu có vấn đề về lập chỉ mục, bạn sẽ biết chính xác loại trang nào đang gặp lỗi. - Chia nhỏ sitemap để có khả năng hiển thị báo cáo tốt hơn: Mặc dù giới hạn là 50.000 URL, nhưng theo Search Engine Journal khuyên rằng, bạn nên chia nhỏ sitemap thành các tệp chỉ chứa khoảng 1.000 URL mỗi tệp.
4. Duy trì sitemap
Sitemap không phải là một tài liệu chỉ tạo ra một lần rồi bỏ qua. Nó cần được cập nhật và quản lý liên tục.
- Tạo sitemap động: Lý tưởng nhất, sitemap của bạn nên được tạo và cập nhật một cách tự động (dynamic). Điều này có nghĩa là khi bạn thêm một trang mới, xóa một trang cũ, hoặc sửa đổi nội dung một trang, sitemap sẽ tự động cập nhật để phản ánh những thay đổi đó.
- Nén tệp sitemap: Bạn nên nén tệp sitemap bằng định dạng GZIP. Điều này giúp giảm dung lượng tệp, tiết kiệm băng thông cho máy chủ và giúp công cụ tìm kiếm tải về sitemap nhanh hơn. Mặc dù đã nén, dung lượng sau khi giải nén vẫn phải tuân thủ giới hạn 50MB.
- Cập nhật thường xuyên: Sitemap của bạn nên được cập nhật 24/7 khi có nội dung mới được xuất bản hoặc nội dung hiện có thay đổi đáng kể. Nếu website của bạn thường xuyên cập nhật nội dung (ví dụ: trang tin tức), bạn nên cập nhật sitemap hàng ngày hoặc thậm chí vài giờ một lần. Đối với các website ít thay đổi hơn, việc kiểm tra và cập nhật định kỳ ít nhất mỗi tháng một lần là tốt.
- Đồng bộ với robots.txt: Đảm bảo rằng sitemap và tệp robots.txt của bạn hoạt động hài hòa. Nếu bạn đã sử dụng tệp robots.txt để chặn công cụ tìm kiếm truy cập một trang, hoặc đã đặt thẻ noindex trên một trang, thì không nên đưa trang đó vào sitemap. Việc đưa một trang bị chặn vào sitemap sẽ gửi tín hiệu mâu thuẫn cho công cụ tìm kiếm và có thể làm giảm hiệu quả thu thập dữ liệu.
Các lỗi sơ đồ Website thường gặp và cách khắc phục
- Lỗi định dạng (Format errors): Mã XML không hợp lệ (ví dụ: thiếu thẻ XML). Khắc phục: Đảm bảo sitemap tuân thủ giao thức Sitemap.org.
- Ngày không hợp lệ (Invalid date): Định dạng ngày không đúng (không sử dụng định dạng W3C Datetime YYYY-MM-DD). Khắc phục: Sửa định dạng ngày.
- Kích thước tệp sitemap quá lớn (Sitemap file size error): Vượt quá 50MB hoặc 50.000 URL. Khắc phục: Chia sitemap thành nhiều tệp nhỏ hơn và sử dụng tệp chỉ mục sitemap.
- Lỗi nén: Google không thể truy cập sitemap đã nén. Khắc phục: Nén lại sitemap bằng GZIP hoặc 7-Zip.
- Mã trạng thái HTTP 4xx hoặc 5xx: Google không thể truy cập sitemap hoặc một số tệp trên Website. Khắc phục: Kiểm tra các URL trong sitemap, đảm bảo chúng tồn tại và trả về mã trạng thái 200. Xóa hoặc sửa các liên kết bị hỏng.
- Định dạng không được hỗ trợ: Sitemap không ở định dạng XML hoặc không tuân thủ giao thức Sitemap.
- Sitemap không được chỉ định trong robots.txt: Mặc dù không bắt buộc, nhưng là một thực hành tốt. Khắc phục: Thêm đường dẫn sitemap vào tệp robots.txt.
- Sitemap không tìm thấy (Sitemap not found): URL sitemap trả về lỗi 404. Khắc phục: Kiểm tra lại URL, đảm bảo đã tải lên đúng thư mục.
- URL HTTP trong sitemap cho Website HTTPS: Khắc phục: Đảm bảo tất cả các URL là HTTPS.
- Các trang mồ côi trong sitemap: Các trang được liệt kê trong sitemap nhưng không có liên kết nội bộ nào trỏ đến chúng.
- URL không thể truy cập: Google tìm thấy vị trí sitemap nhưng không thu thập dữ liệu được một số URL. Khắc phục: Dùng công cụ kiểm tra URL để kiểm tra tính khả dụng của trang.
- URL không được theo dõi (URLs not followed): Sitemap có quá nhiều chuyển hướng hoặc liên kết tương đối. Khắc phục: Sử dụng URL trực tiếp và tuyệt đối.
- URL không hợp lệ (Invalid URLs): Liên kết không hợp lệ do ký tự không được hỗ trợ hoặc định dạng không chính xác.
Quy trình khắc phục sự cố tổng quát đối với sitemap
- Đăng nhập vào GSC và vào báo cáo “Sitemap”.
- Kiểm tra bất kỳ lỗi hoặc cảnh báo nào.
- Nhấp vào dòng lỗi để xem thêm chi tiết và nguyên nhân.
- Thực hiện các chỉnh sửa cần thiết (ví dụ: xóa URL không mong muốn, sửa định dạng, chia nhỏ tệp).
- Gửi lại sitemap (hoặc sử dụng công cụ ping để thông báo cho Google về sự thay đổi).
Kết luận
Tóm lại, sitemap không phải là yếu tố xếp hạng trực tiếp, nhưng là một công cụ SEO kỹ thuật cực kỳ quan trọng giúp các công cụ tìm kiếm hiểu và thu thập dữ liệu website của bạn một cách hiệu quả hơn, đặc biệt đối với các web lớn, có cấu trúc phức tạp, từ đó tăng khả năng hiển thị và lập chỉ mục của nội dung bạn muốn được tìm thấy.
Bài viết trên được mình nghiên cứu và tổng hợp từ nhiều nguồn thông tin uy tín như Semrush, Ahrefs, Search Engine Land, Google Search Central, Search Engine Journal,… kết hợp với kinh nghiệm hơn 7 năm làm SEO của mình. Nếu có điều gì còn thắc mắc thì bạn hãy để lại thông tin ở bình luận để cùng nhau trao đổi nhé.
Nguồn bài viết tham khảo:
- https://searchengineland.com/guide/sitemap
- https://searchengineland.com/xml-sitemaps-and-seo-what-you-need-to-know-430735
- https://searchengineland.com/html-sitemaps-seo-ux-when-how-394763
- https://www.searchenginejournal.com/technical-seo/xml-sitemaps/
- https://developers.google.com/search/docs/crawling-indexing/sitemaps/build-sitemap?hl=vi
- https://www.reddit.com/r/SEO/comments/v3c4jr/how_important_is_a_sitemapxml_more_details_in/
- https://developers.google.com/search/docs/crawling-indexing/sitemaps/overview?hl=vi
- https://ahrefs.com/seo/glossary/sitemap
- https://www.semrush.com/blog/website-sitemap/