sitemap-generators使用实例

sitemap-generators是一款Sitemap生成工具,使用它可以生成符合sitemap.org规范的Sitemap文件,以便于提交给各个网站工具平台。

项目地址 && 下载地址

下载sitemap_gen_1.5.tar.gz解压,得到以下内容:

root@bwgzl:~/sitemap_gen# ls -lh
total 140K
-r--r-----  1  502  502   22 Jun 17  2005 AUTHORS
-r--r--r--  1  502  502 2.6K Jul 19  2007 ChangeLog
-r--r-----  1  502  502 1.8K Jun 17  2005 COPYING
-rw-r--r--  1  502  502 6.4K Jul 19  2007 example_config.xml
-rw-r-----  1  502  502 1.6K Jun 26  2007 example_urllist.txt
drwxr-xr-x 23 root root 4.0K Aug  3 14:25 getos.org
-rw-r--r--  1  502  502  244 Jul 19  2007 PKG-INFO
-r--r--r--  1  502  502 1.1K Jun 25  2007 README
-r-xr-xr-x  1  502  502  301 Jul 19  2007 setup.py
-rwxr-xr-x  1  502  502  66K Jul 19  2007 sitemap_gen.py

将默认的example_config.xml拷贝为ac.xml,参考以下修改:

<?xml version="1.0" encoding="UTF-8"?>
<site
  base_url="http://getos.org/"
  /** 以下为sitemap.xml文件存放目录**/
  store_into="/root/sitemap_gen/sitemap.xml"
  verbose="1"
  <urllist  path="urllist.txt"  encoding="UTF-8" />
  <filter  action="drop"  type="wildcard"  pattern="*~" />
  <filter  action="drop"  type="regexp"    pattern="/\.[^/]*" />
</site>

接下来,使用wget来遍历网站所有URL,将结果保存为urlinfolist.txt

wget -mk --spider -r  http://getos.org/ -o urlinfolist.txt
  • -r: 递归遍历目录

处理wget到的urlinfolist.txt文件,删除不需要的内容。

cat urlinfolist.txt | tr ' ' '\012' | grep "^http" | egrep -vi "[?]|[.]jpg$" | sort -u > urllist.txt

最后使用如下命令来生成sitemap.xml

python sitemap_gen.py --config=ac.xml 

按照配置文件所示,在sitemap.xml文件保存在_/root/sitemap_gen/_目录下。