从昨天下午到今天上午,共花了一天的时间,终于把偶的Nutch运行成功了。
记录下这个过程。
1.从官网上分别下载jdk1.6.0,apache-tomcat-6.0.24,nutch1.0.
2.安装jdk1.6.0包,直接运行即可。
3.解压缩tomcat,用tar -xvf apache-tomcat-6.0.24.tar.gz
4.解压缩nutch,同3.
5.添加环境变量
其中jdk我下的是bin包,运行后只是解压缩而已,
所以需要在/etc/profile中添加环境变量
我的是这样的:
export JAVA_HOME=/usr/dev/jdk1.6.0
export JAVA_BIN=/usr/dev/jdk1.6.0/bin
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export TOMCAT_HOME=/usr/dev/apache-tomcat-6.0.24
export JAVA_HOME JAVA_BIN PATH CLASSPATH TOMCAT_HOME
6.logoff 系统,重新登录,环境变量就生效了。
7.配置nutch.
1)cd到nutch根目录,vi url.txt,在url.txt输入要crawl的网址,比如我用的是http://blog.csdn.net/zjzcl
2)cd conf,vi nutch-site.xml, 修改如下:
<configuration>
<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
</configuration>
保存。
3)vi crawl-urlfilter.txt找到# accept hosts in MY.DOMAIN.NAME这一行,将下面的那行改成+^http://blog.csdn.net/zjzcl,保存。
8.设置好了,爬取。在nutch根目录下,输入命令:sh bin/nutch crawl url.txt -dir crawled -depth 4 -threads 5 >&crawl.log
注意:crawled文件夹不能存在。
crawl.log是记录crawl日志的文件,如果搜索不成功,有可能是爬取的问题,可以从这里找到问题所在。我第一次搜索就没有成功,是爬取的问题。
9.在tomcat里测试。
1)用vi命令将$TOMCAT_HOME/conf/server.xml的connector修改为:
<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false"
protocol="HTTP/1.1"
redirectPort="8443" acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" />
保存。
2)将webapps下的ROOT改为ROOT1.
3)用cp命令将nutch根目录下的war包复制到$TOMCAT_HOME/webapps下并将其改名为ROOT.war
此时启动tomcat,sh $TOMCAT_HOME/bin/startup.sh.用浏览器访问http://localhost:8080.
ROOT.war已经解开了。
4)cd到ROOT下的WEB-INF/classes,ls可以看到有nutch-site.xml,用vi命令修改如下:
<configuration>
<property>
<name>searcher.dir</name>
<value>/usr/dev/nutch-1.0/crawled</value>
</property>
</configuration>
指定要搜索的目录。
5)重启tomcat,用http://localhost:8080访问,即可进行搜索。
以上是我参考了网上一些资料,自己实践的一个过程。一方面是为了跟大家分享,另一方面也是为了做个备忘录。欢迎大家批评指正。
分享到:
相关推荐
详细介绍了linux redhat enterprise 5.4的安装过程以及oracle 10g的安装过程以及vnc服务的配置
Redhat Enterprise linux 5.4 32bit/64bit上安装Oracle10g 解决em/dbca乱码问题 配置oracle随linux系统自启动
linux redhat 5.4 的 安装 图解,非常详细,建议新手参考。
在vmware下安装redhat linux 5.4 环境与oracle 10g 数据库
Redhat Linux Enterprise 5下介绍的很详细的实用教程文档,是你学Linux的好帮手哦!亲
Redhat Linux Enterprise镜像从5.1到7.5的32位和64位操作系统的下载集合,文本是百度网盘共享出来的下载链接
redhat linux enterprise 5教程文档,绝对是你学习LINUx的好帮手哦,亲!
Redhat linux enterprise 5 cvs安装配置全过程,手把手教你配置
Redhat_Enterprise_Linux_5.4+_ORACLE_10g安装具体图文步骤
这个文档使我们小组搭建云计算平台的手记,为了平台的稳定性,选用了RedHat enterprise 5.4做虚拟机平台而不是网上所用的Ubuntu,绝对可用,内容记录很详细
#rpm –q telnet --------一般不需要安装,redhat linux 5.4默认有 #rpm –q telent-clinet #rpm –q telnet-server 若上面显示没有安装或不存在,则需要安装软件包 2、我是通过U盘拷贝到服务器上的,你可以在在...
RedHat Linux Enterprise 5.7 下安装Oracle 10g 教程
Redhat Enterprise 5.4,DB:Oracle 11g R2 X64 安装文档。
Redhat linux企业版5.4 下oracle 10g 安装说明
linux redhat5.4安装过程详细介绍,附有图片。
01.Redhat Linux Enterprise 5操作系统安装01.Redhat Linux Enterprise 5操作系统安装01.Redhat Linux Enterprise 5操作系统安装
redhat5.4 ssh服务的详细配置 及其应用
redhat linux enterprise 5教程文档,绝对是你学习LINUx的好帮手哦,亲!
redhat linux enterprise 5教程文档,绝对是你学习LINUx的好帮手哦,亲!