Menu

20 Kasım 2012 Salı

nutch content store

Merhaba, Apache Nutch kullanarak, web sitelerinizi crawl etmek istediginizde, default olarak crawl ederken html icerigini crawl edip indexlemez, bunun icin asagidaki satiri duzeltmemiz isimizi gorecektir.

Mesala ben solr`a indexledigim icin (solr 4.0)

../solr/example/solr/collection1/conf/schema.xml icerisinde asagidaki stored kismini true yapiyoruz
true
field name="content" type="string" stored="true" indexed="true"/

1 yorum: