ContextGraphCrawler
A Focused Crawler based on the paper "Focused Crawling Using Context Graphs" by M. Diligenti, F. M. Coetzee, S. Lawrence, C. L. Giles and M. Gori
Install / Use
/learn @felipehummel/ContextGraphCrawlerREADME
Instalação
Básico:
GCC, G++, make... (buildessentials), python, python-dev (python-all-dev, parece servir) e python-pycurl
LIBS:
-----LIBSVM-----
http://www.csie.ntu.edu.tw/~cjlin/libsvm/ (http://www.csie.ntu.edu.tw/~cjlin/cgi-bin/libsvm.cgi?+http://www.csie.ntu.edu.tw/~cjlin/libsvm+zip)
- Descompacta libsvm+zip
- Ir na pasta /python
makepython setup.py install
-----Tornado Web Server-----
http://www.tornadoweb.org/ (http://www.tornadoweb.org/static/tornado-0.2.tar.gz)
tar xvzf tornado-0.2.tar.gzcd tornado-0.2python setup.py buildsudo python setup.py install
-----Beautiful Soup-----
http://www.crummy.com/software/BeautifulSoup/ Versão 3.0.7a - não é a mais recente (http://www.crummy.com/software/BeautifulSoup/download/3.x/BeautifulSoup-3.0.7a.tar.gz) A versão mais recente deu problemas por isso estamos usando uma mais antiga (dica no próprio site)
- Descompactar
sudo python setup.py install
-----NLTK-----
http://www.nltk.org/download (http://nltk.googlecode.com/files/nltk-2.0b6.zip) Tem também via .deb (http://nltk.googlecode.com/files/nltk_2.0b5-1_all.deb). Mas não testei
- Descompactar
sudo python setup.py install
Rodando o coletor:
Preparacão:
O coletor espera 2 arquivos: layer0.txt e seeds.txt, coloque-os na mesma pasta do resto das classes. É possível passar o path dos arquivos como parâmetro para o HTTPServer.py na ordem layer0.txt seeds.txt, não precisando ser esses nomes.
Rodando:
python HTTPServer.py#inicia o servidor 1. Ele vai construir o grafo de contexto com base nas urls dadas no arquivolayer0.txt2. Vai demorar (a coleta de páginas é feita por um único coletor =(, temos que mudar isso) 3. Quando terminar ele vai mostrar uma mensagem, nessa hora inicia-se os coletores. Os coletores vão começar pelas páginas no arquivoseeds.txtpython Fetcher.py#inicia 1 coletor, pode-se iniciar N coletores
Related Skills
node-connect
346.4kDiagnose OpenClaw node connection and pairing failures for Android, iOS, and macOS companion apps
frontend-design
107.2kCreate distinctive, production-grade frontend interfaces with high design quality. Use this skill when the user asks to build web components, pages, or applications. Generates creative, polished code that avoids generic AI aesthetics.
openai-whisper-api
346.4kTranscribe audio via OpenAI Audio Transcriptions API (Whisper).
qqbot-media
346.4kQQBot 富媒体收发能力。使用 <qqmedia> 标签,系统根据文件扩展名自动识别类型(图片/语音/视频/文件)。
