Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!
Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.



Łowca lamerów




czyli coś, co mnie kręci od zawsze. O ile za młodu coś tam skrobałem z kilkoma maniakami (pozdro sigo!), o tyle ja się postarzałem, a technika poszła mocno naprzód.
Ostatnimi czasy znowu naszły mnie ciągoty na rippowanie materiałów ze stron za pomocą własnych botów. Wiadomo, póki co jadę Bashem (węże w sed'dzie, dużo cut, tr, grepów, kod jest zaciemniony od fazy projektowania po wersję produkcyjną xD), ale docelowo ma to odbywać się Pythonem z jakimś dodatkiem (bo jednak chcę się rozwijać, a choćby dla własnej satysfakcji).
Przypomniałem sobie o portalu zlecenia.przez.net, pamiętam jak swego czasu znajdywalem tam różne interesujące i relatywnie proste zlecenia. Zajrzałem i dziś i postanowiłem opykać jedno 'na sucho', tzn, sprawdzić czy w ogóle podołam. Znalazłem coś ciekawego, ale przerosła mnie konfiguracja serwera www :P
link do zlecenia: http://www.zlecenia.przez.net/aukcja,118054,pozyska … katalogu-firm
Spojler, czyli o co chodzi: gość chce wyciągnąć z takich linków http://akses.com.pl/biznes,i,ekonomia/okno,pcv,warszawa,s,2451/
takie dane: P.P.U.H. INVESTBUD Leszek Wypiórkiewicz; 483701445; Sadowa; 22; 26-500; Szydłowiec; biuro@hurtokien.pl; www.hurtokien.pl; 13 04 2012
Określił, że interesują go dane z rekordów numer od do.
Se myślę: klasyczna pętelka, tu jakiś wget, tam ciachnę awkiem, do csv też napiszę jakiś wypluwacz, aż przyjrzałem się linkowi.
Tak, paskudny rewrite. i o ile wykoncypowałem jak podołać zleceniu (mapa strony, kategorie, odwiedzenie każdego linka i porównanie parametrów urla do widełek zadanch przez zlecającego, jeśli pasują, to do wstępnej bazy, dalej pomartwię się później :P), o tyle zastanawia mnie jakby to zrobić jadąc po numerach rekordów. Nie raz już widziałem podobne linki i zostawiałem temat (czy to galerie, czy stronki ze scenowym stuffem), taka wiedza przydałaby mi się na później, nie ukrywam :)
Zaznaczam, że nie zamierzam brać udziału w licytacji zlecenia, a jednie interesuje mnie strona techniczna przedsięwzięcia; to taki disclaimer jakby ktoś se miał pomyśleć 'no tak, ja mu oddam za free technologię, a on na tym zarobi krocie'.
Offline







Podobno człowiek...;)








Perlem Mociumpanie, Perlem:
WWW-Mechanize
WWW-Scripter-PLugin-Javascript
WWW-Scripter-PLugin-Ajax
A także kilka innych modułów i bardzo elastyczne regexy.
Alleluja i do przodu:xD
Pozdro
;-)
Offline



Łowca lamerów




No dobra, perl, ale jak nakarmisz serwer www pozostałymi danymi po przecinku, inkrementując w pętli licznik? Czy po prostu nie zrozumiałem Twojego postu?
Offline







Podobno człowiek...;)








Zależy od konkretnej sytuacji.
Wspomniane wyżej mody perla, to takie programistyczne przeglądarki internetowe, które ściągną stronę do zmiennej, mogą zdekodować na niej jeszcze javascripta albo ajaxa, i potem w zmiennej masz czysty html, z którego możesz sobie regexem czesać co duszyczka zapragnie.
Jeśli potem chcesz poszczególne wyczesane dane traktować jakąś pętlą i licznikiem, to droga wolna.
Perl to język programowania, wszystkie rodzaje pętli obsługuje bez żadnego problemu.
Dosyć wyjątkowe są właśnie wspomniane wyżej moduły, repo CPAN i wbudowany potężny silnik regexu, to podstawowy potencjał Perla.
W CPAN do WWW są też mody parsujące stronę poprzez np Webkita.
Offline