Započni novu temu Odgovori na temu  [ 8 Posta ] 
Autoru Poruka
 Tema posta: URL extractor?
PostPoslato: 06.11.2005. 23:08:15 
Korisnikov avatar

Pridružio se: 23.09.2002. 18:43:05
Postovi: 552
Lokacija: Inner Mind
Godina: Dipl.
Smer: IS
Recimo da imam spisak URL-ova bilo kog nivoa komplexnosti. I recimo da mi je neophodan spisak onoga što se nalazi na svakom URL-u, ali ne običan spisak, već URL spisak - najobičniji TXT file u kojem će svaki red sadržati po jedan URL sa određene strane. Zanima me, dakle, postoji li neki progi koji to može automatski da uradi: učitam mu TXT file sa URL-ovima koje treba proveriti, on potom uzima jedan po jedan URL [može i paralelno, svejedno], "gleda" šta se nalazi na svakom i na osnovu analize svih URL-ova, pravi izlazni TXT fajl sa spiskom svih URL-ova koje je uspeo da pokupi. Progi treba samo da mi pokupi linkove koji se na toj strani nalaze. A bilo bi odlicno ukoliko bi u progiju postojala mogućnost kakvog parsera, koji bi mogao da, po zadatim kriterijumima, u startu odbaci određene URL-ove, ukoliko [ne]sadrže određenu reč, extenziju i sl. Ukoliko neko zna za takav progi, bio bih više nego zahvalan.

_________________
Spavah i sanjah da je život Radost.
Probudih se i videh da je život Rad.
I radih, i gle, Rad bi Radost.


Putuje bez puta
I put se za njim rađa.


Share on FacebookShare on TwitterShare on Google+
Vrh
 Profil  
Odgovori sa citatom  
 Tema posta:
PostPoslato: 06.11.2005. 23:23:30 
Korisnikov avatar

Pridružio se: 23.09.2002. 18:43:05
Postovi: 552
Lokacija: Inner Mind
Godina: Dipl.
Smer: IS
Neka moderatori obrišu temu ispod... veza je pukla pa je došlo do dupliranja posta... :)

_________________
Spavah i sanjah da je život Radost.
Probudih se i videh da je život Rad.
I radih, i gle, Rad bi Radost.


Putuje bez puta
I put se za njim rađa.


Share on FacebookShare on TwitterShare on Google+
Vrh
 Profil  
Odgovori sa citatom  
 Tema posta:
PostPoslato: 07.11.2005. 01:18:54 
Moderator
Korisnikov avatar

Pridružio se: 13.10.2003. 14:04:31
Postovi: 4555
Lokacija: At the poker table
Godina: II
Smer: IS
znas kako .. ovo bi se resilo u javi lako..

evo ti kako bi citao sa odredjene adrese html..

sad znaci u ovoj while petlji treba jos da proveris da li je tag <a href+=""></a> i da to uzmes i sacuvas u neki string i na kraju da spicis u file taj string koji sadrzi sve urlove sa jedne adrese...

naravno ,ako citas iz file-a onda sve ovo stavi u petlju i u konstruktor za url stavi red koji si procitao iz file-a sa web adresama. Tako ces za sve adrese da sacuvas sve linkove...

Kod:
import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;

public class Main {

   public static void main(String[] args) {
      try {
         URL adresa = new URL("http://www.fon.bg.ac.yu");
         InputStream is = adresa.openStream();
         BufferedReader br = new BufferedReader(new InputStreamReader(is));
         
         StringBuffer buffer = new StringBuffer();
         String row ;
         while( (row = br.readLine()) != null ){
             buffer.append(row+"\n");
         }

         System.out.println(buffer);   
      } catch (Exception e) {
         e.printStackTrace();
      }
   }

}

_________________
I know that the spades are the swords of a soldier
I know that the clubs are weapons of war
I know that diamonds mean money for this art
But thats not the shape of my heart


Share on FacebookShare on TwitterShare on Google+
Vrh
 Profil  
Odgovori sa citatom  
 Tema posta:
PostPoslato: 07.11.2005. 10:08:45 
Moderator
Korisnikov avatar

Pridružio se: 13.11.2001. 08:45:08
Postovi: 4717
Lokacija: Novi Bgd.
Godina: Dipl.
Smer: IS
Морао би се користити неки парсер да би се извукао линк. Постоје специјализовани ХТМЛ парсери па се само редефинише метода за ознаку линка. Знам да се то врло лако може урадити у питону, али ни у јави није тешко.

Међутим проблем се може решити и без програмирања. Мислим да слободан програм HTTrack може то уратити.

_________________
Oni hipotetički kostrukti o kojima se može govoriti kao o konzistentnim i relativno trajnim dinamičkim sistemima koji objašnjavaju veći deo procesa motivacije, obuhvatajući i ciljeve i motive kroz njihove međusobne relacije, čime se mogu uslovno..


Share on FacebookShare on TwitterShare on Google+
Vrh
 Profil  
Odgovori sa citatom  
 Tema posta:
PostPoslato: 07.11.2005. 14:43:08 
Korisnikov avatar

Pridružio se: 06.04.2005. 23:52:55
Postovi: 91
Godina: Apsolvent
Smer: IS
Ako ne uspes da nadjes program za ovo sto ti treba, mozda bi mogao da napravis program koji bi ti radio to sto zelis. Mislim da ti ne bi trebalo mnogo vremena. Ali...
Ako se uhvatis sa time u kostac, dobro razmisli o tome kako ces da procesiras html, postoji n varijacija koje HTML parser cita kao link, a tebi moze pretstavljati problem:
NPR, ovo je isto:

<a href=link></A> i ovo <a HreF= "link">< /a>

Dobro razmisli o ovome.

Srecno.

_________________
Covek ne moze reci toliko mudrosti, koliko moze precutati gluposti...


Share on FacebookShare on TwitterShare on Google+
Vrh
 Profil  
Odgovori sa citatom  
 Tema posta:
PostPoslato: 07.11.2005. 15:48:50 
Korisnikov avatar

Pridružio se: 23.09.2002. 18:43:05
Postovi: 552
Lokacija: Inner Mind
Godina: Dipl.
Smer: IS
Nakon lutanja netom, nisam uspeo pronaći ništa što bi moglo da mi posluži kao rešenje za izneti problem.

Zlatko je preporučio HTTrack... s obzirom da ga odavno imam na makini, pokušao sam i sa njim, ali nije išlo. Koje god podešavanje da mu stavim, uvek mi skida celu stranu... ali meni ne treba to, jer trošim isto vreme kao kada bih sve ručno pregledavao i sakupljao linkove... Ja upravo želim da to "manuelno" izbegnem i pokušam automatski da pokupim info koji mi je potreban.

Takođe, pronašao sam par različitih URL extractora [makar im tako stoji u nazivu! :) ], ali ni oni ne rade posao. Sve je to slično HTTracku...

Nakon svega, ostalo mi je jedino da vidim mogu li se sam izboriti sa time. Rešenje koje je ponudio VITA je jedno od onih koje sam uspeo pronaći na razno-raznim code sajtovima, te mi jedino ostaje da malo "probdim" nad problemom i skrpim nešto. I mene muči način na koji ću procesirati HTML. Nisam siguran, ali da li bi trebalo implementirati i tzv "robots" pravila [u slučaju višestrukog paralelnog procesiranja, ne?], kako progi ne bi bio prepoznat kao spider i samim tim mu se zabranio pristup? Nisam puno čitao o tome na koji način 'robots rules' rade, pa pitam...

... a mislio sam da ću zaobići programiranje i dobiti gotovu aplikaciju! :)

_________________
Spavah i sanjah da je život Radost.
Probudih se i videh da je život Rad.
I radih, i gle, Rad bi Radost.


Putuje bez puta
I put se za njim rađa.


Share on FacebookShare on TwitterShare on Google+
Vrh
 Profil  
Odgovori sa citatom  
 Tema posta:
PostPoslato: 07.11.2005. 23:21:53 
Moderator
Korisnikov avatar

Pridružio se: 13.11.2001. 08:45:08
Postovi: 4717
Lokacija: Novi Bgd.
Godina: Dipl.
Smer: IS
Zar ti nisi bio prevodilac HTTracka-a?

Moraš voditi računa i o apsolutnim i relativnim adresama...

_________________
Oni hipotetički kostrukti o kojima se može govoriti kao o konzistentnim i relativno trajnim dinamičkim sistemima koji objašnjavaju veći deo procesa motivacije, obuhvatajući i ciljeve i motive kroz njihove međusobne relacije, čime se mogu uslovno..


Share on FacebookShare on TwitterShare on Google+
Vrh
 Profil  
Odgovori sa citatom  
 Tema posta:
PostPoslato: 08.11.2005. 00:14:12 
Moderator
Korisnikov avatar

Pridružio se: 13.10.2003. 14:04:31
Postovi: 4555
Lokacija: At the poker table
Godina: II
Smer: IS
analiziraj red po red... mozes preko metode matches koja prima regularni izraz... tipa "/[H h][r R][e E][f F]/"... ovaj regularni izraz bi trebao da ti radi...ako ne dodaj pre i posle .* (znaci bilo koji karakter koliko god puta)
i kad dobijes da je poklapanje onda taj ceo red obradis tj. skines sve posle = i sacuvas u neki niz i onda sve to na kraju zapises u file...

_________________
I know that the spades are the swords of a soldier
I know that the clubs are weapons of war
I know that diamonds mean money for this art
But thats not the shape of my heart


Share on FacebookShare on TwitterShare on Google+
Vrh
 Profil  
Odgovori sa citatom  
Prikaži postove u poslednjih:  Poređaj po  
Započni novu temu Odgovori na temu  [ 8 Posta ] 


Ko je OnLine

Korisnici koji su trenutno na forumu: Nema registrovanih korisnika i 1 gost


Ne možete postavljati nove teme u ovom forumu
Ne možete odgovarati na teme u ovom forumu
Ne možete monjati vaše postove u ovom forumu
Ne možete brisati vaše postove u ovom forumu
Ne možete slati prikačene fajlove u ovom forumu

Pronađi:
Idi na:  
cron
Copyleft FONForum 2001-2014 | Powered by phpBB © phpBB Group