Choose Your Background

Kamis, 25 April 2013

Crawlers (Pengantar Web Science)

Nama Kelompok :
1. Arya Pramudya (51411221)
2. Aida Fitri (50411468)
3. M.Fajar Budi Utomo (54411523)
4. Rony Parsaoran (56411455)
5. Pipit Damayanti (55411533)

Web crawler (mesin pencari) atau nama lainya di sebut web spider, ant, web robot dan web scutter biasanya sering di ketahui sebagian orang yang ada di dunia ada tiga diantaranya google.com yahoo.com dan bing.com kebanyakan blogger atau penggila SEO mengingkan postingan mereka di posisi awal kalau di cari berdasarkan keyword (kata kunci) tertentu yang di inginkan oleh blogger tersebut, berbagai cara di lakaukan entah mendaftarkan di webmaster di mesin pencari tersebut.


Web crawler termasuk kedalam bagian software agent atau yang lebih dikenal dengan istilah program bot. Secara umum crawler memulai prosesnya dengan memberikan daftar sejumlah alamat website untuk dikunjungi, disebut sebagai seeds. Setiap kali sebuah halaman web dikunjungi, crawler akan mencari alamat yang lain yang terdapat didalamnya dan menambahkan kedalam daftar seeds sebelumnya. Dalam melakukan prosesnya, web crawler juga mempunyai beberapa persoalan yang harus mampu di atasinya. Permasalahan tersebut mencakup :
  1. Halaman mana yang harus dikunjungi terlebih dahulu.
  2. Aturan dalam proses mengunjungi kembali sebuah halaman.
  3. Performansi, mencakup banyaknya halaman yang harus dikunjungi.
  4. Aturan dalam setiap kunjungan agar server yang dikunjungi tidak kelebihan beban.
  5. Kegagalan, mencakup tidak tersedianya halaman yang dikunjungi, server down, timeout, maupun jebakan yang sengaja dibuat oleh webmaster.
  6. Seberapa jauh kedalaman sebuah website yang akan dikunjungi.
  7. Hal yang tak kalah pentingnya adalah kemampuan web crawler untuk mengikuti


Beberapa contoh web crawler:
1.Teleport Pro
Salah satu software web crawler untuk keperluan offline browsing. Software ini sudah cukup lama popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com.
2.HTTrack
Ditulis dengan menggunakan C, seperti juga Teleport Pro, HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk anda, agar dapat dilihat secara offline. Yang menarik software ini free dan dapat di download pada website resminya di http://www.httrack.com
3.Googlebot
Merupakan web crawler untuk membangun index pencarian yang digunakan oleh search engine Google. Kalau website anda ditemukan orang melalui Google, bisa jadi itu merupakan jasa dari Googlebot. Walau konsekuensinya, sebagian bandwidth anda akan tersita karena proses crawling ini.
4.Yahoo!Slurp
Kalau Googlebot adalah web crawler andalan Google, maka search engine Yahoo mengandalkan Yahoo!Slurp. Teknologinya dikembangkan oleh Inktomi Corporation yang diakuisisi oleh Yahoo!.
5.YaCy
Sedikit berbeda dengan web crawler  lainnya di atas, YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop dengan menggunakan java, dan didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers). Tiap-tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central. Contoh search engine yang menggunakan YaCy adalah Sciencenet (http://sciencenet.fzk.de), untuk pencarian dokumen di bidang sains. 

Tidak ada komentar:

Posting Komentar