Tutorial tentang bagaimana cara mengambil data / grabbing dari situs

Beberapa saat lalu di fanpage facebook kami ada yang meminta tutorial tentang bagaimana cara mengambil data / grabbing dari situs. Bagi beberapa orang belum tahu bagaimana manfaat dari grabbing ini, dengan grabbing ini developer dapat mengambil data dari situs yang diinginkan dengan tujuan ingin mengambil data yang diperlukan untuk keperluan development mereka. Tetapi tidak seperti facebook dan twitter, banyak situs situs populer yang tidak memberikan API untuk mengakses data mereka sehingga tidak mungkin kita bisa mendapatkan data mereka melalui program kita.

Kali ini saya akan memberikan tutorial bagaimana cara mengambil konten / data dari situs sehingga data mereka dapat kita ambil dan kita manfaatkan. Sebagai contoh kali ini saya akan mencoba mengambil konten berita dari situs Kompas.com menggunakan pemrogramman PHP melalui cURL dan HTML DOM, langsung saja kita mulai :

Pertama kita harus mengetahui struktur dari website yang akan kita ambil kontennya, pertama kita lihat dan inspect element bagian yang ingin kita ambil kontennya:

Setelah kita tahu bagian yang mana ingin kita ambil selanjutnya kita lihat inspect element

setelah itu kita bisa langsung membuat syntaxnya.pertama buat dulu syntax curl,sebelumnya karena induk yang akan kita ambil kontennya tidak memiliki ID sebegai penggantinya kita akan mengambil menggunakan class disini saya buat fungsi agar mudah dipakai

function bacaHTML($url){

    // inisialisasi CURL

    $data = curl_init();

    // setting CURL

    curl_setopt($data, CURLOPT_RETURNTRANSFER, 1);

    curl_setopt($data, CURLOPT_URL, $url);

    // menjalankan CURL untuk membaca isi file

    $hasil = curl_exec($data);

    curl_close($data);

    return $hasil;

}

setelah itu kita akan inisialisasi DOM HTML sekaligus mencoba fungsi diatas dan mengambilkompas.com . Sisispkan syntax dibawah ini di bawah fungsi diatas

//mengambil data dari kompas 

$bacaHTML = bacaHTML("http://www.kompas.com");

//membuat dom dokumen

$dom = new DomDocument();

//mengambil html dari kompas untuk di parse

@$dom->loadHTML($bacaHTML);

Sampai disini kita hanya berhasil memanggil seluruh html dari kompas.com selanjutnya kita akan mengambil kontent tertentu dari html menggunakan DOM HTML.

1

2

3

4

5

6

//nama class yang akan dicari

$classname="most";

//mencari class memakai dom query

$finder = new DomXPath($dom);

$spaner = $finder->query("//*[contains(@class, '$classname')]");

dengan syntax diatas kita dapat mngambil data dari semua tag yang memiliki class most, saat saya menguji karena menggunakan class, DOM menerima 3 class most , padahal kita hanya membutuhan most yang pertama saja, maka itu juga bisa dilakakukan di DOM. Sekalian kita akan mengambil kontent dari setiap baris li dari induknya ul . Sebelumnya mari kita lihat dulu tag konten yang akan kita ambil.

setelah kita tahu maka kita akan langsung mengambil isi dari tag tersebut. Maka sisipkan syntax berikut dibawah syntax sebelumnya

1

2

3

4

5

6

//mengambil data dari class yang pertama

$span = $spaner->item(0);

//dari class pertama mengambil 2 elemen yaitu a yang menyimpan judul dan link dan span yang menyimpan tanggal

$link =  $span->getElementsByTagName('a');

$tanggal = $span->getElementsByTagName('span');

Dengan itu kita akan mengambil seluruh link dan tanggal dari tag masing masing, tetapi pada saat ini kedua variable itu masih berbentuk array dom, maka kita akan merapihkannya menjadi array normal dengan menyisipkan lagi syntax berikut.

//persiapkan array untuk diambil datanya

$data =array();

foreach ($link as $val){ 

    $data[] = array(

        'judul' => $link->item($no)->nodeValue,

        'link' => $link->item($no)->getAttribute('href'),

        'tanggal' => $tanggal->item($no)->nodeValue,

    );

    $no++;

}

?>

Syntax diatas untuk nodeValue itu untuk mengambil isi dari tag, sedangkan getAttribute untuk mengambil attribut. Sampai tahap ini kita sudah selesai mengambil data selanjutnya kita akan menampilkannya dengan cara mengeluarkan seluruh data yang ada pada $data dengan sytax ini

<style>

    table,th,td{

        border:1px solid #000;

        font-size:12px;

    }

</style>

<h2>Grabbing dari Kompas.com</h2>

<table>

    <thead>

        <th>No</th>    

        <th>Judul</th>    

        <th>Link</th>    

        <th>Tanggal</th>    

    </thead>

    <tbody>

        php

$no=1;

foreach($data as $val)

{

        ?>

        <tr>

            <td>php echo $no;?></td>

            <td>php echo $val['judul'];?></td>

            <td>php echo $val['link'];?></td>

            <td>php echo $val['tanggal'];?></td>

        </tr>

        php

    $no++;

}

        ?>

    </tbody>

</table>

dengan begitu kita selesai melakukan pengambilan data dan mengeluarkannya dalam bentuk tabel.

Ini keseluruhan sytax nya atau kamu bisa download dibawah nanti.

php

function bacaHTML($url){

    // inisialisasi CURL

    $data = curl_init();

    // setting CURL

    curl_setopt($data, CURLOPT_RETURNTRANSFER, 1);

    curl_setopt($data, CURLOPT_URL, $url);

    // menjalankan CURL untuk membaca isi file

    $hasil = curl_exec($data);

    curl_close($data);

    return $hasil;

}

//mengambil data dari kompas 

$bacaHTML = bacaHTML("http://www.kompas.com");

//membuat dom dokumen

$dom = new DomDocument();

//mengambil html dari kompas untuk di parse

@$dom->loadHTML($bacaHTML);

//nama class yang akan dicari

$classname="most";

//mencari class memakai dom query

$finder = new DomXPath($dom);

$spaner = $finder->query("//*[contains(@class, '$classname')]");

//mengambil data dari class yang pertama

$span = $spaner->item(0);

//dari class pertama mengambil 2 elemen yaitu a yang menyimpan judul dan link dan span yang menyimpan tanggal

$link =  $span->getElementsByTagName('a');

$tanggal = $span->getElementsByTagName('span');

$no = 0;

//persiapkan array untuk diambil datanya

$data =array();

foreach ($link as $val){ 

    $data[] = array(

        'judul' => $link->item($no)->nodeValue,

        'link' => $link->item($no)->getAttribute('href'),

        'tanggal' => $tanggal->item($no)->nodeValue,

    );

    $no++;

}

?>

<style>

    table,th,td{

        border:1px solid #000;

        font-size:12px;

    }

</style>

<h2>Grabbing dari Kompas.com</h2>

<table>

    <thead>

        <th>No</th>    

        <th>Judul</th>    

        <th>Link</th>    

        <th>Tanggal</th>    

    </thead>

    <tbody>

        php

$no=1;

foreach($data as $val)

{

        ?>

        <tr>

            <td>php echo $no;?></td>

            <td>php echo $val['judul'];?></td>

            <td>php echo $val['link'];?></td>

            <td>php echo $val['tanggal'];?></td>

        </tr>

        php

    $no++;

}

        ?>

    </tbody>

</table>

Mari kita Uji Coba dan inilah hasilnya

Beri +1,like atau share jika bermanfaat, jangan lupa juga komen jika mengalami masalah.

sumber

17 komentar:

Unknown21 October 2015 at 04:50
keren broo keren..
saya mo nanya bisa nga kita data grab situs lazada misalnya ??
jadi yg saya mo grab itu gambar barang , nama barang dan harga barang
kalo abang bisa bantu boleh email saya
pembunuhsetan@gmail.com
Unknown26 October 2015 at 21:28
Bang .. bisa bantu saya ??
Unknown16 April 2016 at 01:01
gan, saya mau nanya nih, misalnya kita sudah berhasil grabbing beberapa situs berita, nah untuk buat semuanya jadi timeline terus di sortir berdasarkan waktu gimana ya gan?
Unknown16 April 2016 at 01:20
gan, minta kontak yang bisa dihubungi dong, saya newbie dan ingin belajar gan. tolong gan . terimakasih
ekosap8 June 2016 at 17:32
om mau tanya nih, kalo itu berarti beritanya up to date ga? terus kalo semisal diklik berarti masuk ke kompas gitu ya?
aria_mustofa21 July 2016 at 07:50
Mantafff
Unknown12 September 2016 at 19:30
kalo pake regex gmna om ??
wawan eka s1 October 2016 at 19:34
maaf masih baru , systax di atas bisa kita save dengan format apa ya ? , apa kah ada yg sengaja di salahkan ?
Unknown12 October 2016 at 10:06
Gan teknik grabbing ini kira kira bisa gk dipake buat informasi beasiswa ? Misalnya sy ambil data beasiswa kaya persyaratan, fasilitas dll dari website resmi penyedia beasiswa nya
WapPur26 February 2017 at 05:17
This comment has been removed by a blog administrator.
Har Tato15 October 2017 at 07:46
mantap
Yudhi14 February 2018 at 23:57
gan kalau yang mau kita grab itu table yang server side processing bisa ngga ya? soalnya saya sudah coba tp hanya dapat table header nya saja

Tutorial tentang bagaimana cara mengambil data / grabbing dari situs

Related Articles :

17 komentar:

Arsip Blog

Categories

Popular Posts

Visitor