Skip to main content
Library web scraping adalah jenis library untuk membantu pengguna mengumpulkan data dari halaman web. Proses ini disebut sebagai “web scraping” atau “web crawling”. Anda bisa menggunakan fungsi dan metode pada library ini untuk mengekstraksi informasi dari situs web dan menyimpannya dalam format yang dapat diakses dan digunakan dalam analisis atau aplikasi lainnya. Beberapa library untuk melakukan web scraping adalah berikut.
  1. Beautifulsoup
    Beautifulsoup adalah library untuk mengambil data dari halaman web dan mengekstrak informasi yang diperlukan. Untuk menggunakan beautifulsoup, Anda harus menginstalnya terlebih dahulu. Silakan jalankan kode pip berikut untuk menginstalnya.
    pip install beautifulsoup4
    
    Berikut adalah contoh penulisan kode beautifulsoup.
    from urllib.request import urlopen
    from bs4 import BeautifulSoup
    
    # Pengambilan konten
    url = "http://python.org/"
    page = urlopen(url)
    html = page.read().decode("utf-8")
    
    # Membuat objek BeautifulSoup
    soup = BeautifulSoup(html, "html.parser")
    
    # Mencetak judul halaman
    print(soup.title)
    
    Pada contoh di atas, kita melakukan web scraping untuk mengambil judul dari laman web “http://python.org/”. Hal pertama yang dilakukan adalah mengimpor Beautifulsoup sebagai library yang akan kita gunakan. Selanjutnya kita mengambil konten dari url dengan menggunakan fungsi dari modul “urlopen”. Setelah konten diambil, kita membuat objek BeautifulSoup dan dari objek ini kita bisa memunculkan beberapa konten berdasarkan tag html. Pada contoh di atas, kita mengambil judul halaman dengan menggunakan method “title”.
  2. Urllib
    Urllib adalah library bawaan dari Python yang bertujuan untuk scraping konten dari sebuah website. Penggunaan urllib berbeda dengan beautifulsoup. Bisa dikatakan bahwa cara penggunaan urllib sedikit kompleks dibandingkan beautifulsoup. Kode di bawah adalah contoh untuk memulai proses scraping pada situs dengan domain python.org dan menampilkan isi dari tag title dari situs tersebut.
    from urllib.request import urlopen
    
    # Pengambilan konten
    url = "http://python.org/"
    page = urlopen(url)
    html = page.read().decode("utf-8")
    
    # Mencari indeks awal dan akhir
    start_index = html.find("<title>") + len("<title>")
    end_index = html.find("</title>")
    
    # Mengekstrak dan mencetak judul halaman
    title = html[start_index:end_index]
    print(title)
    
    Pada kode di atas, kita melakukan scraping terhadap url yang sama seperti contoh sebelumnya. Namun, kali ini kita menggunakan urlopen untuk mengambil title dari laman “http://python/org/” Hal pertama yang dilakukan adalah mengimpor urlopen dengan menggunakan “from urllib.request import urlopen”. Selanjutnya, kita mengambil konten dari url yang telah ditentukan. Tahapan ketiga adalah kita mencari indeks awal dan akhir. Tujuan kita adalah mengambil title sehingga indeksnya ditentukan dari tag “<title>” dan “</title>”. Terakhir, kita mengekstrak dan mencetak judul halaman tersebut.