Skip to main content
Kepercayaan, kredibilitas, dan reproduksibilitas terhadap sebuah data didasari oleh dokumentasi sumber data yang sesuai. Dalam sebuah penelitian, pengguna data tidak serta merta dapat menjadi pembuat data. Orang yang membuat data dapat:
  1. mengonfigurasikan instrumen atau simulasi dari mengumpulkan data primer; atau,
  2. menerapkan metodologi dan proses tertentu guna mengekstraksi, mengubah, dan menganalisis data masukan demi menghasilkan sebuah produk data keluaran.

Mengelola Sumber Data

Provenance dicatat dalam jenis metadata tentang sebuah data. Banyak bidang metadata yang dapat dikumpulkan dalam kategori informasi asalnya. Misalnya tanggal pembuatan, pemilik, perangkat lunak atau tools lain yang digunakan, metode pemrosesan data, dan lain sebagainya. Dengan demikian, pengelolaan dan manajemen data yang baik menjadi dasar dari dokumentasi data yang akurat. Salah satu usaha dan pendekatan yang mungkin Anda familier adalah teknologi blockchain dalam manajemen rantai persediaan. Video berikut bercerita bagaimana teknologi blockchain digunakan untuk mendapatkan informasi mengenai kapan, di mana, dan bagaimana cara penangkapan ikan dapat diketahui dengan memindai barcode yang telah dipasangkan ke ikan atau pengemasannya. Dengan begitu, distributor, toko penjual, dan konsumen bisa dengan mudah mencari asal usul ikan tersebut dan bisa langsung tahu jika ikan didapatkan dari penangkapan secara ilegal. Bayangkan bahwa metadata adalah lokasi ikan ditangkap, nelayan yang menangkapnya, kapan ikan tersebut ditangkap, dan sebagainya. Sementara data adalah ikan itu sendiri. Pendekatan yang bisa dilakukan dalam melakukan dokumentasi data sebagai berikut:
  • Dicatat dalam bentuk teks, bisa menggunakan skema penulisan umum atau bisa juga dengan skema khusus dalam data provenance.
  • Dicatat dan disimpan secara internal menggunakan program perangkat lunak atau dalam sistem eksternal lainnya.
  • Dituliskan dalam bentuk yang dapat dibaca oleh mesin atau yang bisa dibaca oleh manusia.
Bentuk sederhananya, sebuah sumber dicatat dan disimpan dalam sebuah berkas berjudul README yang di dalamnya menjelaskan tentang pengumpulan data dan metode pemrosesan. Data sumber juga bisa dicatat dengan lebih terstruktur menggunakan elemen-elemen spesifik dalam standar metadata seperti Dublin Core, hingga standar disiplin metadata khusus seperti ISO 19115-2 . Untuk lebih memperjelas contoh bentuk penulisan dokumentasi data, simak uraian berikut ini:
  • Berkas README Pernah menemui berkas readme? Berkas readme biasanya berupa dokumen text (.txt) dan sering kita temui dalam paket instalasi perangkat lunak, kode pemrograman, kumpulan data, dan bisa juga ditemui dalam proyek penelitian. Tentunya dalam proyek penelitian sebuah berkas readme harus memuat daftar berkas yang digunakan dalam dataset, rujukan informasi yang relevan, serta berkas lain yang menunjang penelitian seperti artikel, karya ilmiah, atau slide presentasi. Untuk penulisan readme, kamu bisa menggunakan template yang telah distandarkan oleh Cornell University pada tautan berikut: https://data.research.cornell.edu/content/readme
  • Data Dictionaries 20210222010210caf160c978914bb3f02f2890a1ef05e5.png Data dictionaries, atau kamus data, berisi informasi kunci tentang data yang Anda kumpulkan. Ia digunakan untuk menjelaskan suatu bagian tertentu dalam dataset. Misalnya menjelaskan arti dari nama sebuah variabel, kegunaan, deskripsi, dan lain sebagainya. Kamus data biasanya digunakan pada data tabular atau sebuah database. Contoh dari data dictionaries dapat dilihat dari kamus data yang disediakan oleh Kementerian Pertanian Amerika Serikat pada tautan berikut: https://data.nal.usda.gov/data-dictionary-examples
  • Data Paper Berbeda dengan makalah, jurnal, atau artikel penelitian biasa yang berfokus pada hipotesa dan hasil penelitian, data paper bertujuan utama untuk menjelaskan mengenai data dan bagaimana data tersebut dikumpulkan. Dalam kata lain, data paper disebut sebagai sebuah dokumen berisi metadata.

Tools Dokumentasi Data

Dalam proses dokumentasi data pastinya kita memerlukan sebuah tools (alat) supaya lebih mudah dan efisien. Berikut beberapa hal yang dapat Anda lakukan.

Buku Catatan

Salah satu cara tradisional  adalah dengan buku catatan. Kita dapat menggunakan catatan sebagai alat untuk mencatat sumber data yang kita peroleh. Namun, jika berbicara tentang data pasti tidak jauh dengan angka dan terkadang terdiri dari banyak digit. Sehingga jika data dicatat dalam jumlah yang besar maka rentan salah. Jika Anda terpaksa menggunakan buku catatan, fokuslah untuk mencatat poin-poin pentingnya agar meminimalisir kesalahan.

Log dan Blockchain

Jika bekerja sendiri, Anda dapat melakukan logging, atau menggunakan tools bantuan (docs, spreadsheet) yang memiliki kemampuan untuk memperlihatkan history (sejarah versi). Anda yang bekerja dengan tools modern mungkin mengenal istilah logging atau auditing. Anda bisa memanfaatkan log aplikasi untuk mencatat perubahan pada data. Pada pasar perdagangan dunia, pencatatan dilakukan melalui shared ledger yang diterapkan pada blockchain. Setiap stakeholder (pemangku kepentingan) akan memiliki salinan dari setiap kejadian yang tercatat, termasuk perubahan-perubahan yang terjadi pada data tersebut.

Tips Dokumentasi Data

Gunakan Alur Ilmiah yang Terstruktur

Nah, di sinilah kita akan memanfaatkan alur terstruktur yang terdiri dari pencatatan, eksekusi, pemrosesan, dan urutan secara ilmiah. Hal tersebut penting supaya pembaca paham sumber asal dan teori yang mendukung dokumentasi data buatan kita. Alur tersebut dapat dirancang dalam bentuk grafis secara berurutan berdasarkan tugas yang diberikan. Sehingga tugas baru yang dimasukkan ke dokumentasi data, dapat mengambil masukan dari tugas sebelumnya. Supaya alur kerja dapat digunakan kembali di masa mendatang maka informasi yang dicatat perlu dapat menunjukkan dari mana data berasal, bagaimana proses data tersebut diubah, dan komponen apa saja yang mendukung di dalamnya. Hal tersebut dapat memungkinkan orang berikutnya dapat mudah melakukan eksperimen lebih lanjut dan merevisi apabila terdapat hal yang kurang tepat dari data tersebut.

Informasi Harus Jelas dan Sedetail Mungkin

Tautan ke data sumber asli harus jelas. Sebutkan dari mana Anda mendapatkannya. Ini sangat penting untuk menunjukkan sumber supaya dataset terlihat kuat dan dapat dipercaya. Coba tanyakan ke diri Anda sendiri, jika orang lain membaca informasi mengenai sumber data, apakah orang tersebut mudah menemukan data tersebut? Jika orang lain membutuhkan waktu lama untuk menemukan sumber data aslinya, walaupun sudah diinfokan tautannya, berarti informasi yang Anda berikan belum jelas. Selain itu pastikan penjelasan setiap perubahan data yang Anda lakukan harus dituliskan dengan terperinci. Orang lain harus mengetahui langkah demi langkah perubahan apa yang telah dilakukan, tanpa perlu harus bertanya kepada Anda.