Evaluasi model AI sering menimbulkan perdebatan karena hasilnya terlihat bagus di atas kertas, tetapi tidak konsisten saat dipakai pada data nyata yang berubah, bias, atau tidak lengkap. Di banyak proyek berbasis data, tim terjebak pada angka akurasi tunggal lalu mengabaikan konteks, distribusi data, serta biaya kesalahan yang berbeda untuk tiap kelas. Pendekatan objektif diperlukan agar penilaian model tidak bergantung pada opini, tidak mudah dimanipulasi, dan dapat diulang oleh tim lain dengan hasil yang serupa.
Evaluasi yang benar selalu dimulai dari pertanyaan, “kesalahan seperti apa yang paling berbahaya?” Pada deteksi penipuan, false negative bisa lebih mahal daripada false positive, sedangkan pada penyaringan spam bisa sebaliknya. Karena itu, metrik harus dipilih berdasarkan dampak bisnis dan risiko, bukan sekadar tren. Tim perlu menuliskan tujuan operasional, batas toleransi kesalahan, serta skenario kegagalan yang harus diuji, misalnya saat lonjakan trafik atau perubahan perilaku pengguna.
Objektivitas sulit tercapai bila data uji tercemar kebocoran informasi dari data latih. Praktik yang kuat adalah pemisahan data berdasarkan waktu untuk kasus temporal, atau berdasarkan entitas untuk mencegah data dari pengguna yang sama muncul di latih dan uji. Selain itu, dataset uji sebaiknya memiliki versi dan catatan asal data, agar setiap perubahan dapat ditelusuri. Sampling juga perlu mewakili populasi, termasuk kelompok minoritas, sehingga performa tidak terlihat tinggi hanya karena kelas dominan.
Akurasi dapat menipu pada data tidak seimbang, sehingga evaluasi objektif biasanya memakai kombinasi metrik. Untuk klasifikasi, precision, recall, F1, ROC AUC, dan PR AUC membantu memetakan trade off. Untuk regresi, MAE dan RMSE memberi gambaran berbeda tentang penalti error besar. Untuk perankingan, NDCG atau MAP lebih relevan daripada akurasi. Tambahkan metrik biaya berbobot yang meniru kerugian nyata, misalnya cost sensitive score, agar evaluasi terkoneksi dengan keputusan di lapangan.
Cross validation mengurangi ketergantungan pada satu pembagian data, namun tidak selalu cocok untuk data berurutan. Bila data bersifat time series, split berbasis waktu lebih objektif karena meniru kondisi produksi. Setelah itu, lakukan uji stres dengan data out of distribution, misalnya variasi bahasa, perangkat berbeda, atau kualitas input menurun. Uji ini membantu menjawab apakah model stabil saat kondisi tidak ideal, bukan hanya saat semua variabel rapi seperti di laboratorium.
Model yang mengeluarkan probabilitas perlu diuji kalibrasinya, karena probabilitas yang tidak terkalibrasi membuat threshold sulit dipercaya. Brier score dan reliability curve berguna untuk memeriksa apakah prediksi 0,8 benar benar terjadi sekitar 80 persen. Setelah kalibrasi, threshold dipilih berdasarkan kurva precision recall, biaya kesalahan, serta kapasitas operasional, misalnya berapa banyak kasus yang bisa ditinjau manual per hari.
Pendekatan objektif tidak berhenti pada skor rata rata. Perlu evaluasi per segmen, seperti wilayah, usia, perangkat, atau kanal akuisisi, untuk mendeteksi ketimpangan performa. Metrik seperti disparate impact, equalized odds, atau gap recall antar kelompok bisa dipakai sesuai konteks. Setelah rilis, pemantauan drift data dan drift konsep menjadi bagian evaluasi berbasis data, misalnya dengan PSI atau perubahan distribusi fitur, lalu mengaitkannya dengan penurunan metrik pada data terbaru.
Objektivitas diperkuat dengan proses yang dapat diulang. Catat versi data, parameter pelatihan, seed, konfigurasi preprocessing, serta lingkungan eksekusi. Gunakan eksperimen terstruktur agar setiap klaim performa punya jejak audit. Dokumentasi seperti model card atau datasheet for datasets membantu pemangku kepentingan memahami batasan model, asumsi data, dan kondisi di mana performa dapat turun. Dengan begitu, evaluasi model AI berbasis data menjadi praktik yang transparan, terukur, dan defensible saat ditinjau ulang oleh auditor atau tim lain.