LoraxBench: Menjawab Tantangan NLP Multibahasa di Indonesia
LoraxBench adalah benchmark multibahasa dan multitus NLP yang mencakup 20 bahasa lokal Indonesia & variasi formal-informal, untuk mengukur performa model bahasa di tugas budaya, penerjemahan, pemahaman teks, dan lain-lain
Indonesia adalah negara dengan keragaman bahasa luar biasa — lebih dari 700 bahasa daerah dipakai di berbagai pulau dan komunitas. Namun dalam perkembangan teknologi Natural Language Processing (NLP), fokus penelitian selama ini lebih condong ke bahasa Indonesia, serta beberapa bahasa daerah yang besar seperti Jawa dan Sunda. Banyak bahasa lokal lainnya masih minim sumber daya (low-resource), baik dari segi korpus teks, benchmark, maupun model yang mampu memprosesnya dengan baik.
LoraxBench hadir untuk menjembatani kesenjangan tersebut. Benchmark ini dirancang khusus untuk mengevaluasi kemampuan model bahasa pada 20 bahasa lokal Indonesia dalam berbagai tugas NLP, termasuk penerjemahan, pemahaman baca, tanya jawab, inferensi, dan lain-lain. Berikut pembahasan mendalam tentang apa itu LoraxBench, mengapa penting, bagaimana komponennya, temuan awalnya, dan implikasinya bagi masa depan NLP di Indonesia.
Apa itu LoraxBench?
LoraxBench adalah sebuah benchmark multitugas dan multibahasa yang dikembangkan oleh peneliti Indonesia bekerja sama dengan institusi riset internasional. Paper LoraxBench dipublikasikan di arXiv pada Agustus 2025 oleh Alham Fikri Aji dan Trevor Cohn.
Benchmark ini mencakup:
- 20 bahasa lokal Indonesia, termasuk bahasa dengan jumlah penutur dari jutaan hingga kurang dari satu juta.
- 6 tugas NLP (tasks), yaitu:
- Pemahaman bacaan (reading comprehension)
- Tanya jawab terbuka (open-domain question answering)
- Inferensi bahasa alami (natural language inference)
- Penalaran kausal (causal reasoning)
- Penerjemahan (machine translation)
- Tanya jawab budaya/kultural (cultural question answering)
- Untuk 3 bahasa, tersedia variasi register formal dan informal (bahasa biasa/kasar vs bahasa sopan/formal). Misalnya untuk Jawa (Krama dan Ngoko), Sunda (Lemes dan Loma), dan Madura (Engghi Ethen dan Enja’Iya).
LoraxBench dirancang tidak hanya sebagai koleksi data, tetapi sebagai benchmark yang dapat dipakai untuk menguji performa berbagai model bahasa besar (“large language models” / LLMs), baik yang multibahasa umum maupun yang fokus ke lokal/bahasa daerah.
Kenapa LoraxBench Penting untuk Indonesia
Ada beberapa alasan kenapa benchmark ini sangat relevan:
- Mengangkat Bahasa Lokal yang Terpinggirkan
Banyak bahasa daerah yang sangat sedikit mendapat perhatian dalam riset NLP. Dengan LoraxBench, bahasa-bahasa seperti Ambonese Malay, Ngaju, Iban, Sasak, dan lain-lain yang sebelumnya jarang dijadikan objek uji, kini diikutsertakan. - Menangani Kekurangan Data (Low-resource) dan Registrasi Bahasa
Bahasa yang sedikit materi/publikasi mengalami gap besar di performa model. Selain itu, variasi register (formal vs informal) adalah aspek yang sering diabaikan, padahal dalam praktik sehari-hari perbedaan ini sangat penting — terutama dalam budaya bahasa yang sangat menghargai norma sopan santun (seperti Jawa Krama) atau kesopanan bahasa dalam komunikasi resmi. LoraxBench memasukkan register formal dan informal untuk beberapa bahasa agar model tidak hanya “paham” bahasa daerah, tapi juga konteks penggunaannya. - Benchmark Multitugas
Tidak hanya fokus satu jenis tugas seperti penerjemahan saja, LoraxBench mengevaluasi model dalam berbagai tugas: dari membaca dan memahami teks, menjawab pertanyaan, inferensi logika, hingga aspek budaya. Ini memungkinkan evaluasi yang lebih menyeluruh dari kecerdasan model bahasa. - Relevansi Budaya
Banyak dataset NLP didominasi oleh sumber berbahasa Inggris atau budaya Barat. LoraxBench menggunakan konten asal Indonesia, termasuk nuansa budaya lokal, idiom, konteks lokal, sehingga hasil evaluasi lebih menggambarkan tantangan nyata di lapangan di Indonesia.
Komponen dan Bahasa dalam LoraxBench
Berikut lebih detail tentang komponen dan bahasa yang termasuk:
Daftar Bahasa
Dibawah ini beberapa bahasa yang termasuk dalam LoraxBench dan jumlah perkiraan penuturnya: arXiv+1
| Bahasa | Kode ISO | Estimasi Penutur | Wilayah |
|---|---|---|---|
| Acehnese (ace) | ace | ± 3,7 juta | Aceh |
| Ambonese Malay (abs) | abs | ± 0,2 juta | Ambon |
| Balinese (ban) | ban | ± 4,8 juta | Bali |
| Banjar (bjn) | bjn | ± 4,0 juta | Sulawesi Selatan |
| Batak Toba (bbc) | bbc | ± 2,5 juta | Sumatera Utara |
| Betawi (bew) | bew | ± 5,6 juta | Jakarta & sekitarnya |
| Buginese (bug) | bug | ± 4,3 juta | Sulawesi Selatan |
| Gorontalo (gor) | gor | ± 1,1 juta | Gorontalo |
| Iban (iba) | iba | ± 0,8 juta | Kalimantan Barat |
| Jambi Malay (jax) | jax | ± 1,0 juta | Jambi |
| Javanese (jv) | jv | ± 91 juta | Jawa Tengah & Jawa Timur |
| Lampung Nyo (abl) | abl | ± 1,5 juta | Lampung |
| Madurese (mad) | mad | ± 17 juta | Jawa Timur / Madura |
| Makasar (mak) | mak | ± 1,9 juta | Sulawesi |
| Minangkabau (min) | min | ± 8,0 juta | Sumatera Barat |
| Musi (mui) | mui | ± 3,1 juta | Sumatera Selatan |
| Ngaju (nij) | nij | ± 0,9 juta | Kalimantan Tengah |
| Sasak (sas) | sas | ± 2,6 juta | Nusa Tenggara Barat |
| Sundanese (su) | su | ± 32 juta | Jawa Barat |
| Indonesian (id) | id | ± 170 juta+ | Nasional & sebagainya |
Tugas (Tasks) dalam LoraxBench
Sebanyak 6 tugas utama dimasukkan untuk menguji berbagai aspek kemampuan model: arXiv
- Pemahaman Baca (Reading Comprehension) – model diberikan teks dan pertanyaan; tugasnya menemukan jawaban dalam teks tersebut. Data diadaptasi dari TyDi QA untuk bahasa Indonesia, kemudian diterjemahkan ke bahasa lokal.
- Open-Domain Question Answering – model harus menjawab pertanyaan tanpa konteks eksplisit (tidak diberi teks pendukung), yaitu mengandalkan pengetahuan internalnya.
- Natural Language Inference (NLI) – menentukan hubungan antar kalimat: apakah kalimat kedua menyimpulkan, membantah, atau netral terhadap kalimat pertama.
- Causal Reasoning – penalaran sebab‐akibat; mengetahui hubungan sebab dan akibat dalam konteks lokal yang sering mengandung nuansa budaya.
- Penerjemahan (Machine Translation) – menerjemahkan teks ke dalam Bahasa Indonesia dari bahasa lokal.
- Cultural Question Answering – tanya jawab yang bersumber dari budaya dan konteks lokal; misalnya idiom, adat, pengetahuan lokal. Tujuannya agar model juga peka terhadap konteks budaya, bukan hanya struktur bahasa.
Register Formal dan Kasual
Ada perbedaan bahasa formal vs kasual yang mempengaruhi kosa kata dan struktur kalimat; LoraxBench mengambil contoh nyata:
- Jawa: Krama (formal) vs Ngoko (kasual)
- Sunda: Lemes (formal) vs Loma (kasual)
- Madura: Engghi Ethen (formal) vs Enja’Iya (kasual)
Perbedaan ini bukan hanya kosmetik; model yang hanya dilatih dari data informal bisa kesulitan saat harus mengerti atau menghasilkan bahasa formal yang secara leksikal dan struktural menarik permintaan sopan atau norma sosial tertentu.
Temuan Awal dan Tantangan
Setelah diujikan pada LoraxBench, beberapa poin penting muncul:
- Kesenjangan Performa antara Bahasa Pusat vs Bahasa Lokal
Model-bahasa mengalami performa yang jauh lebih baik pada Bahasa Indonesia dan bahasa-bahasa besar seperti Jawa dan Sunda dibandingkan bahasa yang penuturnya lebih sedikit atau kurang data yang tersedia. - Register Formal Lebih Sulit
Variasi formalitas (formal register) cenderung lebih menantang bagi model terutama jika jenis register tersebut kurang muncul di data pelatihan (misalnya Krama Jawa tingkat tinggi). Model seringkali lebih terbiasa dengan bahasa informal/sosial media. - Model Umum vs Model Lokal
Tidak selalu model yang spesifik ke wilayah/daerah lebih unggul dibanding model multibahasa umum. Artinya, hanya fokus ke label “lokal” saja tidak cukup; kualitas data, variasi tugas/register, dan representasi data dalam pelatihan juga sangat menentukan. - Kekurangan Data dan Bias Sosial-Budaya
Beberapa bahasa memiliki sangat sedikit dataset sebelumnya. Selain itu, beberapa istilah budaya, idiom, adat istiadat, atau konteks lokal tidak mudah dialihbahasakan ke dalam format yang cocok untuk benchmark tanpa kehilangan nuance.
Implikasi untuk Pengembangan NLP di Indonesia
LoraxBench tidak hanya penting sebagai benchmark, tapi punya implikasi praktis yang bisa mendorong kemajuan teknologi, riset, dan sosial budaya di Indonesia.
- Motivasi Pengembangan Model Bahasa Lokal
Para peneliti dan pegiat AI/NLP lokal bisa menggunakan LoraxBench sebagai tolok ukur (benchmark) untuk mengembangkan model yang lebih baik untuk bahasa daerah. Misalnya memperbanyak korpus, melibatkan penutur asli, memasukkan register formal dan informal, dan memperhatikan aspek budaya. - Peningkatan Aplikasi yang Lebih Inklusif
Aplikasi AI seperti chatbot, asisten virtual, sistem pendidikan berbasis teks atau suara, bisa lebih inklusif jika mampu menangani bahasa daerah dengan baik — terutama bagi pengguna di daerah yang tidak nyaman dengan Bahasa Indonesia formal atau data “standar”. - Pelestarian Bahasa dan Budaya
Bahasa daerah bukan hanya alat komunikasi, tetapi bagian dari identitas budaya. Dengan adanya dataset dan benchmark, dokumentasi dan penggunaan bahasa daerah di dunia digital bisa meningkat. Ini juga membantu generasi muda lebih terbiasa menggunakan bahasa lokal di situasi formal/informal. - Kolaborasi Lebih Luas dalam Lingkungan Akademik dan Industri
LoraxBench bisa menjadi platform kolaborasi antara universitas, startups, perusahaan teknologi, pemerintah daerah, serta komunitas bahasa lokal. Data, model, dan aplikasi dapat dikembangkan bersama agar sesuai kebutuhan lokal dan memiliki nilai tambah.
Cara Memanfaatkan LoraxBench
Jika Anda peneliti, developer, atau peminat NLP di Indonesia, berikut cara untuk memanfaatkan LoraxBench:
- Akses dataset di Hugging Face: LoraxBench tersedia sebagai dataset publik, secara legal dan etis, dengan lisensi terbuka.
- Gunakan benchmark ini untuk evaluasi model Anda — misalnya model lokal, model multibahasa, ataupun model pribadi yang dibuat. Uji pada semua tugas dan register untuk melihat kelemahan dan kelebihan.
- Berkontribusi dengan data tambahan, terutama untuk bahasa yang sangat sedikit sumbernya, baik dalam bentuk teks terjemahan, anotasi budaya, maupun konteks formal.
- Publikasikan hasil eksperimen Anda: performa model pada LoraxBench bisa jadi topik penelitian menarik, terutama jika Anda bisa memberikan analisis mengapa suatu bahasa atau register khusus lebih sulit untuk model, atau bagaimana mengatasinya.