Proyek “Large Language Model” Bahasa Indonesia Diumumkan, Hasil Kolaborasi Sektor Publik dan Privat

BRIN (Badan Riset dan Inovasi Nasional), KORIKA (Kolaborasi Riset & Inovasi Kecerdasan Artifisial), dan dua portfolio GDP Venture (Glair.ai & Datasaur.ai) bersama dengan AI Singapore (AISG) mengumumkan inisiatif proyek kolaboratif untuk mengembangkan Large Language Model (LLM) Bahasa Indonesia yang terbuka agar dapat dimanfaatkan secara luas oleh berbagai pihak.

“Model LLM yang ada saat ini sangat dipengaruhi oleh budaya barat, semakin kecil kemungkinan ChatGPT berperilaku seperti manusia di wilayah tersebut. ASEAN dalam perekonomian global punya peranan penting, tapi kita masih kurang terepresentasi,” ucap Head of Strategy, Partnerships & Growth AI Singapore Darius Liu dalam konferensi pers, Kamis (30/11).

AISG adalah pengembang SEA-LION (Southeast Asian Languages in One Network), sebuah open-source LLM yang dikembangkan untuk lebih memahami dan mewakili beragam konteks, bahasa, dan budaya di Asia Tenggara. AISG adalah program nasional yang didukung oleh National Research Foundation Singapura dan diselenggarakan oleh National University of Singapore.

SEA-LION dibangun di atas arsitektur MPT (Mosaic Pretained Transformers) yang kuat dan memiliki ukuran kosakata 256 ribu. Untuk tokenisasi, model ini menggunakan SEABPETokenizer, dirancang khusus untuk bahasa-bahasa di Asia Tenggara, sehingga memastikan performa model yang optimal.

LLM merupakan jenis model kecerdasan buatan yang dirancang untuk memahami dan menghasilkan bahasa manusia. Mereka dilatih menggunakan data teks dalam jumlah besar dan dapat melakukan berbagai tugas seperti menerjemahkan, meringkas, menjawab pertanyaan, dan bahkan menulis kode.

LLM yang ada saat ini (ChatGPT dari Open AI, Bard dari Google) menunjukkan bias yang kuat dalam hal nilai-nilai budaya, keyakinan politik dan sikap sosial. Hal ini disebabkan oleh data pelatihan, terutama yang diambil dari internet, seringkali condong pada pengaruh WEIRD (Western, Educated, Industrialized, Rich, Democratic).

Fenomena ini menyisakan kekosangan di pasar bahasa lain dan memusatkan keunggulan teknologi di antara negara-negara berbahasa Inggris. Berdasarkan data Statista pada Januari 2023, dominasi bahasa Inggris mencapai 58,8% untuk konten web, sedangkan bahasa Indonesia porsinya hanya 0,6%. Fakta ini menggarisbawahi perlunya penelitian dan pengembangan yang lebih luas untuk memenuhi kebutuhan bahasa Indonesia.

Diklaim, dibandingkan open source LLM milik negara barat, SEA-LION mampu menjawab seolah-olah berbicara dengan manusia karena penggunaan bahasanya tidak kaku. Ada beberapa konteks lokal pula yang tidak mampu dijawab oleh LLM, seperti ChatGPT. Sejak inisiatif SEA-LION dilakukan, LLM ini telah banyak melatih bahasa Indonesia dan Thai. Lalu disusul Bahasa Melayu dan Vietnam, bahasa dari negara lain masih perlu dilatih lagi.

Proyek kolaboratif

CTO GDP Venture/CEO & CTO GDP Labs On Lee menyampaikan, sejalan dengan visi AISG yang ingin menciptakan LLM khusus bahasa Indonesia yang dapat bermanfaat di Asia Tenggara. GDP Venture, melalui portofolionya Glair.ai dan Datasaur.ai, tengah menyesuaikan platform SEA-LION agar sesuai dengan konteks Indonesia demi menciptakan LLM bahasa Indonesia yang terbuka secara komprehensif.

“Inisiatif ini menjanjikan manfaat seperti pengurangan biaya operasional, peningkatan pendapatan dan produktivitas, serta kolaborasi manusia dan AI yang efektif, semuanya berkontribusi pada pertumbuhan ekonomi dan kemajuan teknologi di Indonesia dan Asia Tenggara,” kata On Lee.

Sementara itu, bagi BRIN, adopsi LLM bahasa Indonesia dapat meningkatkan kualitas dan efisiensi penelitian, meningkatkan aksesibilitas kepada publik, mendukung pengembangan teknologi, dan meningkatkan sumber daya manusia. Selain itu juga memberikan peluang dalam akuisisi pengetahuan baik yang bersifat saintifik maupun budaya lokal.

Datasaur.ai, Glair.ai, BRIN, dan AISG menargetkan pengembangan LLM ini pada akhirnya mendorong pembuatan platform AI, seperti ChatGPT. Pembedanya adalah tujuan penggunaannya yang bakal lebih dispesialisasikan sesuai target konsumen. “ChatGPT itu lebih ke general purpose, jadi sulit untuk bersaing langsung. Kita harus pintar-pintar bagaimana bisa memenuhi konsumer kita,” tambah On Lee.

Datasaur Raih Pendanaan Awal Senilai 60 Miliar Rupiah

Startup pengembang platform pelabelan data Datasaur mengumumkan pendanaan tahap awal baru senilai $4 juta atau lebih dari Rp60 miliar. Putaran ini dipimpin oleh Initialized Capital, dengan partisipasi dari HNVR, Gold House Ventures, TenOneTen, dan investor terdahulu.

Sebelumnya, platform ini juga sempat memperoleh investasi senilai $3,9 juta atau setara Rp58 miliar usai mengikuti demo day di program akselerator Y Combinator pada Maret 2020. Hingga saat ini, total pendanaan yang sudah diperoleh mencapai $7,9 juta atau lebih dari Rp118 miliar.

Dana segar yang didapat akan difokuskan untuk mengembangkan pelabelan data NLP yang lebih baik dan efisiensi proses pembuatan model untuk ilmuwan data.

Meskipun berbasis di Amerika Serikat, Datasaur didirikan oleh pengusaha asal Indonesia, Ivan Lee. Perusahaan mengembangkan alat cerdas untuk membantu pemberi label data bekerja secara lebih produktif dan efisien. Termasuk meningkatkan privasi dan keamanan data – sering kali pekerjaan pelabelan data dilakukan secara outsource.

Seperti diketahui, proses pelabelan data merupakan salah satu aspek penting dalam mengembangkan layanan berbasis AI, khususnya pada pemodelan berbasis natural language processing (NLP). Datasaur menangani semua model NLP, termasuk di antaranya entity recognition, document labeling, hingga dependency parsing.

Melihat industri NLP yang semakin berkembang, banyak perusahaan mulai tertarik untuk melatih model berdasarkan kumpulan data milik mereka sendiri. Dengan begitu, perusahaan dapat melatih model untuk menangani beberapa tugas yang sangat spesifik dengan cara yang lebih efisien.

Dilansir dari TechCrunch, Founder & CEO Datasaur Ivan Lee mengungkapkan bahwa salah satu tujuannya sejak awal mengembangkan platform ini adalah untuk mendemokratisasi AI, khususnya terkait natural language processing, dan fitur pembuatan model baru ini akan membuat AI lebih terjangkau bagi banyak perusahaan, bahkan yang tidak memiliki spesifikasi khusus.

Datasaur menciptakan fitur yang memungkinkan tim tanpa data scientist, tanpa engineer, untuk menandai dan melabeli data ini sesuai keinginan, dan ini juga akan secara otomatis melatih model. Fitur ini akan segera dibuka, sehingga perusahaan konstruksi, firma hukum, perusahaan pemasaran, yang mungkin tidak memiliki latar belakang teknik data, masih dapat membuat model NLP [berdasarkan data pelatihan mereka].

Ivan juga menegaskan bahwa ia memiliki filosofi yang selalu tertuju pada profitabilitas, tumbuh dengan cara yang terukur, bukan sekadar tumbuh dengan segala cara. Ia mengaku sangat mempertimbangkan setiap perekrutan dan dampaknya terhadap bisnis.

Saat ini, tim tekniknya sebagian besar berada di Indonesia, dan dalam proses rekrutmen, dia cukup tegas untuk mengoperasikan perusahaan dengan cara yang efisien. Menurutnya, dengan memiliki tenaga kerja lintas geografis dan budaya, karyawan dapat belajar dari satu sama lain, dan hal itu membawa keragaman pada perusahaan.

Pada Maret 2022, perusahaan portofolio GDP Ventures ini mengumumkan akuisisinya terhadap Konvergen AI, startup pengembang teknologi optical character recognition (OCR). Melalui akuisisi ini, baik Datasaur dan Konvergen AI akan mengintegrasikan dan memperluas kapabilitasnya di ranah OCR dan pelabelan data.

Perkembangan solusi berbasis AI di Indonesia

Indonesia menunjukkan minat dan pertumbuhan yang signifikan dalam pengembangan solusi berbasis AI di berbagai industri. Hingga saat ini, sudah ada beberapa perusahaan yang melihat potensi dari AI dan mencoba memanfaatkannya di pasar ini.

Salah satunya adala Kata.ai, perusahaan teknologi yang berfokus pada pengembangan kecerdasan artifisial berbasis natural language processing dalam bentuk chatbot memiliki pengalaman dalam membantu lebih dari 150 bisnis lewat teknologi chatbot.

Teknologi chatbot merupakan sebuah inovasi teknologi yang mampu berjalan berdampingan dengan manusia. Kecanggihan chatbot sendiri memberikan kesempatan bagi manusia untuk berfokus pada masalah yang belum bisa ditangani oleh chatbot sehingga penyusunan strategi operasional yang tepat mampu berorientasi ke arah bisnis yang semakin efisien serta produktif.

Selain itu, solusi AI juga sudah merambah ke sektor-sektor berkembang di Indonesia. Di sektor HR, salah satu pengembang Human Resources Intelligence System (HRIS), Catapa, belum lama ini meluncurkan fitur baru HelpGPT, aplikasi berbasis chatGPT yang menyediakan informasi penggajian pajak dan peraturan ketenagakerjaan dalam Bahasa Indonesia.

Di sektor lainnya seperti pertanian, sudah ada upaya untuk menggunakan AI dalam mengoptimalkan praktik pertanian, pemantauan tanaman, dan prediksi hasil. Solusi berbasis AI dapat membantu petani membuat keputusan berdasarkan data, yang mengarah pada peningkatan produktivitas dan keberlanjutan.

Dalam industri kesehatan, banyak institusi terkait juga tengah mengeksplorasi penggunaan AI untuk diagnosis penyakit, analisis pencitraan medis, dan rencana perawatan yang dipersonalisasi. Alat bertenaga AI sedang dikembangkan untuk membantu profesional kesehatan dalam memberikan perawatan pasien yang lebih baik.

Begitu pula di sektor yang berkembang pesat di Indonesia, seperti fintech, peluang pemanfaatan AI terus digali. Industri keuangan merangkul AI untuk meningkatkan pengalaman pelanggan, mengoptimalkan manajemen risiko, dan memerangi penipuan. Chatbot bertenaga AI dan asisten virtual menjadi lebih lazim dalam layanan pelanggan.

Terkait pengembangan solus berbasis AI ini, pemerintah Indonesia juga secara aktif mendukung penelitian dan pengembangan AI melalui berbagai inisiatif dan kebijakan. Mereka menyadari potensi AI dalam mendorong pertumbuhan ekonomi dan meningkatkan layanan publik.

Datasaur Akuisisi Konvergen AI, Ingin Jadi Pemimpin Platform “Data Labeling”

Pengembang platform pelabelan data Datasaur mengumumkan akuisisinya terhadap Konvergen AI, startup pengembang teknologi optical character recognition (OCR). Melalui akuisisi ini, baik Datasaur dan Konvergen AI akan mengintegrasikan dan memperluas kapabilitasnya di ranah OCR dan pelabelan data.

Baik Datasaur maupun Konvergen AI sama-sama portofolio startup GDP Venture.

Berdasarkan informasi dari blog resminya, Datasaur menyebutkan telah menjalin kemitraan erat dengan Konvergen AI sejak menggarap berbagai project bersama beberapa tahun terakhir. Datasaur menyebut telah mengintegrasikan teknologi milik Konvergen AI, terutama kapabilitas utamanya pada handwriting recognition, goverment ID field extraction, dan intelligent document processing.

“Saya telah lama mengenal Founder Konvergen AI, Lintang Sutawika, dan Timotius Devin sejak lahirnya Datasaur. Kami membangun hubungan yang semakin erat dan memiliki visi yang sama terhadap masa depan industri AI. Mereka telah membangun tim yang kuat dan erat sesuai dengan nilai yang kami anut. Saya tidak bisa membayangkan cara yang lebih baik untuk mengembangkan tim dan mempercepat pertumbuhan kami,” tutur Founder & CEO Datasaur Ivan Lee.

Sejak November 2021, Datasaur menyebut mulai memperluas cakupan pengembangan dari anotasi teks menjadi transkripsi dan anotasi audio. Pihaknya menganggap audio sebagai bidang yang ‘berdekatan dengan teks’. Dengan demikian, setiap pengguna yang mengunggah dan menyalin audio dapat melakukan pelabelan NLP yang sama dengan yang telah kami kembangkan sejak awal.

Dengan cara yang sama, Datasaur akan memperluas kemampuannya ke bidang OCR, dukungan ke format gambar dan PDF yang berisi teks. Seperti diketahui, proses pelabelan data merupakan salah satu aspek penting dalam mengembangkan layanan berbasis AI, khususnya pada pemodelan berbasis natural language processing (NLP).

“Kami telah melihat bagaimana pengguna mengunggah dokumen, menerapkan OCR untuk menangkap teks yang relevan, lalu membubuhi keterangan pada hasilnya. Dengan mengakuisisi Konvergen AI, kami ingin memperkuat posisi kami sebagai pemimpin solusi pelabelan NLP di industri,” tambahnya.

Sementara itu, Co-founder Konvergen.ai Lintang Sutawika mengatakan akan mengemban posisi sebagai VP of Artificial Intelligence lewat akuisisi ini. “Fokus kami adalah memanfaatkan penelitian ML, seperti zero-shot/few-shot dan weak supervision untuk meningkatkan proses pelabelan,” tutur Lintang sebagaimana dikutip dari laman LinkedIn-nya.

Sebagai informasi, Datasaur merupakan startup pengembang teknologi yang membantu pemberi label data bekerja lebih produktif dan efisien. Datasaur menangani semua model NLP, termasuk di antaranya entity recognition, document labeling, hingga dependency parsing. Datasaur didirikan oleh Ivan Lee.

Konvergen AI fokus mengembangkan teknologi AI untuk kebutuhan penangkapan data (data capture) yang merujuk pada proses koleksi data dari dokumen kertas atau digital dengan menggunakan komponen OCR. Konvergen AI didirikan oleh Lintang Sutawika dan Timotius Devin. Adapun, keduanya sama-sama merupakan portofolio dari GDP Ventures.

Tren pasar AI

Mengacu riset Verified Market Research, pasar AI global di 2020 diperkirakan berkisar $51,08 miliar dan diproyeksi meroket sebesar $641,3 miliar di 2028, dengan estimasi pertumbuhan CAGR 36,1% selama periode 2021-2028.

Nilai pasar ini sudah termasuk pada pasar AI berbasis teknologi (NLP, ML, Deep Learning), analisis komponen (hardware, software & services), dan kategori pengguna (healthcare, manufacturing, agriculture). Adapun, proyeksi ini turut dipicu oleh meningkatnya kebutuhan kebutuhan akan analisis dan interpretasi data dalam jumlah besar.

Di Indonesia, AI cukup diimplementasikan untuk penggunaan virtual assistant dan chatbot pada sebuah layanan. Beberapa startup pengembang AI di Indonesia juga belum banyak, beberapa di antaranya adalah Kata.ai dan Bahasa.ai di ranah NLP, dan Nodeflux di ranah computer vision.

Namun, pasar AI, khususnya di bidang NLP, di Tanah Air diestimasi meningkat sejalan dengan tren layanan healthtech, fintech, hingga quick commerce selama masa pandemi Covid-19.

Datasaur Bukukan Dana 58 Miliar Rupiah dari Keikutsertaannya dalam Y Combinator

Startup pengembang platform pelabelan data Datasaur mengumumkan perolehan investasi senilai $3,9 juta atau setara 58 miliar Rupiah. Nilai total pendanaan tersebut mencakup pendanaan awal senilai $1.1 juta yang diterima tahun lalu dari GDP Venture dan $2.8 juta pendanaan tambahan yang didapat usai mengikuti demo day di program akselerator Y Combinator Maret lalu. Investor baru yang terlibat meliputi Initialized Capital, Y Combinator, dan CTO OpenAI Greg Brockman.

Kepada DailySocial Founder & CEO Datasaur Ivan Lee mengungkapkan, sebagian besar dana tersebut akan dimanfaatkan untuk merekrut talenta guna memperkuat tim. Perusahaan juga memiliki rencana untuk berinvestasi lebih lanjut pada pengembangan sistem cerdas, dengan tujuan meningkatkan kapabilitas “automasi” pelabelan data, sehingga bisa membuat proses pengerjaan data menjadi lebih efisien.

“Kami juga ingin melakukan ekspansi [produk] lebih luas lagi, [masukan datanya] bukan hanya dalam format teks, tapi juga gambar dan video,” kata Ivan.

Tren penggunaan dan pengembangan sistem berbasis kecerdasan buatan (AI) yang makin masif melatarbelakangi pengembangan Datasaur. Di balik setiap algoritma AI, ada ribuan pelatihan mesin yang umumnya masih berbasis “human-labeled training”. Mengelola dan memberi label data seperti itu adalah pekerjaan yang sangat membosankan, memakan waktu, dan mahal.

Datasaur mencoba membantu mengefisienkan proses tersebut melalui beberapa fitur. Misalnya fitur labeling interface intelligence component yang dapat mengenali data-data dasar sehingga pemberi label tidak perlu menandai data yang sama berulang-ulang. Ada juga team organizing component untuk mengelola proses pelabelan data yang umumnya dilakukan berkelompok.

Contoh tampilan aplikasi pelabelan data yang dikembangkan Datasaur
Contoh tampilan aplikasi pelabelan data yang dikembangkan Datasaur

Selain di Indonesia, Datasaur juga menjalankan bisnis di California, Amerika Serikat.

“Untuk fokus bisnis kami di Indonesia, ke depannya Datasaur memiliki rencana untuk membantu menyebarkan penggunaan dan adopsi NLP di Indonesia, dan menjadi standar industri utama untuk pelabelan data di Indonesia,” kata Ivan.

Sebagai salah satu startup asal Indonesia yang menjadi anggota program akselerasi Y Combinator batch Winter 2020, banyak pengalaman serta edukasi penting yang didapatkan oleh Ivan. Bukan hanya memvalidasi bisnis, Datasaur juga mendapatkan banyak masukan terkait membangun tim yang solid dan fokus bisnis yang lebih terukur.

Selain Datasaur, ada juga startup lain dari Indonesia yang turut mendapat peruntungan di batch tersebut. Ialah BukuWarung, aplikasi pencatatan arus keuangan untuk pengusaha mikro di Indonesia. Selepas demo day, mereka juga mendapatkan antusias investor untuk turut berpartisipasi memberikan dananya.

[Weekly Updates] Facebook to Build Fiber Optic Network in Indonesia; AI Startup Datasaur Receives New Funding; and More

Facebook collaborates with Alita Praya Mitra, its local partner, to build 20,000 km of fiber optic infrastructure in Indonesia. In the mean time, we dig deeper about equity crowdfunding landscape in Indonesia, how Bubays use technology to deliver baby food product, AI startup Datasaur announces new funding round, and how Bobobox tries to revolutionise customer experience in staying.

Facebook collaborates with local partner to build fiber optic network in Indonesia

Facebook extends the Facebook Connectivity program to Indonesia by collaborating with Alita Praya Mitra, a company that provides local infrastructure networks. Facebook wants to build a fiber-optic infrastructure network for 20,000 km long to improve connectivity for more than 10 million Indonesian people.

Facebook Connectivity is an internal program from the company to overcome the problem of connectivity. In its journey, before entering Indonesia, Facebook has invested in various countries, such as Mexico, Colombia, Congo, Peru, and Brazil; it majorly penetrates African or other countries with low economic rates.

Alita and Facebook will invest in the availability and efficiency of better backhaul fiber distribution. Alita will fully own, build, maintain and operate the green field fiber network and provide large capacity for cellular network operators and internet service providers. Facebook will provide support for the fiber network planning process.

Introducing equity crowdfunding platform in Indonesia

The concept of offering stock through crowdfunding or known as equity crowdfunding (ECF) began to emerge in Indonesia. Some new platforms are adopting the concept. There are three startups officially acquired license form OJK per December 2019, namely Santara, Bizhare, and CrowdDana.

The FSA has already issued regulations regarding the ECF as stated in POJK Number 37 of 2018 concerning Crowdfunding Services through Information Technology-Based Stock Offering. It regulates platforms, investors, and the amount of money raised from crowdfunding.

Currently, the challenge has been on public education and business owners. In terms of the public, there is an urgency to socialize there are other investment options besides gold, mutual funds, or shares on the stock exchange called equity crowdfunding. Including understanding the existing regulations and risks.

Bubays baby food producers optimizing technology for delivery service

Bubays is an online channel that sells complementary foods for babies (MPASI). The idea appears when the founder participated in Antler‘s startup generator program in Singapore.

Bubays is currently focused on food types and quality, because there are many kinds of baby food in the market contain a preservative, high added sugar, even the worse is baby food on the shelves has been existing longer than the baby.

One of the Bubays products is baby porridge with various basic ingredients, made with texture variants according to the age of the child. They also assured each production process is closely monitored by nutritionists. The procedure is also ensured to be safe and hygienic.

Datasaur receives more funding, to optimize data labeling platform

The data labeling platform developer startup, Datasaur, has announced new funding worth $1 million or equivalent to 14.2 billion Rupiah. This is a same round with the last one with GDP Venture. There are some angel investors involved, one is Calvin French-Owen as Segment’s Co-Founder & CTO.

The fresh money will be used for platform capability, including minimizing bias on text labeling. As we all know, data labeling become one of the most crucial processes in the development of artificial intelligence (AI) based services, particularly in the natural language process (NLP).

Currently, the Datasaur team is participating in the Y Combinator acceleration program for the Winter 2020 batch in San Francisco. The company’s based in California and Indonesia.

Bobobox mission to revolutionize user experience in staying

Bobobox is a graduate from India’s Sequoia accelerator program, Surge, that facilitates users with pods and has its own app. The app can help consumers for door access, adjusting brightness, security feature, Bluetooth speaker, and air conditioner.

In order to enjoy all services, users are required to use applications available on Google Play and the App Store. In addition to providing a seamless user experience, Bobobox also wants to change the habits of users enjoying their stay.

Bobobox is currently available in 8 locations across Bandung, Jakarta, and Semarang. This year, they are targeting to add 8 other locations in Indonesia and to serve around 100,000 users. The company also intends to add an internal team to accelerate growth.

Datasaur Receives More Funding, to Optimize Data Labeling Platform

The data labeling platform developer startup, Datasaur, has announced new funding worth $1 million or equivalent to 14.2 billion Rupiah. This is a same round with the last one with GDP Venture. There are some angel investors involved, one is Calvin French-Owen as Segment’s Co-Founder & CTO.

The fresh money will be used for platform capability, including minimizing bias on text labeling. As we all know, data labeling become one of the most crucial processes in the development of artificial intelligence (AI) based services, particularly in the natural language process (NLP).

Datasaur developed tools to support data labeling workers to be more productive and efficient. It includes to improve data privacy and security – in fact, most data labeling is done by outsourcing.

“Basically, we are now handling all kinds of NLP, including entity recognition, parts of speech, document labeling, coreference resolution, and dependency parsing. We’re to build intelligence into the system to make labeling process more efficient and accurate and allow the company to manage the data labeling team through a simple platform,” Datasaur’s Founder & CEO, Ivan Lee told DailySocial

Ivan Lee (middle) and Datasaur team / Datasaur
Ivan Lee (middle) and Datasaur team / Datasaur

Currently, the Datasaur team is participating in the Y Combinator acceleration program for the Winter 2020 batch in San Francisco. The company’s based in California and Indonesia.

NLP become the most AI technology-based implementation in Indonesia

AI is getting more popular as services that can automate several business processes emerged. One of the most widely used products is a chatbot, the corporation is busy using the platform to provide automatic replies to every message given by a customer. Some of them are BCA (chatbot name: Vira), Telkomsel (Veronika), BNI (Love) and others.

Behind the chatbot technology, there are a variety of AI tools applied, one of the most significant is NLP. Its function is to make the computer system understand t0ahe language and context written by the user. In fact, there are still many shortcomings in the current chatbot product, including the most fundamental which is the lack of vocabulary understanding. The impact on services that still feels very rigid, is as natural as the conversation between humans.

Advantages and challenges for chatbot implementation for business
Advantages and challenges for chatbot implementation for business

One of the results of labeling the data is used to train the machine (known as the concept of machine learning) in order to have a better understanding of language, by classifying certain words into groups that have been defined. Some of the scenarios carried out, for example, are continuously learning new words conveyed by the user.

“Despite all the hype, AI is a technology that is still being developed. Many companies are looking for best practices in their labeling process. The first generation solution is to outsource all the labeling work. Many companies are building ‘Mechanical Turk’, but for AI, ” Ivan explained.

He continued, “We now see companies identify that high-quality data is one of the most valuable assets to build and improve AI models. Datasaur is present as the next generation solution, we build software to improve best practices in data labeling, to help develop AI workflows company.”

Along with its development, the market share of AI-based products will continue to increase. Research projects that the global value will reach US$ 390 billion in 2025. For data labeling itself, on the global scene, there are several other services besides Datasaur that can help such as Labelbox, Cloudfactory, and even Google Cloud products are also releasing beta versions for AI Data Labeling Services.

Data labeling implementation scheme

Example of data labeling process in Datasaur
Example of data labeling process in Datasaur / Datasaur

By understanding the input data, there are many things that can be done. From the existing case studies, Datasaur helps companies to do various things, such as understanding contract documents, transcribing customer service conversations, analyzing product reviews, and detecting false news.

“Our software has been used to detect and mark suspicious fake news articles by the Indonesian government. A case study with one of our clients shows a 70% increase in labeling efficiency after adopting the Datasaur platform, and we still have more room to improve,” Ivan said.

Currently, the data labeling platform has been used by various business verticals, from the financial technology industry, health, customer service, social media to chatbot.

Revision from the previous article: this is not a follow on funding, still in a seed round similar with the last one from GDP Venture


Original article is in Indonesian, translated by Kristin Siagian

Datasaur Dapatkan Pendanaan Lanjutan, Kuatkan Platform Pelabelan Data

Startup pengembang platform pelabelan data Datasaur baru saja membukukan investasi baru senilai $1 juta atau setara 14,2 miliar Rupiah. Putaran ini masih sama dengan pendanaan awal yang sebelumnya didapat dari GDP Venture. Terdapat beberapa angel investor yang terlibat, salah satunya Calvin French-Owen selaku Co-Founder & CTO Segment.

Pendanaan ini akan digunakan untuk memperkuat kapabilitas platform, termasuk meminimalisir terjadinya bias dalam pelabelan teks. Seperti diketahui, proses pelabelan data jadi salah satu aspek krusial dalam pengembangan layanan berbasis kecerdasan buatan (AI), khususnya dalam pemodelan natural language processing (NLP).

Datasaur mengembangkan alat untuk membantu pemberi label data bekerja secara lebih produktif dan efisien. Termasuk meningkatkan privasi dan keamanan data – terlebih sering kali pekerjaan pelabelan data dilakukan secara outsource.

“Pada dasarnya saat ini kami menangani semua bentuk NLP, termasuk entity recognition, parts of speech, document labeling, coreference resolution dan dependency parsing. Kami telah membangun kecerdasan ke dalam sistem untuk membantu membuat pelabelan lebih efisien dan akurat, memungkinkan perusahaan mengatur seluruh tim pelabelan mereka pada platform manajemen yang mudah,” terang Founder & CEO Datasaur Ivan Lee kepada DailySocial.

Ivan Lee dan tim Datasaur
Ivan Lee (tengah) dan tim Datasaur / Datasaur

Saat ini tim Datasaur juga tengah mengikuti program akselerasi Y Combinator untuk batch Winter 2020 di San Francisco. Basis perusahaan sendiri ada di California dan Indonesia.

NLP jadi implementasi AI paling populer di Indonesia

AI menjadi makin populer seiring munculnya layanan yang mampu mengotomatiskan beberapa proses bisnis. Salah satu produk yang paling banyak digunakan adalah chatbot, korporasi ramai-ramai gunakan platform tersebut untuk sajikan balasan otomatis pada setiap pesan yang diberikan oleh pelanggan. Beberapa di antaranya BCA (nama chatbot: Vira), Telkomsel (Veronika), BNI (Cinta) dan lain sebagainya.

Di balik teknologi chatbot, ada ragam alat AI yang diaplikasikan, salah satu yang paling signifikan adalah NLP. Fungsinya untuk membuat sistem komputer memahami bahasa dan konteks yang dituliskan oleh pengguna. Nyatanya produk chatbot yang ada saat ini masih miliki banyak kekurangan, termasuk yang paling fundamental yakni pemahaman kosa kata yang masih kurang. Dampaknya pada layanan yang masih terasa sangat kaku, belum natural layaknya perbincangan antar-manusia.

Keuntungan dan tantangan implementasi chatbot untuk bisnis / DailySocial
Keuntungan dan tantangan implementasi chatbot untuk bisnis / DailySocial

Hasil pelabelan data salah satunya digunakan untuk melatih mesin (dikenal dengan konsep machine learning) agar memiliki pemahaman bahasa yang lebih baik, dengan cara mengklasifikasikan kata-kata tertentu ke dalam kelompok yang telah didefinisikan. Beberapa skenario yang dilakukan misalnya, secara berkelanjutan mempelajari kata-kata baru yang disampaikan oleh pengguna.

“Terlepas dari semua hype, AI jadi teknologi yang masih terus dikembangkan. Banyak perusahaan yang tengah mencari praktik terbaik dalam proses pelabelan mereka. Solusi generasi pertama yang dilakukan adalah melakukan outsourcing seluruh pekerjaan pelabelan. Banyak perusahaan yang membangun ‘Mechanical Turk’, tapi untuk AI,” jelas Ivan.

Ia melanjutkan, “Sekarang kami melihat perusahaan mengidentifikasi bahwa data berkualitas adalah salah satu aset paling berharga untuk membangun dan meningkatkan model AI. Datasaur hadir sebagai solusi generasi berikutnya, kami membangun perangkat lunak untuk meningkatkan praktik terbaik dalam pelabelan data, untuk membantu mengembangkan alur kerja AI perusahaan.”

Seiring dengan perkembangannya, pangsa pasar produk berbasis AI akan terus meningkat. Riset memproyeksikan nilainya secara global akan capai US$390 miliar pada 2025 mendatang. Untuk pelabelan data sendiri, selain Datasaur, di kancah global ada beberapa layanan lain yang dapat membantu seperti Labelbox, Cloudfactory, bahkan produk Google Cloud juga tengah merilis versi beta untuk AI Data Lebeling Services.

Skenario implementasi pelabelan data

Contoh proses pelabelan data yang dilakukan di aplikasi Datasaur / Datasaur
Contoh proses pelabelan data yang dilakukan di aplikasi Datasaur / Datasaur

Dengan memahami data masukan, ada banyak hal yang bisa dilakukan. Dari studi kasus yang ada, Datasaur banyak membantu perusahaan untuk melakukan berbagai hal, seperti memahami dokumen kontrak, membuat transkrip percakapan layanan pelanggan, membuat analisis ulasan produk, hingga mendeteksi berita palsu.

“Perangkat lunak kami telah digunakan untuk mendeteksi dan menandai artikel berita palsu yang mencurigakan oleh pemerintah Indonesia. Sebuah studi kasus dengan salah satu klien kami menunjukkan 70% peningkatan efisiensi pelabelan setelah mengadopsi platform Datasaur, dan kami masih memiliki lebih banyak ruang untuk diperbaiki,” ujar Ivan.

Saat ini platform pelabelan data tersebut sudah digunakan oleh beragam vertikal bisnis, mulai dari industri teknologi finansial, kesehatan, layanan pelanggan, media sosial hingga chatbot.

AI Data Labeling Startup Datasaur Announces Seed Round from GDP Ventures

Datasaur, a startup for data labeling, has announced their seed round from GDP Venture. The development of this new service was due to the rise of AI. Behind every AI algorithm are thousands of human-labeled training examples. Organizing and labeling such data today is tedious, time-consuming and expensive.

Datasaur develops smart tools to make labeling more productive and efficient. It emphasizes a policy of privacy and data safety – previously, labeling was often outsourced and data could end up in the wrong hands. Based on the announcement by Datasaur’s Founder & CEO, Ivan Lee, the system will use AI-based models and Natural Language Processing (NLP) to proactively suggest labels and save time.

Project management tools are included for organizing data and assuring accuracy. Labels that do not match previous labels or do not make sense contextually will be submitted to another labeler for verification. In the first phase, Datasaur is focused on text-based data. It has plans to expand to audio in the near future.

“We have secured a seed round of funding. Since announcing last week, several investors have reached out and we are keeping the round open for a select few we think would make for good strategic partners,” the Datasaur team said to DailySocial.

Ivan Lee is the CEO and Founder of Datasaur.ai. He graduated with a Computer Science B.S. from Stanford University in 2009. He took a leave of absence from pursuing his Computer Science Master’s degree to co-found Loki Studios with three other Stanford students. After raising institutional funding and building a profitable game, Loki was acquired by Yahoo in 2013.

Ivan went on to participate in Yahoo’s inaugural Associate Product Manager program. He spent two years as a Product Manager defining and re-building mobile search using artificial intelligence. Ivan went on to serve as VP of Product at GoButler, working to define a new genre of virtual personal assistant. He most recently spent two years working on AI Products at Apple.

He currently lives in Silicon Valley. Aside from thinking about technology and its application to products, he enjoys playing Ultimately Frisbee on warm California days.

“Datasaur is co-located in California and Indonesia. We believe Indonesia’s rich tech ecosystem and abundance of data provide excellent opportunities for us to help out growing startups and established companies working on AI. We are very grateful to be partnering with GDP, a well-connected and respected firm. We see ourselves as a global company from the very start, and are happy to democratize access to AI worldwide,” he added.


Original article is in Indonesian, translated by Kristin Siagian

Startup Pengembang Platform Pelabelan Data AI “Datasaur” Dapatkan Pendanaan Awal dari GDP Venture

Startup pengembang platform data labeling Datasaur menerima pendanaan awal (seed round) dari GDP Venture. Pengembangan layanan ini dilatarbelakangi tren kecerdasan buatan (AI) yang terus meningkat. Di balik setiap algoritma AI ada ribuan pelatihan (mesin) yang umumnya berbasis “human-labeled training”. Mengelola dan memberi label data seperti itu adalah pekerjaan yang sangat membosankan, memakan waktu, dan mahal.

Datasaur mengembangkan alat cerdas untuk membantu pemberi label data bekerja secara lebih produktif dan efisien. Termasuk meningkatkan privasi dan keamanan data – sering kali pekerjaan pelabelan data dilakukan secara outsource. Berdasarkan ulasan yang ditulis Founder & CEO Datasaur Ivan Lee, sistem kerjanya menggunakan pemodelan berbasis AI dan didukung Natural Language Processing (NLP), yang secara proaktif menyarankan label.

Label data yang tidak selaras dengan perilaku pemberian tag sebelumnya atau secara kontekstual tidak pada tempatnya akan disorot untuk diverifikasi. Pengelola proyek dapat mengatur setiap data akan diberi label berapa kali, untuk menjamin tingkat akurasi. Di fase awalnya, layanan Datasaur masih berfokus pada masukan data berbasis teks. Ke depan akan memperluas cakupan pada masukan audio juga.

“Kami telah mendapatkan seed round dari GDP Venture. Sejak diumumkan minggu lalu, beberapa investor telah menghubungi kami, dan kami juga masih membuka partisipasi untuk babak pendanaan ini bagi beberapa orang terpilih, yang kami anggap akan menjadi mitra strategis,” ujar tim Datasaur saat dihubungi DailySocial.

Ivan merupakan lulusan ilmu komputer (B.S.) dari Stanford University. Ia memutuskan untuk mengambil cuti studi masternya untuk mendirikan Loki Studio bersama tiga rekan lulusan Standford lainnya. Di tahun 2013, Loki diakuisisi oleh Yahoo. Pasca akuisisi tersebut, Ivan ditunjuk sebagai Associate Product Manager perdana Yahoo.

Di Yahoo salah satu tanggung jawabnya ialah menyempurnakan platform mobile search dengan AI. Selanjutnya Ivan bekerja sebagai VP of Product di GoButler mengembangkan layanan virtual personal asistant. Sempat bekerja juga dua tahun sebagai AI Product di Apple. Saat ini Ivan tinggal di Silicon Valley untuk mengeksplorasi banyak hal mengenai produk aplikasi dan teknologi.

“Bisnis Datasaur berlokasi di California dan Indonesia. Kami percaya ekosistem teknologi di Indonesia dan berlimpahnya data memberikan peluang bagi kami untuk menumbuhkan startup dan perusahaan yang mengembangkan AI. Kami sangat bersyukur bisa bermitra dengan GDP. Kami memandang diri kami sebagai perusahaan global sejak awal muncul dan dengan senang hati akan mendemokratisasikan akses ke AI di seluruh dunia,” lanjutnya.