Microsoft Akuisisi Perusahaan Spesialis Speech Recognition, Nuance

Akuisisi demi akuisisi terus dilancarkan oleh Microsoft demi mengembangkan bisnisnya. Yang terbaru, Microsoft baru saja mengumumkan akuisisinya terhadap Nuance Communications, perusahaan software yang menggeluti bidang speech recognition dan artificial intelligence (AI).

Produk Nuance yang paling terkenal adalah software speech recognition bernama Dragon. Selama bertahun-tahun, Dragon sudah dipakai oleh berbagai perusahaan besar melalui sistem lisensi. Salah satu klien Nuance yang paling dikenal mungkin adalah Apple, yang memanfaatkan teknologi speech recognition beserta natural-language processing milik Dragon dalam pengembangan asisten virtual Siri.

Tidak heran apabila kemudian Microsoft rela mengucurkan dana sebesar $19,7 miliar (± Rp288,79 triliun) untuk meminang Nuance. Nuance bisa dibilang merupakan salah satu pemimpin di bidang speech recognition, dan Microsoft tentu dapat memanfaatkannya di banyak produk dan layanan yang mereka tawarkan.

Salah satu yang langsung terpikirkan mungkin adalah menggunakan teknologi speech recognition untuk menghadirkan fitur transkrip audio secara otomatis di Microsoft Teams, kurang lebih mirip seperti yang ditawarkan oleh Zoom maupun Google Meet melalui integrasi layanan pihak ketiga bernama Otter. Itu baru satu contoh, sebab potensi pengaplikasian speech recognition dan natural-language processing di bidang enterprise — bidang yasng sangat dikuasai oleh Microsoft — tentu amat luas.

Pada kenyataannya, langkah pertama yang bakal Microsoft ambil pasca akuisisi Nuance adalah menggenjot inovasinya lebih jauh lagi di industri pelayanan kesehatan alias health care. Ini dikarenakan Microsoft sebenarnya sudah bermitra dengan Nuance sejak tahun 2019 untuk membantu memperlancar tugas-tugas administratif di industri pelayanan kesehatan.

Software besutan Nuance sendiri sudah digunakan di lebih dari tiga perempat (77%) rumah sakit di Amerika Serikat. Salah satu yang banyak digunakan adalah Dragon Medical One, yang dirancang untuk membantu para dokter mendokumentasikan pekerjaannya secara efisien.

Proses akuisisinya diperkirakan bakal rampung pada akhir tahun 2021 ini juga. Akuisisi ini merupakan akuisisi terbesar kedua yang dilakukan Microsoft setelah LinkedIn di tahun 2016 dengan nilai $26 miliar.

Sumber: Microsoft.

Aplikasi ELSA Speak Ekspansi ke Indonesia, Fokus Tingkatkan Kemampuan Berbicara Bahasa Inggris

ELSA (English Learning Speech Assistant) Speak adalah aplikasi untuk belajar bahasa Inggris yang menerapkan kecerdasan buatan dan pengenalan suara. Teknologi tersebut memungkinkan terjadinya proses belajar dua arah, misalnya pengguna dapat melafalkan kata atau kalimat tertentu, kemudian sistem akan melakukan analisis dan memberikan masukan perbaikan.

Berbasis di San Francisco, aplikasi ELSA Speak didirikan pada tahun 2015 oleh Vu Van. Saat ini mereka mengklaim telah miliki 6,5 juta pengguna yang tersebar di 101 negara. Lantas untuk tingkatkan penetrasi bisnis, perusahaan tengah gencarkan ekspansi, termasuk ke pasar India, Jepang dan Indonesia.

Di Indonesia, saat ini juga ada aplikasi belajar Bahasa Inggris yang dikembangkan startup lokal, yakni Bahaso dan Cakap – beberapa aplikasi lain dari pengembang global seperti DuoLingo juga bisa digunakan gratis oleh pengguna di sini. Beberapa startup edutech seperti Ruangguru (melalui SkillAcademy) dan Zenius juga tawarkan materi belajar Bahasa Inggris.

Untuk Bahaso, selain modul berbasis e-learning interaktif, mereka juga sajikan layanan kursus online dengan tutor. Sementara Cakap, fokus sajikan kanal kursus online untuk pembelajaran bahasa. Mereka menggandeng mitra dari berbagai perguruan tinggi.

Kepada DailySocial, Sandra Wang selaku Indonesia Head of Growth ELSA menyampaikan potensi pasar layanan kursus bahasa Inggris. Dengan tingginya populasi berumur 35 tahun ke bawah, Indonesia berkemungkinan untuk menyumbang tenaga kerja internasional. Akan tetapi, menurut riset yang dilakukan English First English Proficiency Index, Indonesia masih menempati urutan ke 61 dari 100 negara untuk kemampuan berbahasa Inggris.

Segera integrasikan dengan platform pembayaran lokal

Saat ini ELSA telah memiliki tim lokal di Indonesia untuk pemasaran dan pengembangan produk. Beberapa inisiatif yang direncanakan di antaranya mengintegrasikan platform dengan pembayaran digital seperti Gopay, dengan harapan memudahkan proses transaksi.

Aplikasi dapat diunduh secara gratis dan dicoba dengan fitur terbatas. Untuk manfaatkan kapabilitas penuh, pengguna dapat berlangganan dengan harga mulai dari Rp84 ribu per bulan.

“Di Indonesia, ELSA bertujuan untuk mendukung masyarakat dengan berbagai latar belakang, berbagai macam pendidikan dan pekerjaan, dalam meningkatkan kemampuan berbicara bahasa Inggris yang dapat berguna untuk meningkatkan kesempatan mereka dalam dunia kerja dan kehidupan sehari-hari,” jelas Sandra menceritakan segmentasi pengguna yang ditargetkan.

ELSA telah membukukan pendanaan sekitar US$12 juta dari Monk’s Hill Ventures, Gradient Ventures dan sejumlah investor lainnya.

Fokus tingkatkan kualitas berbicara bahasa Inggris

Dengan teknologi yang dimiliki, prioritas utama ELSA pada latihan pengucapan bahasa Inggris secara akurat. Aplikasi disebut bisa  mendeteksi kesalahan pengucapan pengguna dengan tingkat akurasi sampai 95%. Pengguna juga dapat menerima umpan balik detail untuk memperbaiki kesalahan pengucapannya, seperti ulasan setiap suku kata yang salah diucapkan hingga analisis pelafalan kata.

ELSA telah menyediakan lebih dari 1.200 pelajaran serta lebih dari 60 topik bagi pengguna untuk melatih pengucapan, mulai dari latihan pengucapan kata, frasa serta kalimat bahasa Inggris. Fitur lain yang ditawarkan adalah kamus interaktif, yang akan membantu pengguna cara mengucapkan kata atau frasa yang dicarinya.

Founder & CEO ELSA Vu Van menyampaikan, pengucapan merupakan tantangan terbesar dalam belajar bahasa Inggris, sehingga menjadi penghalang untuk berbicara dengan lancar dan percaya diri. “Di zaman sekarang, kita perlu berbicara bahasa Inggris dengan jelas, dan dengan aksen yang bersih untuk berkomunikasi dengan baik di tempat kerja, sekolah, dan tempat lainnya.”

Hal itu sejalan juga dengan pengalaman yang dialami Van hingga akhirnya mendirikan ELSA. “Saya pindah ke Amerika untuk mengambil gelar MBA. Tahun pertama saya di Stanford sangat menantang karena ketidakmampuan saya untuk berbicara bahasa Inggris dengan lancar. Padahal, saya termasuk berprestasi dalam mata pelajaran bahasa Inggris ketika sekolah di Vietnam.”

ELSA Vu Van
Founder & CEO ELSA Vu Van / ELSA

“Kami percaya bahwa jika seseorang mampu berbicara bahasa Inggris dengan baik, tingkat pendapatan mereka akan naik juga. Kualitas hidup mereka pun menjadi semakin meningkat. Dengan demikian, lebih banyak kesempatan terbuka bagi mereka,” ujar Van.

ELSA juga miliki model bisnis B2B, mereka menawarkan platform terpadu untuk membantu perusahaan, organisasi atau instansi pendidikan memberikan solusi belajar bahasa Inggris bagi karyawan, anggota atau pelajarnya. Dilengkapi juga dasbor analisis hasil pembelajaran yang dapat dipantau pengelola.

Application Information Will Show Up Here

Google Kembangkan Sistem Speech Recognition yang Bisa Bekerja Secara Offline

Fitur speech recognition pada smartphone kita kenal sebagai fitur yang sangat bergantung pada koneksi internet. Itu dikarenakan teknologinya begitu kompleks, melibatkan sejumlah bagian dengan tugasnya masing-masing yang spesifik.

Pertama-tama, ada satu bagian dari sistem yang ‘memecah-mecah’ input audio menjadi satuan suara terkecil alias fonem. Selanjutnya, bagian sistem lain akan menghubungkan fonem demi fonem menjadi kata-kata, sebelum akhirnya frasanya ditebak oleh bagian yang lain lagi.

Itulah mengapa dibutuhkan koneksi internet yang baik agar speech recognition bisa bekerja dengan lancar, sebab smartphone perlu mengirimkan input audionya ke server terlebih dulu untuk diproses. Semua yang melibatkan server tentu tidak luput dari latency alias jeda, namun Google rupanya sudah punya solusi yang menarik.

Recurrent Neural Network Transducer

Ketimbang mengandalkan sistem speech recogntion yang tersimpan di server, Google meracik sistem berbasis AI bernama Recurrent Neural Network Transducer (RNN-T) yang bisa bekerja langsung di perangkat tanpa perlu mengandalkan koneksi internet. Alhasil, input audio dapat diproses secara instan tanpa ada jeda.

Kalau Anda lihat pada gambar GIF di atas, output yang dihasilkan RNN-T muncul per huruf, dan itu menunjukkan tidak adanya latency selama prosesnya berlangsung. Bandingkan dengan sistem speech recognition berbasis server seperti biasa, yang output-nya muncul secara tidak menentu.

RNN-T nantinya bakal hadir di Gboard pada semua ponsel Pixel, tapi seperti biasa, sementara baru bisa digunakan untuk bahasa Inggris saja. Google berharap mereka bisa menerapkan teknik yang sama untuk bahasa-bahasa lain ke depannya.

Sumber: SlashGear.

Bahasa Kita Introduces Automatic Transcription Technology

Bahasa Kita is a startup under UMG Idealab focused on developing voice processing and natural language technology product – known as Natural Language Processing (NLP). They’ve recently introduced new innovation, a technology to transcribe automatically.

Bahasa Kita, using its own NLP technology, has examined the latest innovation to transcribe conversation of the last presidential candidate debate in real-time. They also present data analysis from the transcribed conversation.

Ardhi Ma’arik, Bahasa Kita’s VP Product explained to DailySocial about the transcription process, starts from voice recording, then the voice will be sent directly to Bahasa Kita transcription engine. The machine will process it and produce the text, to be sent back to the recording device in real-time.

“In general, a real-time transcription process is similar to any speech engine, what makes it different is the accuracy, speed, and domain covered,” he added.

Speaking (with voice) is the most natural engine people use to communicate. Voice technology is in the front row to acquire information. When voice becomes text, it’ll be easier to extract information to know the meaning and objective of the speech on the computer.

In addition, we can identify one’s personal information from the voice data. For example, the origin (through dialects), age prediction (without asking), health analysis (from the voice color), and many more.

Bahasa Kita’s strategy in 2019

Aside from launching “minutes of meeting” with ability to transcribe speaker’s voice into text, Bahasa Kita has also released a mobile-based transcription tool this year. Bahasa Kita aims to be the best company in charge of voice detection technology in Indonesia.

“We tried some procedures, such as engine accuracy improvement, Indonesian local language covers, and others. We also want to develop various kinds of voice products and its extensions, for example, smart speaker including the synthesis of text into voice,” he said.


Original article is in Indonesian, translated by Kristin Siagian

Bahasa Kita Luncurkan Teknologi Transkripsi Otomatis

Bahasa Kita merupakan startup binaan UMG Idealab yang fokus pada pengembangan produk teknologi pemrosesan suara dan bahasa alami –biasa disebut Natural Language Processing (NLP). Baru-baru ini mereka kembali menghadirkan inovasi baru yaitu teknologi pembuat transkrip otomatis.

Memanfaatkan teknologi NLP miliknya, Bahasa Kita telah menguji inovasi terbarunya untuk menranskrip percakapan dalam debat calon presiden 2019 beberapa waktu lalu secara real time. Dari transkrip yang didapat, mereka turut menyajikan data analisis dari percakapan tersebut.

Kepada DailySocial VP Product Bahasa Kita Ardhi Ma’arik mengungkapkan, proses transkripsi dimulai dari perekaman ucapan, kemudian suara yang ditangkap akan langsung dikirim ke engine transkrip Bahasa Kita. Engine kemudian akan melakukan pemrosesan yang menghasilkan teks, kemudian dikirimkan kembali ke device perekam secara real time.

“Secara umum, proses transkripsi real time sama saja untuk setiap speech engine, tetapi yang membedakannya yaitu pada akurasi, kecepatan, dan domain yang tercakupi,” kata Ardhi.

Berbicara (menggunakan suara) merupakan alat paling natural yang digunakan kebanyakan manusia untuk berkomunikasi. Teknologi suara menjadi yang terdepan untuk mengakuisisi informasi. Ketika informasi suara diterjemahkan menjadi teks, selanjutnya akan lebih mudah melakukan ekstraksi informasi  untuk mengetahui maksud dan tujuan dari perkataan seseorang di komputer.

Selain itu, dari data suara dapat dilakukan identifikasi mengenai informasi personal seseorang. Mulai asal seseorang (melalui dialeknya), perkiraan umur seseorang tanpa bertanya, menganalisa kesehatan seseorang dari warna suaranya, dan sebagainya.

Rencana Bahasa Kita di tahun 2019

Selain meluncurkan “notula rapat” yang memiliki kemampuan untuk mengubah suara dari pembicara menjadi tulisan, tahun ini Bahasa Kita juga telah merilis alat transkripsi berbasis mobile. Bahasa Kita juga masih memiliki target menjadi perusahaan terbaik untuk teknologi pendeteksi suara di Indonesia.

“Beberapa cara yang kami coba lakukan yaitu peningkatan akurasi engine, meng-cover bahasa-bahasa daerah di Indonesia dan sebagainya. Kami juga ingin melakukan pengembangan berbagai macam produk suara dan turunannya contohnya, smart speaker termasuk sintesis teks menjadi suara,” tutup Ardhi.

Google Ciptakan AI yang Dapat Menciptakan AI Lain dengan Sendirinya

Artificial intelligence alias AI mendapat porsi pembicaraan yang cukup besar dalam event Google I/O tahun ini, dan Google pada dasarnya ingin mengimplementasikan AI di mana saja – bahkan di luar platform-nya sendiri. Namun mengembangkan AI dengan kemampuan deep learning tentunya tidak mudah dan memakan waktu. Untuk itu, perlu dilakukan otomasi.

Atas alasan itulah Google menggarap proyek bernama AutoML. Dari kacamata sederhana, AutoML adalah AI yang dapat menciptakan AI lain dengan sendirinya. “AI inception“, demikian gurauan tim internal Google, merujuk pada film Inception karya Christopher Nolan.

Google sejatinya merancang AutoML untuk mengotomasi proses pembuatan neural network. Komponen ini merupakan bagian penting dalam penerapan teknologi deep learning, dimana prosesnya melibatkan data yang diteruskan melalui lapisan demi lapisan neural network.

Semakin banyak neural network, semakin bagus pula kinerja AI, kira-kira demikian pemahaman kasarnya. Kehadiran AutoML pun akan sangat meringankan beban para engineer Google dalam mengembangkan neural network yang bisa dianggap sebagai tulang punggung AI.

Sejauh ini Google sudah memanfaatkan AutoML untuk meracik neural network yang dibutuhkan dalam penerapan teknologi pengenal gambar maupun suara. Menurut pengakuan Google sendiri, AutoML bisa mengimbangi kinerja tim internal Google untuk bidang pengenalan gambar, sedangkan untuk bidang pengenalan suara kinerja AutoML bahkan melampaui para engineer tersebut.

Lalu apa manfaat yang bisa kita ambil dari AutoML sebagai konsumen? Banyak. Yang paling utama tentu saja adalah penyempurnaan teknologi pengenal gambar dan suara. Software macam Google Photos misalnya, dapat mengenali wajah maupun objek dalam foto secara lebih akurat, sedangkan perangkat seperti Google Home juga bisa mendeteksi perintah suara pengguna dengan lebih baik lagi.

Sumber: Futurism.

BahasaKita Ingin Membangun Sistem Pemrosesan Suara Terbaik di Dunia untuk Bahasa Indonesia

Informasi yang terkandung dalam sebuah suara sebenarnya sangat kaya, namun hingga saat ini masih belum pihak yang menyadari potensinya. Peluang ini yang coba digali oleh BahasaKita, perusahaan yang fokus pada pengembangan produk berbasis teknologi dan informasi khususnya pemrosesan suara dan bahasa alami. Visinya adalah untuk dapat membangun sistem pemrosesan suara terbaik di dunia, terutama untuk Bahasa Indonesia terlebih dahulu.

BahasaKita beroperasi di bawah payung PT Bahasa Kinerja Utama yang resmi berdiri sejak pertengahan tahun 2015 silam. Oskar Riandi yang saat ini memangku jabatan sebagai Direktur adalah orang yang paling berperan dari lahirnya layanan BahasaKita ini. Selain Oskar, masih ada dua orang rekannya lagi yang turut membantu dari sisi finansial sebagai angel investor.

Meski baru berdiri secara resmi sebagai perusahaan pada pertengan tahun 2015 silam, tetapi proses pengembangan sistem pengenalan suara dari BahasaKita sebenarnya punya riwayat yang jauh lebih panjang. Dimulai dari ketika Oskar menempuh pendidikan di Jepang, hingga dia memutuskan untuk mundur dari kariernya di BPPT pada tahun 2013 untuk terjun sepenuhnya ke dunia industri. Sistem awal dari BahasaKita sendiri sudah pernah digunakan untuk membantu para disabilitas untuk mengoperasikan komputer.

BahasaKita dan layanan yang dikembangkan

BahasaKita ini adalah perusahaan yang fokus pada pengembangan produk-produk teknologi pemrosesan suara dan pemrosesan bahasa alami. Contohnya merubah suara menjadi teks atau sebaliknya, mesin terjemahan seperti Google Translate, dan kami memang punya tujuan akhir agar bisa speech to speech translation, jadi multi bahasa. Jika kita berbicara bahasa Indonesia, yang keluar adalah bahasa Inggris, [sebaliknya juga] sehingga mengurangi kendala berkomunikasi antar bangsa,” jelas Oskar ketika ditemui di sela-sela acara Konferensi Big Data awal Desember 2016 silam.

Pengembangan layanan BahasaKita sendiri juga didasari pada idealisme dan nasionalisme dalam penguasaan teknologi untuk Bahasa Indonesia sebagai jati diri dan aset bangsa. Penguasaan teknologi ini dapat melahirkan kemandirian terhadap pemenuhan kebutuhan teknologi lainnya sekaligus meningkatkan daya saing bangsa terhadap produk-produk asing.

Bicara mengenai produk, Oskar juga menjelaskan bahwa saat ini sudah ada beberapa produk yang dikembangkan dan dibuat oleh BahasaKita. Di antaranya adalah Notula Rapat, Notula Keyboard, KuTulis, EduGame, MoNik (Monitor Iklan), PoLIS (Proof of Life Information System), dan Rekam Medik Elektronik. Namun, yang baru benar-benar melucur  ke pasar dan digunakan oleh berbagai instansi pemerintah atau perusahaan adalah Notula Rapat.

Sederhananya, Notula Rapat ini memiliki kemampuan untuk mengubah suara dari pembicara menjadi tulisan. Tingkat keakuratan dan kecepatan terjemahannya pun terbilang sangat tinggi karena database kata yang tersimpan dalam sistem BahasaKita saat ini, menurut Oskar, sudah lebih dari 300 ribu kata.

Selain suara yang bersumber dari pembicaraan secara langsung, Notula Rapat juga dapat mengubah rekaman suara pembicaraan dalam berkas elektronik (file WAV) 16 kHz & 16 bit. Terjemahan dari suara tersebut pun nantinya bisa langsung dikoreksi secara real-time dan disimpan dalam bentuk paragraf atau sekedar teks untuk pengubahan lebih lanjut.

Menariknya lagi, Oskar juga mengklaim bahwa sistem pengenalan suaranya ini dapat membedakan sumber suara dari pembicara, baik itu orang yang satu dengan yang lainnya atupun secara jenis kelamin.

Model bisnis, kendala yang dihadapi, dan visi yang ingin dicapai

Direktur BahasaKita Oskar Riandi / DailySocial
Direktur BahasaKita Oskar Riandi / DailySocial

Oskar menjelaskan bahwa saat ini pihaknya memasarkan produk yang dibuatnya dengan model penjualan lisensi, ­on-premise system. Setelah membeli produk, pada dasarnya klien sudah memiliki produk tersebut untuk seumur hidup, tetapi ada dukungan teknis per tahun yang nantinya dapat diperpanjang. Model lainnya adalah melalui open API yang nantinya bisa dimanfaatkan oleh developers lainnya untuk mengembangkan aplikasi lain.

Oskar mengatakan, “Untuk Notula Rapat ini, [yang dijual] bentuknya sistem, ada hardware dan software, dan juga ada maintenance untuk adaptation. Jadi, [bisa] menyesuaikan dengan kondisi pengguna karena kami tidak tahu pengguna ini nanti ruangannya seperti apa. […] Bising, bergema, dan sebagainya.”

“Kami ada kemaampuan untuk adaptasi dengan ruangan pengguna. Sehingga sistem kami tidak hanya sekali jual dan selesai. […] Ini perpetual license kemudian ada dukungan teknis satu tahun. […] Lisensinya berlaku seumur hidup, technical support-nya bisa diperpanjang,” lanjut Oskar.

Dalam pengembangannya, Oskar juga mengungkapan bahwa sebenarnya ada kendala yang saat ini dia hadapi yang datang dari sisi infrastruktur. Hal ini yang membuat produk seperti KuTulis dan juga Notula Keyboard yang dikembangkan tidak bisa lepas landas dengan mulus.

Oskar menjelaskan, “Ada kendala infrastruktur yang membuat kami belum bisa menaruh [layanan] di cloud karena pemrosesan ini memerlukan infrastruktur komputasional yang sangat tinggi dan powerful. Kenapa saya baru tahu, Anda bisa lihat yang [saat ini] bermain di speech recognition itu perusahaan raksasa semua seperti Google, IBM, Microsoft, Nuance, dan lainnya karena cost untuk membuat sistem ini bisa on-cloud itu sangat besar sekali.”

Meski demikian, Oskar juga terus melakukan riset terhadap pengembangan layanan agar bisa sistem tetap berjalan dan tidak ke cloud. Pihaknya pun berupaya untuk menaruh data secara offline di smartphone. Selain itu, Oskar juga masih bermimpi untuk bisa mengembangkan sistem BahasaKita menjadi salah satu yang terbaik di dunia, setidaknya untuk Bahasa Indonesia dahulu.

“Untuk bisa meningkatan performance kami butuh data yang lebih besar ke depannya. […] Visi kami ke depan adalah untuk terus meningkatkan performance sistem ini agar bisa menjadi yang terbaik di dunia, khusus untuk Bahasa Indonesia dahulu. Tentu kami juga terbuka untuk kolaborasi dengan berbagai pihak. Dari sisi kami bisa menyiapkan data [kata –kata dari terjemahan suara] untuk analytics-nya [big data],” tandas Oskar.