Mã số N1090: Sản phẩm loa thông minh Maika - Giải pháp ứng dụng công nghệ giọng nói thuần Việt made in Vietnam
I. TẦM NHÌN – SỨ MỆNH “PHỤC VỤ NGƯỜI VIỆT BẰNG SẢN PHẨM CÔNG NGHỆ MANG TRÍ TUỆ VIỆT”:
1. Tầm nhìn:
Năm 2016, khi làn sóng ứng dụng Trí Tuệ Nhân Tạo (AI) đang được nghiên cứu và ứng dụng vào các sản phẩm tiên tiến trên thế giới, chúng tôi thành lập Công ty Cổ phần Công nghệ OLLI (OLLI) với khát vọng ghi dấu sản phẩm mang công nghệ AI “made in Vietnam” lên bản đồ công nghệ thế giới. Nhận ra việc ứng dụng AI với công nghệ máy học sâu (deep machine learning), dữ liệu lớn (big data), nền tảng đám mây (cloud services) và việc phân tích hành vi người dùng (user data analytics) vào các sản phẩm IoT là vùng đất hoang sơ và đầy tiềm năng, tầm nhìn 10 năm đầu tiên (2016-2025) của chúng tôi là xây dựng OLLI trở thành start up tiên phong và hàng đầu tại Việt Nam về lĩnh vực AI, tạo ra những sản phẩm ý nghĩa giúp mọi người Việt thật sự tiếp cận công nghệ dễ dàng và thân thiện hơn.
2. Sứ mệnh:
OLLI hướng đến hệ sinh thái các thiết bị thông minh trên nền tảng trợ lý ảo có khả năng tương tác bằng tiếng Việt (tên gọi là Maika). Chúng tôi kết hợp công nghệ học sâu và các chuyên gia ngôn ngữ học để phát triển trợ lý ảo phù hợp nhất với lối sống, văn hóa và thói quen của người Việt Nam.
Hệ sinh thái của OLLI còn bao gồm nền tảng IoT kết nối với các nhà sản xuất thiết bị điện và điều khiển thông minh hàng đầu đất nước (Điện Quang); cung cấp nội dung, cho phép các đối tác uy tín cung cấp nội dung có chọn lọc (sách nói First News, tin tức Tuổi Trẻ, nhà đài VOH …); tích hợp các ứng dụng hàng ngày (The Coffee House, Tiki, Now, Grab…) cho phép thực hiện đa tính năng, đa dịch vụ ngay trên sản phẩm trợ lý ảo thông minh.
Trong những năm tới, chúng tôi mong muốn đưa các thành tựu của cách mạng công nghiệp 4.0 vào từng ngóc ngách xã hội, vào từng gia đình Việt, gần gũi, thân thiện và dễ sử dụng với người Việt; mọi người Việt Nam có thể được sử dụng những sản phẩm có trí thông minh nhân tạo do người Việt làm ra để phục vụ cho cuộc sống hàng ngày.
3. Đội Ngũ & Việc Thực Thi:
Sau 06 năm thành lập, OLLI tự hào khi đã xây dựng được đội ngũ hơn 80 kỹ sư và chuyên gia trẻ, tâm huyết và tài năng.
Chúng tôi bắt đầu với sản phẩm đầu tiên là Loa thông minh. Chúng tôi đã chủ động kiến tạo ra Loa thông minh qua đầy đủ các công đoạn như thiết kế kiểu dáng công nghiệp, cơ khí, thiết kế bo mạch điện tử và lập trình phần mềm nhúng cho sản phẩm.
Về Trợ lý ảo Maika, chúng tôi cũng chủ trương tự xây dựng một nền tảng trợ lý ảo được thiết kế chuyên biệt cho người Việt Nam. Chúng tôi đầu tư nghiên cứu 3 công nghệ cốt lõi về AI bao gồm Nhận dạng tiếng nói, Xử lý ngôn ngữ tự nhiên và Tổng hợp tiếng nói.
II. MÔ TẢ CÔNG NĂNG SẢN PHẨM:
1. Nguyên lý hoạt động cơ bản:
Loa thông minh thuần Việt OLLI Maika được vận hành trên nền tảng trợ lý giọng nói dùng ngôn ngữ tiếng Việt: nghiên cứu xây dựng theo nhu cầu và cung cấp nội dung phù hợp với văn hóa Việt Nam.
• Để "nói” với thiết bị, bạn chỉ gọi “Maika ơi”. Sau khi nghe Maika phản hồi “dạ …”, bạn có thể yêu cầu thiết bị thực hiện điều mình cần.
• Tiếng nói của người dùng sẽ được gởi đến hệ thống máy chủ của nền tảng Maika thông qua mạng Internet.
• Hệ thống trợ lý Maika sẽ xử lý (chuyển tiếng nói thành văn bản, phân tích văn bản, truy xuất thông tin trong cơ sở dữ liệu, v.v.) và tạo ra câu trả lời.
• Câu trả lời sẽ được máy chủ gởi về cho loa.
• Loa phát ra câu trả lời hay thực hiện chức năng (ví dụ: điều khiển thiết bị IoT)
OLLI Maika sẽ giúp mọi người tìm kiếm thông tin dễ hơn, nhắc nhở, gọi điện cho người thân, nghe nhạc, nghe sách đọc, thông qua việc giao tiếp với thiết bị bằng tiếng Việt.
2. Danh sách công năng:
3. Khả năng mở rộng:
Với sự làm chủ hoàn toàn về công nghệ và khả năng tùy biến cao, OLLI có thể nâng cấp và mở rộng phạm vi ứng dụng của trợ lý thông minh Maika trên nhiều thiết bị và hình dạng sản phẩm khác nhau. OLLI Maika đã kết nối với hơn 30 công ty nhà thông minh (Điện Quang, Lumi, Viettel, Rạng Đông, Tuya…), tương lai gần OLLI sẽ kết hợp điện thoại, xe hơi, thiết bị POS, trải nghiệm Lưu trú (hospitality) nhằm tích hợp điều khiển ngay trên loa hoặc trên app OLLI.
Giao diện giọng nói là một bước đột phá trong số các ứng dụng của AI vào cuộc sống hàng ngày. Bất kỳ ai cũng có thể truy cập và sử dụng những tiện ích mà công nghệ này đem lại. Những người lớn tuổi, những người suy giảm thị lực, trẻ em chưa biết đọc hay biết viết đều có thể ra lệnh cho thiết bị thực hiện yêu cầu của mình chỉ thông qua những câu nói đơn giản. Trong lộ trình phát triển sản phẩm, OLLI có thể tích hợp dịch vụ / ứng dụng gia tăng (như Grab, TheCoffeeHouse, Tiki, Baemin, …) cho phép thực hiện đa tính năng, đa dịch vụ dễ dàng hơn. Ngoài ra, ở trường học hay ở nhà, trẻ em còn có thể học (tiếng Anh), chơi đố vui, hoặc sử dụng OLLI Maika như sản phẩm trợ giúp giáo dục.
Về lâu dài, OLLI mong muốn góp phần vào công cuộc phát triển đề án đô thị thông minh nói riêng và chiến lược phát triển nền công nghệ Việt Nam nói chung trong những năm tới.
III. HIỆU QUẢ KINH TẾ & XÃ HỘI CỦA OLLI MAIKA:
1. Phục vụ cộng đồng người Việt và doanh nghiệp :
Thị trường trực tiếp của OLLI (các sản phẩm trong hệ sinh thái) nhắm vào thị trường Việt Nam với 97 triệu dân (đứng thứ 15 trên thế giới). Ngoài ra, OLLI còn hướng đến thị trường 5 triệu kiều bào người Việt sinh sống tại các quốc gia trên thế giới, đặc biệt là ở Mỹ và Châu Âu.
Đối với thị trường doanh nghiệp, với khả năng tùy biến cao, loa thông minh với trợ lý OLLI Maika có khả năng tích hợp hoặc kết nối với các sản phẩm, dịch vụ và hệ sinh thái sản phẩm khác trên thị trường.
• Ứng dụng cho nhà thông minh và sản phẩm thông minh: điều khiển các thiết bị nhà thông minh dễ dàng bằng giọng nói.
• Ứng dụng cho hệ thống bán lẻ siêu thị: liên kết giữa trợ lý ảo Maika và hệ thống bán hàng để người dùng có thể tra cứu giá, được hỗ trợ và mua hàng nhanh chóng.
• Giá trị cho trường học: trợ lý ảo Maika có thể được dùng làm công cụ hỗ trợ học tập, tại nhà và trong lớp học, giúp cho các bé, các em học sinh hỏi đáp, truy vấn kiến thức, nghe lại bài giảng từ sách và giáo trình, tương tác với thầy cô.
• Giá trị cho ngành khách sạn du lịch: loa thông minh đặt trong phòng có thể giúp trả lời các thông tin căn bản cho khách du lịch như địa điểm ăn uống, yêu cầu dịch vụ phòng, gọi xe … tạo ra một trải nghiệm được phục vụ tức thì cho khách hàng.
2. Ưu điểm nổi trội:
a. Khả năng làm chủ hoàn toàn công nghệ (vertical integration)
Việc làm chủ hoàn toàn về công nghệ và khả năng liên kết toàn phần (phần cứng, phần mềm, trí tuệ nhân tạo, hệ thống dữ liệu, kho nội dung) là thế mạnh của OLLI đảm bảo khả năng chủ động cải tiến, nhanh chóng phát triển và mở rộng dòng sản phẩm phù hợp với thị trường và người tiêu dùng Việt Nam.
b. So với các sản phẩm trong nước
Đối với các sản phẩm loa thông minh đang thuộc sở hữu của doanh nghiệp Việt Nam, hiện nay có một số loa (như Milo, Javis, …) được thiết kế chuyên dùng để điều khiển nhà thông minh cùng hệ thống. So với sản phẩm này, loa thông minh OLLI - Maika có tính ứng dụng vượt trội hơn cả về tính năng và nội dung cho người dùng, vừa có thể là một sản phẩm độc lập, vừa có thể trở thành trung tâm điều khiển kết nối với các thiết bị thông minh trong nhà thông qua thiết bị hỗ trợ (không cần trang bị theo hệ thống), mang lại sự tiện ích và tiết kiệm cho người dùng.
Hơn nữa, hiện nay chưa có sản phẩm loa thông minh nào được sản xuất tại Việt Nam. Loa thông minh OLLI Maika là sản phẩm loa thông minh đầu tiên được sản xuất tại Việt Nam, sáng tạo và phát triển hoàn toàn bởi người Việt Nam.
c. So với các sản phẩm nước ngoài
Thị trường quốc tế đã có khá nhiều sản phẩm tương tự như Google Home (tích hợp trợ lý ảo Google Assistant), Amazon Echo (trợ lý ảo Alexa), Baidu Xiaodu (trợ lý ảo Tiểu Độ), Xiaomi Tiểu Ái, v.v. So với các sản phẩm trên, loa thông minh OLLI Maika có những khác biệt và ưu thế cạnh tranh sau:
Trợ lý ảo thuần Việt: trong số các sản phẩm trên hiện chỉ có Google Assistant phát triển ngôn ngữ Tiếng Việt nhưng khả năng nhận diện giọng nói còn nhiều hạn chế và không thân thiện với người Việt.
Chế độ bảo hành chính hãng: trong khi các sản phẩm quốc tế kể trên hiện chưa được phân phối và bảo hành chính hãng tại Việt Nam, việc OLLI làm chủ toàn bộ công nghệ và quy trình sản xuất sản phẩm là nền tảng vững chắc cho việc kiểm soát chất lượng sản phẩm, quy trình phân phối, hỗ trợ kỹ thuật, chế độ bảo hành và dịch vụ chăm sóc khách hàng nhằm đảm bảo tối đa quyền lợi người tiêu dùng.
Tính năng đa dạng & Nội dung phong phú dành cho người Việt: hơn việc cung cấp tính năng, OLLI Maika còn khác biệt với toàn bộ các thiết bị tương tự với sự hợp tác của nhiều đối tác cung cấp nội dung uy tín, an toàn và có chất lượng tốt nhất hiện tại (NCT - NhacCuaTui, First News, VoizFM, … ). Các tính năng tính hợp sẽ được ưu tiên phát triển đặc thù dành cho thị trường Việt Nam.
Thiết kế an toàn với trẻ em: Ba Mẹ hoàn toàn yên tâm vì trợ lý thông minh Maika luôn giữ chuẩn mực giao tiếp, luôn “dạ, thưa" tạo cho bé có thói quen với tính giáo dục cao khi sử dụng sản phẩm. Nội dung dành cho trẻ em (kho tàng truyện đêm khuya, chuyện kể mẫu giáo) luôn được kiểm tra, lựa chọn, sàng lọc xây dựng phù hợp với văn hóa Việt, góp phần gìn giữ phẩm chất tốt cho con trẻ.
V. MÔ TẢ KỸ THUẬT & CÁC CÔNG NGHỆ PHÁT TRIỂN
1.3. công nghệ lõi về AI:
OLLI tự phát triển nền tảng 3 công nghệ AI cốt lõi bao gồm:
(a) Nhận dạng tiếng nói;
(b) Hiểu ngôn ngữ;
(c) Tổng hợp tiếng nói.
3 công nghệ lõi trên đều tập trung 100% cho tiếng Việt.
a. Nhận dạng tiếng nói (ASR):
OLLI nghiên cứu, áp dụng các công nghệ mới của Học sâu (Deep learning) và Phân tích tín hiệu để phát triển hệ thống ASR có khả năng nhận dạng tiếng Việt theo đặc tính vùng miền, có độ chính xác từ khoảng cách xa và trong môi trường có nhiễu.
Tập dữ liệu huấn luyện sẽ bao gồm hai thành phần, phần thu âm giọng nói và nội dung văn bản tương ứng với audio đó, (audio, text). Các mẫu được thiết kế theo từng câu ngắn, thường dưới 20 từ và audio tương ứng với nó sẽ có độ dài trung bình dưới 10s.
Số lượng mẫu training: 2,573,669 mẫu
Số lượng mẫu testing: 22,001 mẫu
Để không ngừng nâng cấp và cải thiện chất lượng của hệ thống, hiện công ty vẫn luôn tiến hành xây dựng thêm một lượng lớn dữ liệu.
Nguồn thu thập:
- Số lượng mẫu câu thu được từ giọng nói người dùng Loa
- Số lượng mẫu câu do đội ngũ Data của OLLI thu lượm bằng cách chạy campaigns tại các trường Đại Học 2019-hiện tại
b. Hiểu ngôn ngữ tiếng Việt (NLP)
OLLI nghiên cứu và phát triển công nghệ phân tích ngữ nghĩa và xử lý tiếng Việt nhằm cung cấp cho thiết bị khả năng hiểu được những gì mà người dùng yêu cầu. Việc xử lý câu yêu cầu qua hai công đoạn chính bao gồm xác định ý định và trích xuất thông tin. Công đoạn đầu tiên cho biết người dùng định sử dụng chức năng nào của sản phẩm, còn công đoạn thứ hai sẽ trích xuất những thông tin, số liệu cần thiết để đáp ứng yêu cầu của người dùng.
Về cấu trúc của hệ thống NLU được chia thành cấu trúc sau:
Do đó tương ứng với mỗi module khác nhau sẽ có các dữ liệu huấn luyện và kiểm thử khác nhau. Tổng quan được thể hiện với bảng dưới.
c. Tổng hợp tiếng nói (TTS)
OLLI đã xây dựng thành công một hệ thống tổng hợp tiếng nói có khả năng tạo ra giọng nói tự nhiên khá tự nhiên và mạch lạc.
Dữ liệu huấn luyện mô hình Text-to-Speech bao gồm hai tập là:
OLLI-SPEECH-1.6: bao gồm 26185 mẫu dữ liệu ứng với 50 giờ thu âm của một giọng nữ miền Nam.
OLLI-SPEECH-NORTHERN: bao gồm 20486 mẫu dữ liệu ứng với 40 giờ thu âm của một giọng nữ miền Bắc.
Cây thư mục của hai tập dữ liệu:
OLLI-SPEECH-1.6/
metadata_phoneme.csv
wavs/
OLLI-SPEECH-NORTHERN/
metadata_phoneme.csv
wavs/
Dữ liệu trong tập tin metadata_phoneme.csv có cấu trúc gồm 3 cột:
Cột 1: Tên tập tin âm thanh
Cột 2: Nội dung của câu nói
Cột 3: Chuỗi âm vị phân tích từ nội dung của câu nói
Thư mục wavs chứa các tập tin thu âm, được đặt tên tương ứng với Cột 1 trong tập tin metadata_phoneme.csv. Thuộc tính của tập tin âm thanh gồm:
Định dạng: WAV
Channels: Mono
Sample rate: 22050 Hz
Dữ liệu huấn luyện được phân chia theo tỷ lệ 95% cho tập train và 5% cho tập test. Dữ liệu để đánh giá chất lượng tiếng nói dựa trên độ đo Mean Opinion Score và Dynamic Time Warping bao gồm 250 câu được lấy ngẫu nhiên từ tập dữ liệu và không có trong tập huấn luyện.
Nội dung của các câu trong tập dữ liệu được thu thập từ các trang báo điện tử trong nước như: VnExpress, Tuổi Trẻ, Thanh Niên, Nhân Dân, Sài Gòn Giải Phóng, vv…
Nội dung của các câu có cả những từ tiếng nước ngoài, kí hiệu, viết tắt, tên riêng và mỗi câu có độ dài từ 5 đến 60 chữ tương ứng với thời gian của tập tin âm thanh từ 1,5 giây đến 14,5 giây.
Biểu đồ thống kê số lượng chữ trong câu của tập dữ liệu OLLI-SPEECH-1.6.
Biểu đồ thống kê số lượng chữ trong câu của tập dữ liệu OLLI-SPEECH-NORTHERN.
Hệ thống Text-to-Speech được xây dựng dựa trên các mô hình Deep Learning được nghiên cứu gần đây nhất và liên tục cập nhật từ những nghiên cứu mới. Trong một hệ thống Text-to-Speech có nhiều bài toán khác nhau nên cần phải có nhiều mô hình học máy được sử dụng. Mỗi phương pháp đều có những ưu, nhược điểm khác nhau tùy vào mục tiêu bài toán muốn hướng đến để chọn ra phương pháp phù hợp nhất.
Cụ thể, các mô hình được sử dụng để suy diễn những đặc trưng âm học (Acoustic feature) từ văn bản gồm có:
- Mô hình Sequence-to-Sequence with Attention.
- Mô hình Transformer.
- Mô hình Deep Convolution Neural Network.
Các phương pháp học máy gồm có Transfer Learning, Zero-Shot Learning, Meta-Learning
Các mô hình tái tạo giọng nói từ các đặc trưng âm học gồm có:
- Autoregressive model
- Variational Autoencoder
- Flow-based model
- Generative Adversarial Networks
- Diffusion model
Các bài toán mà hệ thống TTS của chúng tôi đã giải quyết gồm có:
- Tổng hợp tiếng nói dựa trên kiến trúc âm tiết tiếng Việt: mô hình có thể sinh ra tiếng nói có chất lượng tốt hơn, phát âm chuẩn các giọng vùng miền cũng như cải thiện chất lượng đọc các từ tiếng Anh có trong văn bản.
- Tổng hợp tiếng nói từ nhiều giọng nói khác nhau.
- Sinh ra giọng nói mới với rất ít dữ liệu huấn luyện.
- Tái tạo giọng nói có giọng điệu nhấn nhá dựa trên nội dung văn bản.
Chúng tôi sử dụng những mô hình trên trong bài toán tổng hợp tiếng nói tiếng Việt do:
- Những mô hình trên đạt được kết quả tốt nhất trong các nghiên cứu quốc tế.
- Giọng nói sinh ra đạt được chất lượng cao đối với tiếng Việt dựa trên các độ đo định tính và định lượng.
- Giọng nói sinh ra có độ tự nhiên cao đáp ứng được các nhu cầu của người dùng và được người dùng đón nhận một cách tích cực.
- Chúng cho phép tích hợp những đặc trưng ngôn ngữ của tiếng Việt để nâng cao chất lượng giọng nói sinh ra.
- Khả thi trên tập dữ liệu hiện có của công ty.
- Tái tạo giọng nói với tốc độ thời gian thực đảm bảo khả năng thực thi trên môi trường thương mại.
2. Nền tảng điện toán đám mây phức hợp:
Nền tảng Trợ lý ảo Maika được xử lý và lưu trữ trên nền điện toán đám mây do OLLI tự xây dựng từ đầu trong suốt 4 năm qua. Đó là hệ thống khá phức tạp, được tổ chức theo mô hình microservices, tích hợp và triển khai liên tục dùng containers được điều phối bởi hệ thống quản trị Kubernetes. Hiện tại chúng tôi có 78 services đang chạy đồng thời để vận hành hệ thống Trợ Lý Ảo MAIKA, và hệ thống này vẫn đang tiếp tục được nâng cấp hàng tuần về quy mô và chất lượng quản trị hệ thống.
3. Danh mục linh kiện, phụ kiện cho Loa:
a. Phần vỏ loa: được cấu thành từ 7 chi tiết bằng nhựa PC lắp lại với nhau:
- Vỏ hộp chính
- Thân trên
- Đế chống trượt
- Vỏ bọc
- Chi tiết nối
- Vòng dẫn sáng
- Vòng tản sáng
b. Củ loa:
- Loa toàn dải 4Ω 15W
c. Màng rung thụ động
- 2 màng rung (passive radiator)
- Công dụng: làm cho âm thanh trầm ấm, chân thực hơn
d. Lớp đệm
- Số lượng: 1
- Công nghệ: Eva foam, chuyên làm kín (seal) các hộp cộng hưởng
e. Chất liệu
- Nhựa PC, vải bọc polyester, cao su
- Vải bọc chuyên dụng, ống tròn, không nối
- Công nghệ dệt tiên tiến
f. Các board mạch xử lý: Sẽ được mô tả chi tiết phía dưới
g. Bộ cấp nguồn (Adaptor)
4. Kích thước
a. Chiều cao: 191.5 mm
b. Đường kính: 96 mm
5. Thông số cấu hình
Để thực thi các chức năng, sản phẩm sử dụng 3 board mạch, cụ thể như sau:
a. Mic board
- Sử dụng hệ thống 4 microphone đa hướng
- Thực thi các thuật toán Beamforming và Echo Cancellation xử lý audio nhằm nâng cao chất lượng âm thanh
- Các chức năng chính: tăng cường âm thanh, khử tiếng vang và khử nhiễu
b. Main board
- CPU: ARM Dual-core Cortex A53 1.0 GHz với 4600 DMPS
- SDRAM: 256MB
- NAND Flash: 512MB
- Wi-Fi 802.11a/b/g/n/ac (2.4 GHz/5 GHz) và Bluetooth® 5.0
c. Power board
- Bộ nguồn đầu vào: 100-240VAC, 50/60Hz
- Nguồn đầu ra: 12VDC - 2A
- Dùng chip TPA 3118 để khuếch đại tín hiệu ngõ ra
6. Các lưu ý và cảnh báo:
Sản phẩm cần được cấp nguồn điện liên tục và ổn định
Sản phẩm cần được kết nối internet liên tục và ổn định
Sử dụng trong môi trường khô ráo, thông thoáng
Sử dụng ứng dụng di động Maika hỗ trợ Android 7.0 & iOS 11.0 và phiên bản mới hơn
7. Chứng nhận hợp quy:
IV. HÌNH VẼ MINH HỌA:
Hơn 20 Bài Nghiên Cứu và Publications trong nước Quốc tế của OLLI
Thông tin
Tên công ty: CÔNG TY CỔ PHẦN CÔNG NGHỆ OLLI
Đơn vị đồng hành
Đơn vị bảo trợ truyền thông