Phát triển AI để hỗ trợ đọc ngôn ngữ cổ


25 thế kỷ trước, mọi “tư liệu giấy tờ” của triều đình Achaemenid tại Đế quốc Ba Tư đều được ghi lại trên các tấm đất sét – và hàng vạn tấm trong số đó đã được các nhà khảo cổ học tại Viện Phương Đông thuộc Đại học Chicago – Hoa Kỳ, phát hiện nguyên vẹn vào năm 1933. Qua nhiều thập kỷ, các nhà nghiên cứu đã bỏ ra nhiều công sức để tìm hiểu và phiên dịch nội dung từng văn bản cổ này. Tuy vậy, quá trình phiên dịch thủ công thường rất khó khăn, kéo dài và thường dễ mắc lỗi.

Cylinder_Seal,_Achaemenid,_modern_impression_05.jpg

Kể từ thập niên 1990, công việc của các nhà khoa học đã có thêm sự hỗ trợ của máy tính – dù không nhiều thành công, một phần bởi vì tính chất ba chiều của văn bản trên đất sét và sự phức tạp của hệ thống chữ hình nêm. Nhưng mới đây, một đột phá công nghệ của ĐH Chicago có thể cuối cùng tạo chìa khóa mở ra khả năng phiên dịch tự động các văn bản này, cũng như cho phép các nhà khoa học có thể rảnh tay thực hiện các phân tích sâu hơn. Qua đó, giúp chúng ta hé mở thêm nhiều thông tin về lịch sử, xã hội và ngôn ngữ thời Achaemenid.

Dự án DeepScribe được thành lập vào năm 2019 với sự cộng tác giữa các chuyên gia của Viện Phương Đông (OI) và Khoa Khoa học Máy tính và nhận được tài trợ từ Trung tâm Dữ liệu và Tin học – ĐH Chicago (CDAC). Khởi đầu với bộ dữ liệu gồm 6000 hình ảnh từ Kho lưu trữ thành cổ Persepolis dùng để “huấn luyện” cho AI, dự án sẽ xây dựng một mô hình học máy có thể “đọc” các tấm đất sét trong bộ sưu tập, và có thể sẽ cho ra đời một công cụ cho phép các nhà khảo cổ học ứng dụng với các loại ngôn ngữ cổ khác.

“Nếu chúng ta có thể xây dựng được một công cụ vừa linh hoạt vừa có thể ứng dụng rộng rãi cho các hình thức chữ viết và thời đại khác nhau, đó sẽ trở thành bước ngoặt lớn trong giới nghiên cứu,” PGS. Susanne Paulus, chuyên gia Assyria học tại ĐH Chicago, nói.

Dự án DeepScribe được thai nghén khi Paulus, Sandra Schloen và Miller Prosser từ OI có cuộc gặp gỡ với phó giáo sư Sanjay Krishnan trong một sự kiện về nghiên cứu nhân văn số. Schloen và Prosser có vai trò quản lý OCHRE, một cơ sở dữ liệu trực tuyến của Viện tập hợp và sắp xếp tư liệu của các cuộc khai quật khảo cổ và các hoạt động nghiên cứu khác. Trong khi đó, Krishman nghiên cứu ứng dụng kỹ thuật AI và học sâu vào phân tích các hình thức dữ liệu phức tạp. Sự tương hợp giữa hai phía sau đó đã dọn đường cho khả năng hợp tác.

vnn-imgs-f-vgcloud-vn_dan-nhan-du-lieu-tao-viec-lam-moi-cho-nguoi-khiem-thi-va-gop-suc-day-lui-dich-covid-19-3.jpg

“Rất thú vị khi nhìn từ điểm nhìn thị giác máy tính (computer vision) vì đây là những thách thức mà tất cả chúng tôi cùng đối mặt. Ngành thị giác máy tính trong 5 năm qua đã tiến bộ vượt bậc; mà nếu 10 năm trước thôi chúng tôi sẽ không thể đạt được bước tiến như bây giờ.” PGS. TS Krishnan nói, “Đây là một vấn đề học máy rất hay, vì khi lấy chính xác làm mục tiêu, chúng tôi hưởng lợi từ việc có một bộ mẫu có hệ thống để luyện tập và có hiểu biết rất kỹ càng về [đối tượng nghiên cứu] là văn tự [hình nêm]. Vậy nên đây không phải là vấn đề chưa từng được biết đến.”

Bộ dữ liệu được dùng để huấn luyện cho AI được lấy từ kết quả nghiên cứu suốt 80 năm của các nhà khoa học Viện và ĐH Chicago, cũng như dự án gần đây nhằm số hóa bộ sưu tập văn bản đất sét bằng ảnh chụp có độ phân giải cao – với khối lượng hiện đã lên đến 60 terabyte và vẫn tiếp tục mở rộng – trước khi chúng được trả về Iran. Tận dụng bộ sưu tập này, các nhà khoa học đã biên soạn một từ điển tiếng Elamite viết trên các tấm sét, cũng như cho sinh viên hỗ trợ xây dựng một bộ dữ liệu gồm hơn 100 nghìn “điểm nóng” hay là các dấu hiệu riêng đã xác định.

Với những nguồn lực của Trung tâm Máy tính UChicago, Krishnan đã sử dụng dữ bộ dữ liệu này để huấn luyện một mô hình học máy mới tương tự như mô hình sử dụng ở các dự án thị giác máy tính khác. Khi thử nghiệm với các tấm sét không nằm trong bộ dữ liệu gốc, mô hình này có thể phiên dịch các ký tự hình nêm với độ chính xác lên đến 80%. Giai đoạn nghiên cứu tiếp theo sẽ xem xét vấn đề của 20% sai số để tìm cách nâng độ chính xác lên cao hơn nữa.

Nhưng hiện tại thì với độ chính xác 80%, mô hình này cũng có thể giúp ích rất nhiều cho việc đọc. Nội dung của nhiều tấm sét thực ra chỉ ghi chép hoạt động mua bán, giống như “một tập hóa đơn siêu thị vậy”, theo PGS.TS Paulus. Và trên thực tế thì một hệ không được bổ sung thêm vào “bộ não” của chúng thì hệ đó vẫn hữu dụng.

Cũng theo PGS. TS Paulus: “Nếu như máy tính có thể phiên dịch và xác định ra những đoạn thông tin lặp đi lặp lại và để lại cho các chuyên gia các đoạn phức tạp như tên địa danh, động từ, hay các từ cần giải nghĩa… thì cũng đã rất được việc rồi.”

“Còn nếu như máy tính không thể quyết định cách đọc văn bản, nó vẫn có thể gửi về cho chúng ta các phương án khả thi nhất hay xác suất – như vậy cũng là một khởi đầu tốt cho nhà nghiên cứu. Điều đó rất tuyệt vời.”

Tham vọng lớn hơn của nhóm là sẽ biến DeepScribe thành một công cụ đọc và phiên dịch đa năng mà họ có thể chia sẻ với các nhà khảo cổ khác. Ví dụ như mô hình hiện tại có thể được huấn luyện lại cho các ngôn ngữ sử dụng văn tự hình nêm khác ngoài tiếng Elamites; hoặc huấn luyện để tự động hoàn thiện các nội dung văn bản bị khuyết thiếu. Một mô hình học máy như vậy còn có thể giúp xác định niên đại hay nguồn gốc của tấm sét hay các hiện vật khác, vấn đề vốn trước nay phải dựa vào phân tích hóa học.

Các dự án tương tự do CDAC tài trợ đang sử dụng tiếp cận thị giác máy tính cho nhiều hướng ứng dụng khác nhau, trng đó có nghiên cứu đa dạng sinh học và nghiên cứu tác phẩm nghệ thuật. Những hợp tác trong dự án này cũng hy vọng sẽ truyền cảm hứng cho nhiều sự hợp tác trong tương lai, khi khảo cổ học kỹ thuật số ngày càng đến gần hơn các phương pháp tính toán tiên tiến.

Tuấn Quang

Nguồn


Xem thêm