Người nỗ lực kết nối cộng đồng Việt toàn cầu

0:00 / 0:00
0:00
TP - Tiến sĩ Nguyễn Đình Quý tham dự Diễn đàn Trí thức trẻ Việt Nam toàn cầu lần thứ IV năm 2021 đã kiến nghị hỗ trợ công cuộc chuyển đổi số đất nước qua hệ thống cơ sở dữ liệu, kết nối thông tin và người dùng qua các thuật toán thông minh.

Thuật toán nhận diện tên Việt

TS Nguyễn Đình Quý (quê Hà Nội) tốt nghiệp ĐH Công nghệ Nanyang (Singapore), hiện làm giám đốc công nghệ của tập đoàn điện tử Mitsubishi và hợp tác nghiên cứu với trường đại học MIT tại Boston, Mỹ.

Năm 2017, anh cùng những người Việt trẻ học tập, nghiên cứu tại Mỹ và nhiều nước khác cho ra đời nền tảng VietSearch, nhằm tạo cơ sở dữ liệu và kết nối các hoạt động kinh doanh, giáo dục, thiện nguyện... của người Việt.

Dự án nền tảng số VietSearch được ghi nhận và tài trợ từ Bộ Ngoại giao, Đại sứ quán Việt Nam tại một số nước và các tập đoàn. Trong đó, có tài trợ từ Ủy ban Nhà nước về người Việt Nam ở nước ngoài, Bộ Ngoại Giao để xây dựng cơ sở dữ liệu chuyên gia và dịch vụ Việt trong 2020-2021.Dự án cũng đã nhận giải thưởng Công nghệ thông tin “Nhân tài đất Việt” năm 2019, được ghi nhận trong “Sách vàng sáng tạo Việt Nam” năm 2021; giải nhì “Giải pháp tương lai” của Làng Sáng tạo tại TechFest 2021.

Đến nay, nền tảng số ấy đã lớn thành kho dữ liệu “khủng” với thông tin về hơn 700 nghìn người Việt, hơn 30 nghìn chuyên gia, hơn 20 nghìn doanh nghiệp và dịch vụ, hơn 5 nghìn sự kiện và hơn 200 hiệp hội người Việt. Chưa hết, nền tảng còn tính năng tìm kiếm nhanh, bản đồ thống kê cộng đồng người Việt trên nhiều quốc gia, tin tức trên nhiều phương diện...

Để có những con số đó, anh Quý và các cộng sự đã bắt đầu hành trình từ việc “mò kim đáy bể ”, và “đãi cát tìm vàng”, khi muốn bóc tách dữ liệu về người Việt trong hàng tỷ người trên trái đất. Việc phải xử lý hàng chục triệu trang dữ liệu từ internet, từ nhiều quốc gia và ngôn ngữ khác nhau đòi hỏi cần ứng dụng phân biệt tự động đâu là tên, dịch vụ Việt là thách thức mấu chốt.

Anh Quý chia sẻ, người Việt có thể cảm nhận một người khác có phải là người gốc Việt hay không khi đọc họ, tên của người đó, như họ “Nguyễn”... Tuy nhiên, khi viết không dấu thì họ và tên của người Việt dễ bị nhầm lẫn với nhiều ngôn ngữ khác trên thế giới.

Người nỗ lực kết nối cộng đồng Việt toàn cầu ảnh 1

Anh Nguyễn Đình Quý (ngoài cùng phải) cùng thành viên nhóm VietSearch Lưu Vĩnh Toàn, Phạm Xuân Lâm, Hà Duyên Hóa trong lễ trao giải Nhân tài đất Việt 2019. Ảnh: NVCC

Chẳng hạn, họ “Lê” viết không dấu thì dễ bị lẫn với giới từ thông dụng nhất của tiếng Pháp là “le”; họ “Đỗ” lẫn với “Do” là động từ thông dụng của tiếng Anh... Hay tên nghe rất Việt như “Vân” viết không dấu lại lẫn với tên “Van” thông dụng trong tiếng Hà Lan, hay mang nghĩa “xe tải” trong tiếng Anh.

Vượt qua những khó khăn về khoảng cách địa lý và thời gian giữa các thành viên, nhóm đã nghiên cứu phát minh ra thuật toán “VietName detection” - phát hiện tên người Việt dựa trên phương pháp thống kê tên người Việt từ một nguồn có hơn 100 nghìn tên Việt; tạo cây dữ liệu quyết định dựa trên các thống kê unigram, bigram, n-grams; áp dụng các phương pháp loại trừ dựa trên một số từ điển quốc tế như Anh, Pháp, Wikipedia.

Qua thử nghiệm dựa trên một mẫu 10 nghìn dữ liệu lấy từ hệ thống LinkedIn mà tên trên Profile có ít nhất 1 từ trong 16 họ Việt thông dụng từ trang Wikipedia “Họ_người_Việt_Nam”, thuật toán của VietSearch đã tăng độ chính xác từ 71% lên 93% trong việc phát hiện một dữ liệu ở nguồn dữ liệu mở có phải là người Việt hay không.

Năm 2019, nhóm đã dùng thuật toán này để phát hiện tên người Việt trong một nghiên cứu của một nhóm giáo sư bên Mỹ, kèm thông tin gần 100 nghìn nhà khoa học có nhiều trích dẫn nhất, trong đó có 40 nhà khoa học gốc Việt. Kết quả này được chia sẻ trên diễn đàn của ứng dụng mạng xã hội Facebook với sự tham gia của hơn 20 nghìn nhà khoa học, nghiên cứu sinh người Việt trong nước và quốc tế.

Bên cạnh thuật toán về đánh giá tên người và dịch vụ Việt, nhóm còn sử dụng phương pháp sắp xếp chuyên gia Việt, gợi ý thông minh giữa các ngành nghề. “Các phát minh này là tài sản trí tuệ của các thành viên VietSearch để tạo một sản phẩm công nghệ Việt khác biệt và vượt trội trong lĩnh vực tìm kiếm, thống kê và kết nối”, anh Quý tự hào.

“Khi mới bắt đầu thành lập, tôi và các thành viên là TS. Lưu Vĩnh Toàn, TS Nguyễn Đình Phú, TS Phạm Xuân Lâm, ThS Hà Duyên Hóa, TS Lê Quý Vang… luôn nghĩ về ước mơ một nền tảng công nghệ tìm kiếm Việt, giúp người dùng tìm kiếm dữ liệu về cộng đồng Việt nhanh chóng, chính xác, trên nhiều phương tiện với thông tin đa chiều và độ tin tưởng cao, cũng như kết nối chuyên gia người Việt tại nước ngoài với các dự án trong nước”

TS Nguyễn Đình Quý

Nối dài hành trình kết nối người Việt

Hiện VietSearch là doanh nghiệp khởi nghiệp đổi mới sáng tạo công nghệ cung cấp các giải pháp về xử lý dữ liệu lớn cũng như chuyển đổi số. Trong vai trò giám đốc điều hành VietSeach, anh Quý góp sức đưa nền tảng số này không ngừng hoàn thiện cơ sở dữ liệu về độ chính xác, độ bao phủ; phát triển thêm các chủ đề “Chuyên gia” và “Doanh nghiệp”.

Anh Quý bộc bạch, trong giai đoạn đầu phát triển, việc thu được dữ liệu từ nhiều ngôn ngữ khác nhau, “làm sạch” dữ liệu, gắn nhãn dữ liệu là rất quan trọng cho việc áp dụng các thuật toán học máy và khai khác dữ liệu. Tuy nhiên, do nguồn nhân lực và tài chính hạn chế, VietSearch vẫn chưa phát triển được nhiều dữ liệu tại một số quốc gia có đông người Việt nhưng dùng hệ ngôn ngữ không thông dụng trên thế giới như các nước Đông Âu (Nga, Séc, Ba Lan) hay khu vực Đông Á (Nhật Bản, Hàn Quốc, Đài Loan). “Nhóm phát triển hy vọng trong tương lai sẽ có thêm cộng tác viên người Việt tại các quốc gia trên, hỗ trợ VietSearch trong việc thu thập và biên dịch dữ liệu tại quốc gia, khu vực đó”, anh Quý nói.

Kết nối thiện nguyện

TS Nguyễn Đình Quý nhiều năm qua còn tích cực tham gia các hoạt động, chương trình thiện nguyện giúp đỡ những hoàn cảnh khó khăn trong nước. Năm 2006, anh cùng một số thành viên đã thành lập tổ chức hoạt động xã hội Người Việt trẻ từ diễn đàn Olympia, gồm các cựu thí sinh và thành viên cuộc thi Đường lên đỉnh Olympia.

Không ngừng kết nối trong và ngoài nước, Người Việt trẻ đã tổ chức nhiều chương trình tình nguyện dài hạn cho các đối tượng khó khăn tại vùng sâu, vùng xa trên cả ba miền đất nước. Trong đó có, “I Have A Dream – Bay cao những giấc mơ” – dạy vẽ tranh và chụp hình cho trẻ em làng chài sông Hồng, cũng như tổ chức triển lãm để quyên góp từ thiện; “Hành trình dọc phá Tam Giang” – hành trình khơi sáng tri thức cho phá Tam Giang (Thừa Thiên -Huế) được tổ chức hàng năm vào dịp hè tại miền Trung; “Cùng em đến lớp” – quyên góp sách vở và hỗ trợ cho các học sinh nghèo và trường học tại miền Nam hàng năm.

Cuối năm 2020, khi miền Trung chịu ảnh hưởng nặng nề bởi những cơn lũ lịch sử, các bạn trong Người Việt trẻ cũng đã chung tay quyên góp và ủng hộ người dân qua chương trình “Hướng về miền Trung”.

Anh Quý cho biết, sau 15 năm hoạt động, Người Việt trẻ đã tổ chức gần 400 chương trình tình nguyện lớn nhỏ, giúp đỡ trực tiếp và gián tiếp tới hơn 20.000 gia đình có hoàn cảnh khó khăn ở Việt Nam.

MỚI - NÓNG
Mưa lớn gây ngập ở Hà Tĩnh
Mưa lớn gây ngập ở Hà Tĩnh
TPO - Mưa lớn kéo dài cùng nước từ thượng nguồn đổ về đã gây ngập úng, chia cắt giao thông một số khu vực ở Hà Tĩnh. Ngành chức năng địa phương đã xả tràn các hồ chứa để ứng phó mưa lũ có thể xảy ra.