Google News

Lưu trữ dữ liệu bằng DNA: Một lít chất lỏng có thể chứa đến 10 tỷ bài hát, song còn nhiều rào cản kỹ thuật

SVO - Các nhà khoa học cho biết, hệ thống lưu trữ mới này có thể lưu giữ ảnh gia đình, các di sản văn hóa cũng như các bản gốc của tác phẩm nghệ thuật số, phim ảnh, bản thảo và âm nhạc trong suốt hàng nghìn năm.

Công ty công nghệ sinh học Atlas Data Storage của Mỹ đã ra mắt một hệ thống lưu trữ bằng DNA tổng hợp, có khả năng lưu trữ lượng dữ liệu lớn gấp 1.000 lần so với băng từ truyền thống. Sản phẩm mang tên Atlas Eon 100 được giới thiệu là có khả năng lưu trữ các “tư liệu không thể thay thế của nhân loại” trong hàng nghìn năm. Các dữ liệu này bao gồm ảnh gia đình, dữ liệu khoa học, hồ sơ doanh nghiệp, các di sản văn hóa cũng như các bản gốc của tác phẩm nghệ thuật số, phim ảnh, bản thảo và âm nhạc...

Ông Bill Banyai, nhà sáng lập Atlas Data Storage, cho biết: “Đây là kết tinh của hơn mười năm phát triển sản phẩm và đổi mới sáng tạo trên nhiều lĩnh vực khác nhau. Chúng tôi hướng tới việc cung cấp các giải pháp mới cho lưu trữ dài hạn, bảo tồn dữ liệu phục vụ các mô hình AI, cũng như bảo vệ các di sản và nội dung có giá trị cao”.

screenshot-2026-01-03-210853.png

Về bản chất, mọi dữ liệu số đều chỉ là một chuỗi các số 1 và 0 được sắp xếp theo một trật tự xác định. DNA cũng có cấu trúc tương tự, khi được tạo thành từ các chuỗi xác định của bốn loại base hóa học gồm adenine (A), cytosine (C), guanine (G) và thymine (T).

Công nghệ lưu trữ dữ liệu bằng DNA hoạt động bằng cách ánh xạ mã nhị phân sang các base này. Chẳng hạn, một sơ đồ mã hóa có thể gán A tương ứng với 00, C với 01, G với 10 và T với 11. Từ đó, DNA nhân tạo được tổng hợp với các base được sắp xếp theo đúng thứ tự đã mã hóa.

Đối với hệ thống Atlas Eon 100, DNA sau khi tổng hợp sẽ được khử nước và lưu trữ dưới dạng bột trong các viên nang thép gia cường cao khoảng 0,7 inch (tương đương 1,8 cm). DNA chỉ được hoàn nguyên bằng cách bổ sung nước khi cần giải trình tự, để các base hóa học được chuyển đổi ngược trở lại thành mã nhị phân.

Hiệu quả hơn so với băng từ

Chỉ một quart (tương đương một lít) dung dịch DNA có thể lưu trữ tới 60 petabyte dữ liệu tương đương 10 tỷ bài hát hoặc 12 triệu bộ phim HD. Điều này khiến hệ thống Atlas Eon 100, được công bố vào ngày 2/12, có mật độ lưu trữ cao gấp 1.000 lần so với băng từ. Để dễ hình dung, nhằm lưu trữ cùng một lượng dữ liệu như vậy, sẽ cần tới khoảng 15.500 dặm (25.000 km) băng từ LTO-10 rộng 0,5 inch (12,7 mm), một định dạng lưu trữ dung lượng cao tiêu chuẩn hiện nay.

Mật độ lưu trữ vượt trội này giúp việc vận chuyển khối lượng dữ liệu lớn trở nên dễ dàng hơn đáng kể so với sử dụng ổ cứng thông thường hoặc các cuộn băng từ. Bên cạnh đó, DNA được biết đến là có khả năng giữ nguyên cấu trúc trong hàng thế kỷ, khiến nó trở thành một môi trường đặc biệt ổn định cho việc bảo quản dữ liệu trong thời gian rất dài.

Theo Atlas Data Storage, sản phẩm của hãng có thể hoạt động ổn định trong môi trường văn phòng với độ tin cậy lên tới 99,99999999999%, đồng thời các viên nang lưu trữ còn có thể chịu được nhiệt độ lên tới 40°C. Trong khi đó, băng từ thường bắt đầu xuống cấp sau khoảng 10 năm, ngay cả khi được kiểm soát nghiêm ngặt về nhiệt độ và độ ẩm.

Các phương tiện lưu trữ quang học như CD và DVD thường bắt đầu xuống cấp trong vòng 30 năm, trong khi ổ cứng có tuổi thọ khoảng 6–7 năm trước khi xuất hiện các dấu hiệu hư hỏng. Với bộ nhớ flash, chỉ trong chưa đầy 3 giờ ở nhiệt độ 70°C, một ô nhớ có thể “lão hóa” tương đương với mức độ xuống cấp diễn ra trong một tháng sử dụng thông thường.

Atlas cũng cho rằng, dịch vụ lưu trữ DNA của hãng mang lại cách thức sao lưu dữ liệu dễ dàng hơn so với các phương tiện lưu trữ khác. Thực tế, một khi một chuỗi DNA đã được mã hóa, các enzyme có thể được sử dụng để tạo ra hơn một tỷ bản sao chỉ trong vài giờ.

Giải pháp cho một xã hội khát dữ liệu?

Theo Atlas, xã hội hiện nay tạo ra khoảng 280 petabyte (PB) dữ liệu mỗi phút. Công ty giới thiệu công nghệ lưu trữ dữ liệu bằng DNA như một giải pháp tiềm năng cho sự bùng nổ dữ liệu số, vốn đã gia tăng mạnh mẽ dưới tác động của làn sóng AI tạo sinh.

Tuy nhiên, công ty công nghệ sinh học này vẫn phải đối mặt với một thách thức lớn về khả năng mở rộng. Quá trình tổng hợp DNA nhân tạo đã được mã hóa hiện vẫn mất nhiều thời gian hơn đáng kể so với các thao tác lưu trữ đơn giản, chẳng hạn như lưu một bức ảnh lên ổ cứng hiện có. Twist Bioscience, công ty mẹ trước đây của Atlas, nơi hãng kế thừa quy trình tổng hợp DNA, hiện có thời gian chờ từ 2 đến 8 ngày làm việc đối với các đơn đặt hàng gene và oligo (các chuỗi DNA ngắn và dài).

Quá trình giải trình tự DNA cũng nổi tiếng là tốn kém. Chi phí để đọc một gigabase DNA vào khoảng 30 đôla Mỹ, tương đương với khoảng 250 GB dữ liệu. Quá trình này cũng mất nhiều thời gian: một giải pháp lưu trữ DNA được công bố gần đây cho biết cần 25 phút để khôi phục một tệp dữ liệu duy nhất. Dù vậy, Atlas Data Storage tuyên bố rằng các máy giải trình tự DNA hiện đại đang “tăng thông lượng và cắt giảm chi phí nhanh gấp 1.000 lần so với định luật Moore”.

Tuy nhiên, do thời gian cần thiết cho cả quá trình tổng hợp và giải trình tự DNA, Liên minh Lưu trữ Dữ liệu DNA trong năm 2025 cho biết họ không kỳ vọng công nghệ lưu trữ DNA sẽ được triển khai ở quy mô lớn cho mục đích lưu trữ lâu dài trong vòng ba đến năm năm tới.

GS Thomas Heinis - Giảng viên Khoa học Máy tính tại ĐH Imperial College London (Anh), người chuyên nghiên cứu lưu trữ dữ liệu dựa trên DNA, bày tỏ sự hoài nghi trước việc Atlas chưa công bố đầy đủ các dữ liệu cụ thể về hiệu năng của Atlas Eon 100. Ông cũng nhắc tới trường hợp của Catalog DNA, công ty từng đưa ra những cam kết tương tự đối với giải pháp lưu trữ Shannon, nhưng đã phá sản chỉ vài tháng trước đó.

Ông Thomas Heinis cho biết: “Tôi không nghi ngờ rằng họ đã tạo ra một thiết bị ấn tượng, nhưng rất khó để đánh giá khi thiếu các thông tin cụ thể” đồng thời nhấn mạnh rằng thách thức lớn nhất trong thương mại hóa lưu trữ DNA nằm ở khâu tổng hợp, chứ không phải giải trình tự.

Ông phân tích thêm: “Nghe có vẻ đơn giản, nhưng nếu chi phí ghi/tổng hợp không mang tính cạnh tranh thì việc đọc/giải trình tự rẻ cũng không còn nhiều ý nghĩa. Bạn không thể đọc một cách rẻ tiền thứ mà bạn không đủ khả năng để ghi. Hiện nay, chi phí tổng hợp vẫn đắt hơn nhiều bậc độ lớn, trong khi giải trình tự đã tiến gần hơn tới băng từ nhưng vẫn tốn kém hơn. Dù là một người tin tưởng mạnh mẽ vào tiềm năng của lưu trữ DNA, tôi cho rằng vẫn cần rất nhiều tiến bộ công nghệ, và cho đến nay tôi chưa thấy ai đưa ra được một giải pháp khả thi về mặt kinh tế”.