Google tham vọng ứng dụng AI vào y học giúp phát hiện đột biến Gen

Nếu bạn đã từng xem một bộ phim tù hãm kinh điển như CSI, bạn có thể nhớ một cảnh phim trong đó một chuyên gia phân tích pháp y đã sử dụng máy tính để phân tích sâu hàng ngàn đoạn ADN, để tìm điểm tương đồng giữa hiện trường vụ án và nghi phạm. Ngoài đời thực thì chuyện này không thực thụ xảy ra như trên truyền hình, nhưng về thực chất thì là như nhau. Di truyền học vốn đã là một môn khoa học tương đối. Cho dù bạn có cố để xác định một nghi phạm hoặc một căn bệnh di truyền hoặc người thân đã thất lạc từ lâu, nó đều bao gồm việc so sánh một gen này và một gen khác, tìm những điểm tương đồng hoặc khác nhau giữa hàng tỷ của các mã DNA.

Nhưng trong khi lóng một người nhà hoặc một kẻ tình nghi thường sẽ chỉ cần coi xét một vài đoạn mã di truyền của một người, còn các vấn đề như xác định các biến thể gen nào gây ra căn bệnh thì đòi hỏi phải được tiến hành qua nhiều dữ liệu hơn. Ngay cả với quờ các tính tình đặc biệt được thiết kế để giúp các nhà khoa học làm việc này, việc hiểu được tất cả các dữ liệu đó vẫn là một thách thức rất lớn. Đây cũng chính là vấn đề mà trí não nhân tạo được thiết kế ra để giải quyết.

Trong tuần này, Google đã phát hành một công cụ gọi là DeepVariant sử dụng deep learning để xâu chuỗi gen của một người và xác định đột biến trong một chuỗi DNA xác thực hơn.

Sau khi được xây dựng công cụ này cho phép Google nhận dạng được một bức ảnh là con mèo hay con chó, DeepVariant giải quyết được một vấn đề quan trọng trong thế giới phân tích DNA. Trình xếp đặt ADN hiện đại thực hiện thao tác được biết đến như một Giải trình tự đương đại, sẽ không trả về một đoạn dài trong chuỗi ADN đầy đủ mà là các đoạn ngắn chồng lên nhau. Những đoạn này sau đó được so sánh với một bộ gen khác để gộp chúng lại với nhau và nhận mặt được sự biến đổi. Nhưng công nghệ này rất dễ bị lỗi, và nó có thể gây khó khăn cho các nhà khoa học trong việc phân biệt giữa lỗi và đột biến nhỏ. Và những đột biến nhỏ lại quan trọng. Chúng có thể cung cấp được những cái nhìn sâu sắc đáng kể vào, có thể nói rằng, căn do cỗi rễ của căn bệnh. Việc phân biệt cặp nè kết quả của lỗi và cặp nào thật được gọi là “truy tìm biến thể.”

Hiện đã có phương tiện có thể giúp các nhà khoa học thực hiện điều này. công cụ phổ thông nhất là GATK, một thuật toán do con người thiết kế ứng dụng thống kê để dò ra những nơi máy mà kết nối thẳng xảy ra lỗi nhất. Tuy nhiên, DeepVariant, lại dùng công nghệ neural network để xây dựng nên một cái gì đó chính xác hơn bất cứ cái gì hiện có. Năm ngoái, nó đã giành giải nhất trong một cuộc thi FDA nhằm cải thiện tính chuẩn xác của sắp đặt chuỗi gen.

Neural network được đặt tên như vậy bởi vì chúng khá na ná cách các tế bào tâm thần hoạt động trong não. Mỗi tầng mạng thì gặp phải một vấn đề dần dần phức tạp hơn. Để dùng một AI nhận hình trạng ảnh giúp xây dựng một chuỗi ADN chuẩn xác, hàng ngũ của Google đã chuyển dữ liệu chuỗi DNA thành một hình ảnh. Ví dụ như, các As, Ts, Cs, và Gs tạo nên một mã di truyền, thì sẽ được hiển thị dưới màu đỏ. Các nhà nghiên cứu sau đó đào tạo màng lưới của họ về hàng triệu hệ gen được xâu chuỗi và phép đọc công nghệ cao, dạy về cái gì quan trọng và cái gì cần bỏ qua.

Kết quả thuật toán cuối có thể phân loại các đột biến thực tiễn khỏi các lỗi với độ chuẩn xác cao hơn bất kỳ hệ thống nào trước đó. ban sơ, những hình ảnh chỉ được tạo nên bởi ba màu, hoặc ba lớp dữ liệu. Nhưng trong phiên bản mới nhất phát hành trong tuần này chứa đến bảy loại, thậm chí làm cho nó hoạt động mượt hơn. Nó được phát hành dưới dạng phần mềm mã nguồn mở, giúp các nhà nghiên cứu bên ngoài có thể dùng và thậm chí cài thêm được.

DeepVariant không có tức thị chuẩn xác 100%. Nhưng thành công của nó minh chứng cho ảnh hưởng của học thuật máy tính lên các hệ gen. Quy mô và độ phức tạp của dữ liệu di truyền là mông mênh ti tỉ. Máy móc có thể chỉ là cái để giúp chúng ta hiểu được nó.
xem thêm : học lập trình php