ProteinReDiff: Tăng tốc dự đoán sự liên kết protein-phối tử
Ngày đăng: 27/02/2025 09:13
Hôm nay: 0
Hôm qua: 0
Trong tuần: 0
Tất cả: 0
Ngày đăng: 27/02/2025 09:13
Với việc ứng dụng AI, TS. Hy Trường Sơn và nhóm nghiên cứu đã phát triển một phương pháp mới giúp rút ngắn thời gian và cải thiện độ chính xác của các dự đoán về ái lực liên kết giữa protein và phối tử, từ đó giúp thiết kế lại chính xác hơn các protein liên kết phối tử và mở ra nhiều tiềm năng ứng dụng trong công nghệ sinh học và dược phẩm.
Dù có quan tâm đến nghệ thuật hay không thì có lẽ với sự bùng nổ của AI, hầu như ai cũng đều biết đến MidJourney - một công cụ ra mắt vào năm 2022 và trở nên nổi tiếng với khả năng biến chữ thành các bức ảnh với phong cách nghệ thuật độc đáo, màu sắc sống động và chi tiết cao. Những người dùng ChatGPT hiện nay có lẽ cũng không còn xa lạ gì với công cụ DALL-E trong việc tạo ra các bức ảnh tùy vào nhu cầu của người sử dụng.
Dựa trên mạng neuron sâu (Deep Learning), cụ thể là mô hình khuếch tán (Diffusion Model), công cụ này xử lý các câu lệnh mà người dùng nhập vào để tạo ra một hình ảnh nhiễu ngẫu nhiên, rồi sau đó dần dần “khử nhiễu” để biến nó thành một hình ảnh hoàn chỉnh.
Nhưng bạn có bao giờ tưởng tượng rằng, cơ chế tạo hình ảnh từ AI như vậy cũng có thể được ứng dụng trong lĩnh vực tin sinh học - một lĩnh vực đòi hỏi sự chính xác rất cao - để khám phá thuốc?
Bỏ qua cấu trúc chi tiết
Trong sinh học, sự liên kết của protein tế bào với các phân tử được gọi là phối tử tạo ra vô số chức năng thiết yếu cho sự sống, bao gồm tín hiệu tế bào và hoạt động của enzym. Trong công nghệ sinh học và y học, nếu có thể thay đổi protein (hay nói cách khác là thiết kế lại protein) để tinh chỉnh khả năng kiểm soát ái lực liên kết và tính đặc hiệu hiệu quả thì chúng ta sẽ có thể tạo ra các liệu pháp điều trị hiệu quả với ít tác dụng phụ hơn, các công cụ chẩn đoán có độ nhạy cao, xúc tác sinh học hiệu quả, hệ thống phân phối thuốc có mục tiêu cũng như các giải pháp xử lý sinh học bền vững.
Cho đến nay, các nhà nghiên cứu đã có nhiều cách tiếp cận khác nhau để thiết kế lại protein như vậy, song các phương pháp này đều mang nhiều nhược điểm. Các phương pháp truyền thống yêu cầu phải có các thử nghiệm tiêu tốn rất nhiều thời gian. Bên cạnh đó, các mô hình trong lĩnh vực thiết kế tính toán mới nổi lại đòi hỏi thông tin chi tiết về cấu trúc protein và vị trí phối tử liên kết.
Nhóm nghiên cứu do TS.Hy Trường Sơn từ Đại học Alabama tại Birmingham (Mỹ) đứng đầu đã đưa ra một phương pháp đơn giản hóa để cải thiện các hạn chế này. Phương pháp mới, được đặt tên là ProteinReDiff, sẽ sử dụng trí tuệ nhân tạo để tăng tốc quá trình thiết kế lại các protein liên kết phối tử.
Thực tế, năm 2024, một đột phá khoa học từ AI đã lần đầu tiên được ghi nhận với một giải thưởng Nobel Hóa học: giải được trao cho các nhà nghiên cứu tại Google DeepMind ở London, bởi đã phát triển AlphaFold - một công cụ AI có khả năng làm thay đổi cuộc chơi cho dự đoán các cấu trúc protein. DeepMind cho ra mắt AlphaFold vào năm 2018, khi giành chiến thắng tại cuộc thi dự đoán cấu trúc protein Đánh giá tới hạn dự đoán cấu trúc protein (CASP). Và đến lần ra mắt thứ hai của mạng thần kinh nhân tạo này vào cuối năm 2020, nó thực sự làm thay đổi khoa học sự sống. Nhiều dự đoán của AlphaFold2 tại CASP đã chính xác đến mức không thể phân biệt với các cấu trúc protein từ thí nghiệm.
TS. Hy Trường Sơn. |
Những bước tiến đáng kinh ngạc mà AlphaFold2 đem lại đã truyền cảm hứng cho nhóm nghiên cứu của TS. Hy Trường Sơn tạo ra ProteinReDiff - viết tắt của Protein Redesign based on Diffusion Models (thiết kế lại protein dựa trên mô hình khuếch tán). Cho đến trước nghiên cứu này, vẫn chưa có mô hình AI nào cho việc thiết kế lại protein. Phương pháp của nhóm nghiên cứu kết hợp các cải tiến chính lấy cảm hứng từ các mô-đun học biểu diễn từ kiến trúc AlphaFold2 của quá trình gấp protein dựa trên máy tính. Các mô-đun này cho phép ProteinReDiff nắm bắt các tương tác protein-phối tử phức tạp, cải thiện độ chính xác của các dự đoán về ái lực liên kết và giúp thiết kế lại chính xác hơn các protein liên kết phối tử. Kết quả nghiên cứu mới đây đã được công bố trong bài báo “ProteinReDiff: Complex-based ligand-binding proteins redesign by equivariant diffusion-based generative models” trên tạp chí Structural Dynamics trong một chủ đề đặc biệt về Trí tuệ nhân tạo và Khoa học cấu trúc.
“Mô hình của chúng tôi cho phép thiết kế các protein liên kết phối tử có ái lực cao mà không cần dựa vào thông tin cấu trúc chi tiết”, TS. Hy Trường Sơn chia sẻ với Báo KH&PT. “Chúng tôi chỉ dựa vào trình tự protein ban đầu và chuỗi phối tử SMILES”. SMILES (viết tắt của hệ thống nhập dữ liệu phân tử đơn giản hóa) là một quy chuẩn kỹ thuật lâu đời để biểu diễn cấu trúc phân tử và chỉ sử dụng các ký tự ASCII (một bảng mã ký tự tiêu chuẩn dùng để biểu diễn văn bản trong máy tính và các thiết bị điện tử khác) có thể đọc được bằng máy tính.
“Một trong những tính năng chính trong phương pháp mới của chúng tôi là blind docking - dự đoán cách protein được thiết kế lại tương tác với phối tử của nó mà không cần thông tin về vị trí liên kết trước đó”, TS. Hy Trường Sơn cho biết. “Cách tiếp cận hợp lý này giúp giảm đáng kể việc phụ thuộc vào dữ liệu cấu trúc chi tiết, và nhờ đó mở rộng phạm vi khám phá dựa trên trình tự các tương tác protein-phối tử”.
Đơn giản hóa việc thiết kế lại protein
Để một mô hình AI có thể hoạt động hiệu quả, tất nhiên chúng ta không thể không nhắc đến việc huấn luyện mô hình. Các nhà nghiên cứu - bao gồm Nguyễn Việt Thanh Duy từ Trung tâm AI của FPT Software, hiện đang làm nghiên cứu sinh trong nhóm của TS.Sơn, tác giả thứ nhất của công bố mới - đã đào tạo mô hình trí tuệ nhân tạo ProteinReDiff trên nhiều cấu trúc protein đã biết và các phối tử liên kết của chúng. Sau đó, họ thiết kế lại các cặp protein-phối tử đã chọn bằng cách “che giấu” ngẫu nhiên các axit amin và sử dụng mô hình khuếch tán khử nhiễu để nắm bắt sự phân bố chung của các cấu hình phức hợp protein và phối tử.
“Trong tin sinh học cũng như trong sinh học, chúng ta có thể biểu diễn protein dưới dạng chuỗi của các axit amin”, TS. Hy Trường Sơn giải thích. “Nhưng các chuỗi này cũng có thể cuộn lại trong không gian ba chiều. Do đó, vấn đề ở đây là làm thế nào để ta phát triển được những mô hình AI học và hiểu được chuỗi protein này, đồng thời hiểu được cả cấu trúc 3D của protein”.
Đây cũng chính là bài toán mà nhóm nghiên cứu cần tìm lời giải. “Điểm khó khăn nhất trong nghiên cứu là phải phát triển được những mô hình ngôn ngữ lớn học được dữ liệu protein”, TS. Hy Trường Sơn cho biết. Bên cạnh đó, nhóm nghiên cứu cũng phải tìm ra cách để phát triển được những mô hình hiểu được cấu trúc hình học, “một việc rất thách thức”, TS. Hy Trường Sơn thừa nhận. Để giải quyết vấn đề này, anh và các cộng sự đã đã phát triển Geometric Graph Neural Network - những mô hình mạng neuron trên đồ thị hiểu được hình học cũng như phải đưa các thông tin vật lý vào trong đó để đảm bảo tính chất đối xứng của hình học protein. “Đây chính là những thách thức lớn nhất, và cũng chính là những yếu tố định hướng cho cả ngành lớn”, TS. Hy Trường Sơn cho biết.
Một trong những tính năng chính trong phương pháp mới của chúng tôi là blind docking - dự đoán cách protein được thiết kế lại tương tác với phối tử của nó mà không cần thông tin về vị trí liên kết trước đó. TS. Hy Trường Sơn |
Sau khi đã cho ra được mô hình, nhóm nghiên cứu cũng tiến hành so sánh ProteinReDiff với tám mô hình thiết kế protein tính toán khác dựa trên các đặc điểm đầu vào và đầu ra, từ đó cải thiện khả năng liên kết phối tử của protein từ các cặp phối tử-protein đã chọn.
Khi so sánh về đặc điểm đầu vào, trong sáu trên tám mô hình so sánh sử dụng thông tin cấu trúc protein như một trong những thông tin đầu vào, chỉ có ProteinReDiff và một mô hình khác có tên là DPL chỉ sử dụng trình tự protein và đầu vào phối tử SMILES. Về đầu ra, chỉ có ProteinReDiff tạo ra các thiết kế protein mới bao gồm trình tự protein, cấu trúc protein và cấu trúc phối tử.
Để đánh giá chính xác về hiệu suất của mô hình, nhóm nghiên cứu đã so sánh ái lực liên kết phối tử, tính đa dạng của chuỗi axit amin và tính bảo toàn cấu trúc của các protein được thiết kế lại từ các cặp protein-phối tử do ProteinReDiff và tám mô hình thiết kế protein khác tạo ra. Kết quả cho thấy, ProteinReDiff tạo ra sự cải thiện vượt trội về ái lực liên kết phối tử so với các mô hình khác.
“Mô hình của chúng tôi có thấy kết quả nổi bật hơn trong việc tối ưu hóa ái lực liên kết phối tử chỉ dựa trên trình tự protein ban đầu và chuỗi phối tử SMILES mà không cần sử dụng dữ liệu cấu trúc chi tiết”, TS. Hy Trường Sơn cho biết. “Những phát hiện này mở ra những khả năng mới cho mô hình phức hợp protein-phối tử, cũng như cho thấy tiềm năng của ProteinReDiff trong nhiều ứng dụng công nghệ sinh học và dược phẩm”.
Về mặt ý nghĩa khoa học, đây sẽ là một phương pháp cắt giảm thời gian và chi phí để tìm ra phác đồ điều trị bằng protein, tối ưu hóa protein. Bên cạnh đó, phương pháp này cũng có thể ứng dụng thiết kế kháng nguyên - công đoạn đóng vai trò quan trọng trong thiết kế vaccine. Để những viễn cảnh này có thể thành hiện thực, “tất nhiên chúng tôi sẽ phải làm việc với các nhà hóa học, sinh học và thử nghiệm tại phòng thí nghiệm để có thêm dữ liệu cải tiến mô hình AI”, TS. Sơn cho hay. “Dữ liệu càng tốt thì chất lượng AI càng tốt. Điều quan trọng là chúng ta cần tạo ra một dây chuyền, có sự hợp tác giữa các những nhà khoa học - những người trực tiếp thực hiện thí nghiệm ngoài thực tế - để từ đó sửa lại mô hình AI phù hợp”.
Bài đăng KH&PT số 1332 (số 8/2025)
Khoahocphattrien