Phát triển các phương pháp ẩn luật kết hợp trong khai thác dữ liệu đảm bảo tính riêng tư
Ngày đăng: 26/09/2025 10:45
Hôm nay: 0
Hôm qua: 0
Trong tuần: 0
Tất cả: 0
Ngày đăng: 26/09/2025 10:45
Khai thác dữ liệu bảo đảm sự riêng tư (PPDM) là một lĩnh vực nghiên cứu mới nổi trong hơn một thập kỷ qua, nhằm giải quyết những thách thức liên quan đến việc bảo vệ quyền riêng tư cá nhân và tổ chức khi khai thác dữ liệu. Các phương pháp trong PPDM thường được chia thành hai hướng chính: ẩn dữ liệu (tác động trực tiếp vào dữ liệu thô để che giấu thông tin nhạy cảm) và ẩn tri thức (bảo vệ các kết quả khai thác dữ liệu nhạy cảm, tức là các mẫu tri thức được trích xuất).
Để tập trung vào hướng ẩn tri thức, GS. TS. Lê Hoài Bắc và các cộng sự tại Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia Thành phố Hồ Chí Minh đã thực hiện đề tài "Phát triển các phương pháp ẩn luật kết hợp trong khai thác dữ liệu đảm bảo tính riêng tư". Mục tiêu của đề tài là phát triển các thuật toán hiệu quả và đề xuất cấu trúc dữ liệu phù hợp, nhằm cân bằng giữa việc ẩn các luật kết hợp nhạy cảm và nhu cầu khai thác thông tin hợp pháp từ dữ liệu người dùng, đồng thời giảm thiểu tối đa các tác động phụ không mong muốn trong quá trình ẩn.
Sau một thời gian triển khai, đề tài đã đạt được nhiều kết quả nổi bật thông qua các nội dung nghiên cứu chính sau:
1. Nội dung 1: Phát triển các thuật toán để lựa chọn và tối ưu hóa quá trình ẩn các luật kết hợp và đối tượng nhạy cảm.
Đề tài đã đạt được kết quả nổi bật trong lĩnh vực khai thác dữ liệu bảo đảm sự riêng tư (PPDM). Nghiên cứu tập trung giải quyết vấn đề bảo mật dữ liệu trong khai thác, đảm bảo tính riêng tư mà không làm ảnh hưởng đến độ chính xác của kết quả. Đề tài đã giới thiệu một phương pháp mới dựa trên biến dạng (distortion-based heuristic method) để ẩn các luật nhạy cảm, giúp giảm thiểu tác dụng phụ và mất mát dữ liệu. Phương pháp này xác định các giao dịch quan trọng, giảm số lượng tập phổ biến cần xem xét và tính toán tối thiểu giao dịch cần sửa đổi. Kết quả thực nghiệm cho thấy phương pháp đề xuất hiệu quả vượt trội so với các phương pháp hiện có, với ít tác dụng phụ và mất mát dữ liệu hơn, khẳng định tiềm năng ứng dụng cao trong việc bảo vệ quyền riêng tư và duy trì tính toàn vẹn của dữ liệu.
2. Nội dung 2: Nghiên cứu và ứng dụng các giải pháp tính toán song song để giảm thời gian xử lý cho các phương pháp ẩn dữ liệu.
Kết quả đạt được đã được công bố trên tạp chí quốc tế uy tín "Knowledge-Based Systems" (thuộc danh mục ISI, Q1, IF: 8.139) qua bài báo "Multi-core parallel algorithms for hiding high-utility sequential patterns". Nghiên cứu giải quyết vấn đề bảo vệ thông tin nhạy cảm khỏi bị rò rỉ khi khai thác mẫu tuần tự tiện ích cao (HUSPM), vốn tiềm ẩn nguy cơ mất quyền riêng tư. Nhóm đề tài đã đề xuất ba thuật toán mới (USHPA, USHP, USHR), sử dụng cấu trúc dữ liệu Pattern Utility Set for Hiding (PUSH), giúp tăng tốc đáng kể quá trình ẩn mẫu tuần tự tiện ích cao. Ngoài ra, một chỉ số mới là Hệ số bảo mật (Privacy Factor) cũng được giới thiệu để đánh giá chất lượng ẩn dữ liệu. Các thử nghiệm trên dữ liệu thực tế chứng minh các thuật toán mới này vượt trội hơn hẳn so với các phương pháp hiện có về thời gian chạy, bộ nhớ, khả năng mở rộng, chi phí lỗi và hệ số bảo mật, khẳng định hiệu quả cao trong việc bảo vệ dữ liệu.
3. Nội dung 3: Nghiên cứu và phát triển các thuật toán lai để ẩn luật kết hợp, kết hợp ưu điểm của nhiều phương pháp khác nhau.
Kết quả nổi bật này đã được công bố trên tạp chí quốc tế uy tín Expert Systems with Applications (Q1, IF: 8.665), qua bài báo "Hiding sensitive association rules using the optimal electromagnetic optimization method and a dynamic bit vector data structure" (xuất bản ngày 15/8/2021).
Nghiên cứu giải quyết bài toán ẩn các luật kết hợp nhạy cảm, nhằm sửa đổi dữ liệu gốc để các luật này không thể bị khai thác, đồng thời bảo toàn các luật không nhạy cảm. Phương pháp mới được đề xuất là EFODBV4ARH, tích hợp cấu trúc dữ liệu vector bit động với phương pháp tối ưu hóa trường điện từ. Kỹ thuật này giúp tăng cường hiệu quả ẩn luật, tối ưu hóa xử lý và lưu trữ, cho phép ẩn đồng thời nhiều luật nhạy cảm, và giảm thiểu thông tin không nhạy cảm bị ảnh hưởng. Kết quả thử nghiệm trên cả dữ liệu tổng hợp và thực tế đã chứng minh EFODBV4ARH hiệu quả hơn đáng kể so với các phương pháp hiện có, mở ra hướng đi mới cho các ứng dụng thực tế trong bảo vệ quyền riêng tư.
4. Nội dung 4: Nghiên cứu và đề xuất các thuật toán ẩn luật kết hợp cho các loại dữ liệu phức tạp, như tập đối tượng hữu ích cao (High-Utility Itemset), mẫu tuần tự (Sequential Patterns), và mẫu tuần tự lợi ích cao (High-Utility Sequential Patterns).
Các kết quả nổi bật này đã được công bố rộng rãi qua hai chương sách của nhà xuất bản Springer và một bài báo trên tạp chí ISI uy tín. Những công bố này cho thấy đề tài đã mở rộng thành công khả năng bảo vệ quyền riêng tư cho các cấu trúc dữ liệu phức tạp hơn, góp phần quan trọng vào lĩnh vực PPDM.
Như vậy, đề tài đã hoàn thành xuất sắc và vượt mức các chỉ tiêu công bố khoa học ban đầu. Những kết quả này minh chứng rõ nét cho hiệu quả, chất lượng và tầm ảnh hưởng của nghiên cứu trong lĩnh vực khai thác dữ liệu bảo đảm sự riêng tư.
Có thể tìm đọc toàn văn báo cáo kết quả nghiên cứu (mã số 21098/2022) tại Cục Thông tin, Thống kê.
Vista.gov.vn