Thư viện Stellargraph cung cấp các thuật toán kết nối nhiều nguồn dữ liệu lớn
14/05/2020
KH&CN nước ngoài
Thư viện mã nguồn mở StellarGraph thuộc Data61, CSIRO (Cơ quan Nghiên cứu số liệu và công nghệ số thuộc Tổ chức Khoa học Quốc gia Australia), đã đưa ra nhiều thuật toán mới trong phân tích mạng biểu đồ, giúp tìm ra các mẫu dữ liệu trong bộ dữ liệu lớn, tăng hiệu suất, giảm mức sử dụng bộ nhớ.
Hiện nay, các nhà khoa học còn gặp nhiều khó khăn trong việc xử lý các dữ liệu kết nối từ nhiều nguồn và mối quan hệ giữa các thực thể. Việc thu thập dữ liệu dưới dạng mạng biểu đồ cho phép các nhà khoa học hiểu được toàn bộ bối cảnh của các vấn đề cần giải quyết, bất kể vấn đề đó là gì, pháp luật, bệnh di truyền hay phát hiện gian lận....Tim Pitman, trưởng nhóm Thư viện StellarGraph cho biết: “Sẽ thật là tuyệt vời, nếu vấn đề kết nối các tập dữ liệu lớn lại có thể giải quyết bằng những thuật toán đơn giản”.
Thư viện StellarGraph cung cấp các thuật toán tối ưu cho việc học máy về biểu đồ, giúp các nhà nghiên cứu xây dựng, thử nghiệm các mô hình học máy; cho phép xem mẫu và ứng dụng để giải quyết các vấn đề trong thế giới thực. Phiên bản 1.0 cung cấp 3 thuật toán mới vào thư viện, hỗ trợ phân loại biểu đồ, dữ liệu không gian, tạo cấu trúc dữ liệu biểu đồ mới.
Việc tìm ra các mẫu và thông tin từ cơ sở dữ liệu không gian ngày càng quan trọng và có ý nghĩa lớn cho các vấn đề trong đời thực, như dự báo giao thông, chất lượng không khí và thậm chí truy tìm dấu vết của bệnh truyền nhiễm. Sử dụng phân tích biểu đồ mạng có thể tạo ra những giải pháp mới, khi cần đưa ra các quyết định có tính rủi ro cao.
Thuật toán của Thư viện StellarGraph đã được dùng dự đoán thành công gen bệnh Alzheimer; hỗ trợ phân tích nguồn lực tiên tiến và phát hiện mã độc tống tiền Bitcoin; dự đoán các đặc điểm của quần thể lúa mì, dựa trên các dấu hiệu gen, giúp chọn được bộ gen tăng năng suất trồng trọt.
Các thuật toán này có thể áp dụng cho dữ liệu thuộc nhiều lĩnh vực như công nghiệp, nghiên cứu khoa học, chính phủ,…Thuật toán đang được hoàn thiện để tối ưu hóa hiệu suất khai thác sử dụng, dễ dùng và có thể làm việc với dữ liệu lớn.
Diệu Huyền (CESTI) - Techxplore.com