Hệ thống trích xuất thông tin từ tài liệu khoa học
17/06/2020
KH&CN nước ngoài
Nhóm nghiên cứu thuộc Đại học Heriot-Watt đang nghiên cứu hệ thống trích xuất thông tin bản mở, giúp trích xuất dữ liệu từ các tài liệu khoa học chính xác và dễ dàng hơn. Hệ thống này có thể tự động trích xuất các điểm chính có trong một bài báo khoa học, giúp người đọc quyết định nhanh việc có cần phải đọc sâu hơn hoặc các nội dung có thể liên quan với họ hay không.
Các hệ thống trích xuất thông tin (IE) hiện nay chỉ có thể trích xuất một phần nội dung của văn bản, hoạt động chưa tốt với các văn bản chứa các câu dài và phức tạp, nên hiệu quả chưa cao. Có hai hệ thống trích xuất thông tin phổ biến là hệ thống hẹp và hệ thống mở.
Hệ thống hẹp hoạt động dựa trên việc xác định chính xác mối quan hệ giữa các khái niệm có trong văn bản. Các nhà nghiên cứu cần phải chỉ định loại quan hệ mà nó cần tìm kiếm. Hạn chế của phương pháp này là số lượng tài liệu tìm ra ít, có thể bỏ sót tài liệu quan trọng.
Hệ thống mở hoạt động theo kiểu kết hợp ngẫu nhiên (scattershot). Mối quan hệ giữa các khái niệm không được định nghĩa trước, thường là sự kết hợp ngẫu nhiên giữa hai đối số. Hạn chế của phương pháp này là nó cung cấp cho các nhà nghiên cứu rất ít quyền kiểm soát với các nội dung mà họ đang trích xuất. Hơn nữa, cú pháp phức tạp của các tài liệu khoa học có thể ảnh hưởng đến hiệu suất của hệ thống, khiến cho việc trích xuất thông tin sai, không đầy đủ hoặc không liên quan.
Hệ thống trích xuất thông tin bán mở là sự kết hợp của cả hai hệ thống hẹp và mở. Thông tin được trích xuất chính xác, sau đó sử dụng hệ thống scattershot để lọc kết quả.
Nhóm nghiên cứu đã nhận thấy cân bằng độc đáo giữa độ chính xác và tính linh hoạt của hai kỹ thuật IE kể trên. Họ đã thử nghiệm trên kho dữ liệu 10.000 văn bản liên quan đến sinh học, và nhận thấy rằng, nó đạt được hiệu suất vượt trội, trích xuất thành công những thông tin quan trọng nhất trong đó.
Kruiper, một thành viên trong nhóm nghiên cứu cho biết: "Lọc các sự kiện bằng hệ thống scattershot giúp cải thiện chất lượng tổng thể, đồng thời giảm đáng kể lượng tài liệu thực tế. Cách tiếp cận kết hợp mà chúng tôi phát triển có thể xác định mối quan hệ trung tâm với độ chính xác cao, đồng thời xác định các yếu tố có liên quan chặt chẽ với nhau".
Mã của hệ thống IE được công bố trực tuyến và có thể truy cập trên trang GitHub của Kruiper. Nó có thể giúp ích cho các nhà nghiên cứu hoặc các kỹ sư để tìm các thông tin khoa học theo một chủ đề nào đó, ngoài lĩnh vực chuyên môn của họ, hoặc những người cần xem xét một lượng lớn các tài liệu nghiên cứu.
Diệu Huyền (CESTI) - Theo Techxplore.com