Hệ thống nguồn mở để quản lý và chia sẻ bộ dữ liệu phức tạp
TNNN - Xây dựng được hệ thống quản lý dữ liệu nguồn mở mới được kỳ vọng sẽ tạo thuận lợi cho các nhà khoa học trong việc hợp tác chia sẻ dữ liệu.
Nhóm nghiên cứu tại trường Đại học Ohio đã xây dựng được một hệ thống quản lý dữ liệu nguồn mở mới, hệ thống này mang đến cho các nhà khoa học hy vọng sẽ có những thuận lợi tích cực trong việc hợp tác, chia sẻ dữ liệu.
Đơn giản hóa cách các nhà khoa học chia sẻ dữ liệu
Dữ liệu thường là trung tâm của khoa học. Các nhà nghiên cứu sử dụng dữ liệu để theo dõi vận tốc, đo ánh sáng đến từ các ngôi sao, phân tích nhịp tim, mức cholesterol và quét não người để xác định xung điện.
Tuy nhiên, việc chia sẻ dữ liệu đó với các nhà khoa học khác hoặc với các biên tập viên tạp chí uy tín hoặc nhà tài trợ rất khó do các phần mềm được thiết kế ở dạng có bản quyền, giá thành cao.
Ngoài ra, có thể sẽ phải mất nhiều năm mới đào tạo được một người có thể hiểu phần mềm và quản lý được phần mềm. Bên cạnh đó, không loại trừ khả năng có thể xảy ra là công ty xây dựng phần mềm đã ngừng hoạt động.
Trước thực trạng này, nhóm nghiên cứu đã phát triển được một hệ thống quản lý dữ liệu nguồn mở mà các nhà khoa học hy vọng sẽ giải quyết tất cả những vấn đề đó. Hệ thống này đã được công bố trên tạp chí PLOS ONE.
“Chúng tôi muốn tạo ra định dạng tệp và mô hình bộ dữ liệu sẽ gói gọn phần lớn các bộ dữ liệu mà chúng tôi nghiên cứu, trên tất cả các công cụ trong phòng thí nghiệm”, GS. Philip Grandinetti và là tác giả chính của bài báo nghiên cứu cho biết và nhấn mạnh rằng, “Vấn đề tồn tại từ lâu và phổ biến trong các nhà khoa học là bạn mua một công cụ trị giá hàng triệu đô la và các công ty sản xuất công cụ đó có định dạng độc quyền của riêng họ và khó chia sẻ với bất kỳ ai khác”.
Theo GS. Philip Grandinetti, các bộ dữ liệu lớn phức tạp khi chia sẻ, một phần vì phần mềm thường là độc quyền, nhưng cũng một phần vì các tệp thường lớn đến mức khó chia sẻ trong email hoặc qua máy chủ dựa vào đám mây. Ngay cả khi các tệp được xuất dưới dạng loại tệp có thể chia sẻ, thì siêu dữ liệu quan trọng thường bị mất.
Hệ thống mà Grandinetti và các đồng nghiệp đặt tên là Mô hình dữ liệu khoa học cốt lõi, được thiết kế để chia sẻ các bộ dữ liệu phức tạp một cách dễ dàng, không có các tệp lớn chiếm nhiều băng thông và dung lượng ổ cứng và không mất siêu dữ liệu. Khi xem xét bộ dữ liệu bao gồm nhiệt độ không khí, áp suất không khí, tốc độ gió và thông lượng mặt trời, hệ thống này có thể xử lý nó. Ngoài ra, hệ thống này cũng có thể xử lý khi xem xét các phép đo và màu sắc của ánh sáng đến từ một ngôi sao trong một thiên hà xa xôi.
Grandinetti cho rằng: “Bạn cần một bộ dữ liệu cực kỳ linh hoạt trong khả năng chứa tất cả những thứ đó trong một định dạng tệp mà không làm mất thông tin. Vì vậy, ý tưởng là chúng tôi đã tạo ra một mô hình mà chúng tôi nghĩ là đủ linh hoạt để làm điều đó”.
Với việc xây dựng được một hệ thống quản lý dữ liệu nguồn mở mới, các nhà nghiên cứu hy vọng đây sẽ là phương pháp đơn giản và miễn phí để kết hợp nhiều loại dữ liệu vào một nơi.
(PV). Nguồn: https://scitechdaily.com/new-open-source-system-developed-to-manage-and-share-complex-datasets/