Tiêu chuẩn quốc gia TCVN 13239-1:2024 về Công nghệ thông tin - Kiến trúc tham chiếu dữ liệu lớn - Phần 1: Khung và quy trình ứng dụng?
- Tiêu chuẩn quốc gia TCVN 13239-1:2024 về Công nghệ thông tin - Kiến trúc tham chiếu dữ liệu lớn - Phần 1: Khung và quy trình ứng dụng?
- Cấu trúc kiến trúc tham chiếu về Công nghệ thông tin - Kiến trúc tham chiếu dữ liệu lớn - Khung và quy trình ứng dụng ra sao?
- Chuẩn hóa dữ liệu lớn: động lực và các mục tiêu theo Tiêu chuẩn quốc gia TCVN 13239-1:2024 ra sao?
Tiêu chuẩn quốc gia TCVN 13239-1:2024 về Công nghệ thông tin - Kiến trúc tham chiếu dữ liệu lớn - Phần 1: Khung và quy trình ứng dụng?
Tiêu chuẩn quốc gia TCVN 13239-1:2024 về Công nghệ thông tin - Kiến trúc tham chiếu dữ liệu lớn - Phần 1: Khung và quy trình ứng dụng đưa ra các yêu cầu cho khung kiến trúc dữ liệu lớn và quy trình giúp người dùng tiêu chuẩn có thể áp dụng vào một miền vấn đề cụ thể.
Theo đó, các khái niệm kiến trúc tham chiếu về Công nghệ thông tin - Kiến trúc tham chiếu dữ liệu lớn - Khung và quy trình ứng dụng được quy định tại tiểu mục 7.2 Mục 7 Tiêu chuẩn quốc gia TCVN 13239-1:2024, cụ thể nhu sau:
- Để có thể hiểu được kiến trúc tham chiếu bao gồm những gì, trước tiên cần phải xác định rằng kiến trúc tham chiếu nghĩa là gì. Vì nó là một kiến trúc, kiến trúc tham chiếu nhất thiết phải sở hữu các đặc điểm của một kiến trúc được định nghĩa trong ISO/IEC/IEEE 42010. Kiến trúc tham chiếu dữ liệu lớn cũng cần được khái quát hóa đủ để có thể bao gồm nhiều loại kiến trúc hệ thống dữ liệu lớn tiềm năng.
- Nhìn theo quan điểm hướng đối tượng, kiến trúc tham chiếu sẽ được coi như là một lớp trừu tượng mà từ đó các trường hợp cụ thể của các kiến trúc rút ra được các cấu trúc và thuộc tính của chúng.
- ISO/TR 14639-2 định nghĩa một kiến trúc tham chiếu trong lĩnh vực kiến trúc phần mềm hoặc kiến trúc doanh nghiệp, cung cấp một giải pháp mẫu đã được chứng minh cho một kiến trúc đối với một miền cụ thể, cũng như là các từ vựng chung dùng trong thảo luận việc thực thi, thường với múc định nhấn mạnh tính chung.
- Dựa trên lý luận này, một kiến trúc tham chiếu là một khung kiến trúc như được định nghĩa bởi ISO/IEC/IEEE 42010, bao gồm cấu trúc, các quy tắc và ràng buộc chung cho tất cả hệ thống dữ liệu lớn. Do đó, kiến trúc tham chiếu dữ liệu lớn cung cấp một loạt các quy ước, nguyên tắc và thực tiễn để mô tả các kiến trúc hệ thống dữ liệu lớn.
- Kiến trúc tham chiếu này được phát triển nhằm đáp ứng nhiều mục tiêu thể hiện trong Hình 1 và được mô tả như là mục đích cốt lõi của kiến trúc tham chiếu, là hướng tới tương lai và được sử dụng (tham chiếu) là cơ sở cho việc thực thi trong tương lai.
Hình 1 - Khái niệm các kiến trúc tham chiếu
Tiêu chuẩn quốc gia TCVN 13239-1:2024 về Công nghệ thông tin - Kiến trúc tham chiếu dữ liệu lớn - Phần 1: Khung và quy trình ứng dụng? (Hình từ Internet)
Cấu trúc kiến trúc tham chiếu về Công nghệ thông tin - Kiến trúc tham chiếu dữ liệu lớn - Khung và quy trình ứng dụng ra sao?
Cấu trúc kiến trúc tham chiếu về Công nghệ thông tin - Kiến trúc tham chiếu dữ liệu lớn - Khung và quy trình ứng dụng được quy định tại tiểu mục 7.3 Mục 7 Tiêu chuẩn quốc gia TCVN 13239-1:2024, cụ thể nhu sau:
- Hình 2 kết hợp các khái niệm và cấu trúc từ ISO/IEC/IEEE 42010 để mô tả phác thảo cho kiến trúc tham chiếu. Một kiến trúc tham chiếu được xác định cho một lĩnh vực. Đối với kiến trúc tham chiếu này, lĩnh vực là dữ liệu lớn.
- Lĩnh vực xác định môi trường, đối với trường hợp dữ liệu lớn thì môi trường được xác nhận chủ yếu bởi các đặc tính cốt yếu của dữ liệu lớn - dung lượng, tốc độ chuyển đổi, tính đa dạng, tính biến đổi (xem TCVN 13238:2020 (ISO/IEC 20546:2019)).
- Các bên liên quan trong môi trường này bao gồm tất cả các bên liên quan thường gặp (người dùng, chủ sở hữu, kiến trúc sư, v.v) đối với bất ký hệ thống nào, cùng với đó là bất kỳ ai có mối quan tâm liên quan đến dữ liệu và các đặc điểm của nó.
- Môi trường hạn chế các mối quan tâm. Vì môi trường được định nghĩa bởi các đặc tính của dữ liệu lớn, các mối quan tâm bị ràng buộc bởi các đặc tính đó và mỗi một mối quan tâm phải liên quan đến một hoặc nhiều đặc điểm cùng với (các) bên liên quan có mối quan tâm đó.
- Kiến trúc tham chiếu được mô tả sử dụng một khung kiến trúc. Khung này được mô tả trong TCVN 13239-3:2023 (ISO/IEC 20547-3:2020) và được trình bày theo hai góc nhìn:
+ Các vai trò và hoạt động - góc nhìn người dùng;
+ Các thành phần chức năng - góc nhìn chức năng.
- Mỗi một quan điểm này lần lượt giải quyết một hoặc nhiều mối quan tâm.
- Các mối quan tâm đó có thể được giải quyết bằng một hoặc nhiều vai trò, hoạt động và thành phần chức năng nằm trong các góc nhìn kiến trúc đó.
- Ví dụ trong một hệ thống theo dõi tín dụng, tất cả mọi người có hồ sơ trong hệ thống đó đều là một bên liên quan. Tất cả đều có mối quan tâm rằng quyền riêng tư của họ cần được duy trì, và sự bảo mật đối với các thông tin cá nhân cần được bảo vệ.
- Nằm trong cả hai góc nhìn người dùng và góc nhìn chức năng của kiến trúc tham chiếu dữ liệu lớn là một khía cạnh xuyên suốt về tính bảo mật và quyền riêng tư. Khía cạnh xuyên suốt này có mối quan hệ với hoạt động “thực hiện thanh tra” và thành phần chức năng “khuôn khổ thanh tra” mà giải quyết mối quan tâm đó.
Hình 2 - Phác thảo cơ bản kiến trúc tham chiếu dựa trên ISO/IEC/IEEE 42010
Chuẩn hóa dữ liệu lớn: động lực và các mục tiêu theo Tiêu chuẩn quốc gia TCVN 13239-1:2024 ra sao?
Chuẩn hóa dữ liệu lớn: động lực và các mục tiêu về công nghệ thông tin kiến trúc tham chiếu dữ liệu lớn được quy định tại Mục 6 Tiêu chuẩn quốc gia TCVN 13239-1:2024, cụ thể như sau:
- Trong một báo cáo năm 2019, IDC dự báo doanh thu toàn thế giới của ngành dữ liệu lớn và phân tích dữ liệu là 189,1 tỉ USD, tăng 12 % so với năm 2018, và dự đoán tỷ lệ tăng trưởng kép hàng năm trong 5 năm là 13,2 % với doanh thu năm 2022 vượt quá 274,3 tỉ USD.
- Ngoài ra, các bên mua và bên thực thi các hệ thống dữ liệu lớn phải đối phó sự bùng nổ các công nghệ và các tùy chọn - một lượng lớn trong số đó được các nhà cung cấp gói gọn trong các từ ngữ thông dụng bao gồm cả các thuật ngữ dữ liệu lớn không xác định.
Để các bên liên quan đến các hệ thống dữ liệu lớn hiểu được những gì họ đang mua và thực thi thì cần có một khung rõ ràng cho việc giao tiếp với các nhà cung cấp dịch vụ và công nghệ tiềm năng nhằm hỗ trợ cho việc giao tiếp trở nên mạnh mẽ và chính xác.
CHÚ THÍCH 1: "Hệ thống dữ liệu lớn" là một hệ thống tận dụng kỹ thuật dữ liệu lớn và sử dụng một mô hình dữ liệu lớn để xử lý dữ liệu lớn.
CHÚ THÍCH 2: “Kỹ thuật dữ liệu lớn” là các kỹ thuật tiên tiến khai thác các tài nguyên độc lập để xây dựng các hệ thống dữ liệu có thể mở rộng khi mà các đặc tính của các tập dữ liệu cần một kiến trúc mới để có thể lưu trữ, thao tác và phân tích một cách hiệu quả.
CHÚ THÍCH 3: “Mô hình dữ liệu lớn” là sự phân phối các hệ thống dữ liệu xuyên suốt các tài nguyên độc lập, được kết hợp theo chiều ngang để đạt được khả năng mở rộng cần thiết cho việc xử lý các tập dữ liệu mở rộng một cách hiệu quả.
- Giá trị tiềm năng của việc phân tích dữ liệu lớn là yếu tố thu hút các tổ chức với việc thực thi các hệ thống dữ liệu lớn, tuy nhiên, họ cần phải hiểu được các vấn đề và trách nhiệm pháp lý tiềm ẩn liên quan đến việc quản lý và kiểm soát dữ liệu này.
IDC ước tính rằng các doanh nghiệp có trách nhiệm và chịu trách nhiệm pháp lý với gần 80 % lượng thông tin trong toàn cầu số và chuẩn bị ứng phó các vấn đề về tuân thủ nguyên tắc, bản quyền và riêng tư. IDC dự đoán thêm rằng, tới năm 2020, hơn 40 % lượng thông tin trong toàn cầu số cần đến sự bảo vệ rõ ràng và lượng dữ liệu này đang tăng nhanh hơn so với tổng toàn cầu số.
Những rủi ro này nghĩa là các tổ chức cần phải có khả năng xác định, định nghĩa và nêu rõ các chính sách cho bảo mật dữ liệu, nguồn gốc và quản trị cũng như là thực thi và cung cấp tư liệu các kỹ thuật kiểm soát để triển khai các chính sách nhằm bảo vệ toàn bộ tổ chức khỏi trách nhiệm pháp lý đối với sự dàn xếp hoặc sử dụng sai dữ liệu do họ kiểm soát.
- Cuối cùng, rất ít các tổ chức xử lý dữ liệu lớn chỉ hoạt động dựa trên dữ liệu nội bộ của họ, nghĩa là các hệ thống thu thập và phân tích dữ liệu lớn phải có khả năng tương tác và chia sẻ dữ liệu một cách an toàn và tin cậy.
Trong thực tế, dung lượng không giới hạn liên kết với dữ liệu lớn thường làm cho việc truyền dữ liệu giữa các hệ thống là không khả thi, trong nhiều trường hợp, các phân tích dựa trên việc truyền dữ liệu này không chỉ đòi hỏi khả năng tương tác ở mức dữ liệu mà còn đòi hỏi ở mức phần mềm và mức ứng dụng giữa các hệ thống.
- Trong bối cảnh dữ liệu lớn hiện nay, các yêu cầu thị trường cho chuẩn hóa dữ liệu lớn được kiểm chứng và các ưu tiên chuẩn hóa được xác định như sau:
+ Các trường hợp sử dụng dữ liệu lớn, các định nghĩa, từ vựng và các kiến trúc tham chiếu (ví dụ: hệ thống, dữ liệu, các nền tảng, trực tuyến/ngoại tuyến, v.v.);
+ Các thông số kỹ thuật và chuẩn hóa siêu dữ liệu bao gồm nguồn gốc dữ liệu;
+ Các mô hình ứng dụng (ví dụ: khối, luồng, v.v.);
+ Các ngôn ngữ truy vấn bao gồm các truy vấn không ràng buộc hỗ trợ các kiểu dữ liệu đa dạng (XML, RDF, JSON, đa phương tiện, v.v.) và các hoạt động dữ liệu lớn (ví dụ: các hoạt động ma trận);
+ Ngôn ngữ cho một miền cụ thể;
+ Ngữ nghĩa chính thức cuối cùng;
+ Các giao thức mạng tiên tiến cho việc truyền dữ liệu hiệu quả;
+ Các bản thể học chung, các bản thể học cho miền cụ thể và các nguyên tắc phân loại cho việc mô tả ngữ nghĩa dữ liệu bao gồm cả sử tương tác giữa các bản thể học;
+ Các kiểm soát truy cập bảo mật và quyền riêng tư dữ liệu lớn;
+ Phân tích từ xa, phân tán và liên kết (đưa các phân tích vào dữ liệu) bao gồm dữ liệu và xử lý tài nguyên khám phá và khai thác dữ liệu;
+ Chia sẻ và trao đổi dữ liệu;
+ Lưu trữ dữ liệu (ví dụ: hệ thống lưu trữ bộ nhớ, hệ thống tệp phân tán, kho dữ liệu, v.v.);
+ Việc sử dụng của con người cho các kết quả của việc phân tích dữ liệu (ví dụ: sự trực quan hóa);
+ Đo năng lượng cho dữ liệu lớn;
+ Giao diện giữa các kho dữ liệu quan hệ (SQL) và phi quan hệ (NoSQL);
+ Chất lượng, sự mô tả chân thực và quản lý dữ liệu lớn.
- Bộ tiêu chuẩn TCVN 13238:2020 (ISO/IEC 20546:2019) và TCVN 13239 (ISO/IEC 20547) được phát triển với mục đích giải quyết các vấn đề này.
- Tiêu chuẩn này đề cập cụ thể khung và quy trình ứng dụng, các trường hợp sử dụng và yêu cầu dữ liệu lớn [điểm a) ở trên], các kiến trúc tham chiếu [điểm a) ở trên], bảo mật và quyền riêng tư [điểm i) ở trên] và lộ trình tiêu chuẩn hoá.
- Ngoài ra, các tổ chức có các yêu cầu phân tích dữ liệu không thể đợi các tiêu chuẩn dữ liệu lớn cụ thể trước khi họ có thể thực thi các hệ thống của mình. Bởi vì dữ liệu lớn về bản chất là một tập con của tất cả dữ liệu, và hầu hết các tiêu chuẩn công nghệ thông tin đều xử lý dữ liệu ở một khía cạnh nào đó, đang có một số lượng lớn các tiêu chuẩn đang được áp dụng hoặc đang trong quá trình phát triển nhằm giải quyết một số vấn đề của dữ liệu lớn.
- Để giải quyết nhu cầu này, TCVN 13239-5:2020 (ISO/IEC TR 20547-5:2018) là một lộ trình các tiêu chuẩn nhằm hiệu chỉnh các tiêu chuẩn hiện có tới các vai trò nằm trong kiến trúc tham chiếu để cung cấp cho các bên liên quan tới hệ thống dữ liệu lớn các hướng dẫn về cách áp dụng các tiêu chuẩn này như thế nào vào các vấn đề ngày nay.










Quý khách cần hỏi thêm thông tin về có thể đặt câu hỏi tại đây.
- Báo hiệu đường bộ được lắp đặt gồm những gì? Nguyên tắc lắp đặt đèn tín hiệu giao thông và biển báo hiệu đường bộ?
- Viết đoạn văn phân tích vẻ đẹp của Thúy Kiều trong Truyện Kiều? Các nguyên tắc cơ bản về bình đẳng giới được quy định như thế nào?
- Đường cao tốc là gì? Đường cao tốc được phân làm bao nhiêu cấp? Các quy định chung về đường cao tốc?
- Ban quản trị chung cư ký hợp đồng 3 năm với đơn vị quản lý vận hành khi nhiệm kỳ còn 6 tháng được không?
- Tính cạnh tranh có phải là tiêu chí để sản phẩm công nghệ cao được khuyến khích phát triển không?