Header Ads

  • Breaking News

    Khi một website đóng lại, dữ liệu sẽ đi đâu?

    Hoàng Tư Giang

    02/6/2026

    Mấy năm trước, các website đã âm thầm đóng lại khi các tờ báo chủ sở hữu các website đó phải dừng hoạt động theo quy hoạch báo chí.

    Lúc đó, nhiều người quan tâm tới câu chuyện nhân sự, bộ máy hay thương hiệu của tờ báo. 

    Nhưng tôi lại nghĩ tới một chuyện khác: hàng chục nghìn/hàng trăm nghìn bài báo mà các tờ báo đã xuất bản trong nhiều năm, kể từ khi Việt Nam kết nối Internet năm 1997 sẽ đi đâu?

    Trong số đó có những cuộc tranh luận chính sách, những hồ sơ doanh nghiệp, những dự án đầu tư, những câu chuyện về khu vực kinh tế tư nhân thời kỳ đầu và vô số lát cắt đời sống xã hội của một giai đoạn phát triển rất đặc biệt của đất nước. 

    Một tờ báo đóng cửa không chỉ là mất đi một cơ quan báo chí. Dưới góc độ dữ liệu, đó còn có thể là sự biến mất của cả một kho tư liệu mà xã hội đã mất nhiều năm để tạo ra.

    Một tờ báo không chỉ là tài sản của Nhà nước và Nhân dân. Mỗi tờ báo giống như một cuốn nhật ký của xã hội. Trong đó không chỉ có những thành công đáng tự hào, mà còn có cả những quyết định sai lầm, những cơ hội bị bỏ lỡ và những bài học mà một đất nước không nên quên.

    Bây giờ, khi chương trình tinh gọn đang được triển khai trên quy mô lớn hơn rất nhiều, câu hỏi đó lại quay trở lại.

    Sau quá trình sắp xếp đơn vị hành chính, cả nước từ 63 tỉnh, thành còn 34. Cùng với đó, nhiều địa phương chỉ còn một cơ quan báo chí và một đài phát thanh - truyền hình. 

    Hà Nội từng có nhiều cơ quan báo chí trực thuộc thành phố, TP.HCM cũng vậy. Báo chí của hai Thành phố giờ cũng như các tỉnh.

    Nhìn từ góc độ quản lý, chủ trương này có lý do của nó. 

    Nhưng nhìn từ góc độ dữ liệu, tôi tự hỏi liệu những dữ liệu đang được tạo ra hôm nay có còn được ghi nhận đầy đủ như trước hay không.

    Và quan trọng hơn, những dữ liệu đã được tạo ra trong nhiều chục năm qua sẽ được lưu giữ như thế nào.

    Hay đơn giản là đóng lại!

    Người ta thường nhìn báo chí như một nơi sản xuất tin tức (rách việc). Nhưng báo chí còn là một trong những hệ thống thu thập dữ liệu lớn nhất của xã hội. 

    Mỗi ngày, hàng nghìn phóng viên đi gặp doanh nghiệp, xuống địa phương, tiếp xúc người dân, ghi nhận những thay đổi đang diễn ra trong nền kinh tế và đời sống. Sản phẩm của họ chính là dữ liệu.

    Điều thú vị là đúng vào lúc Việt Nam đang nói rất nhiều về AI thì một phần hệ thống sản xuất và lưu giữ dữ liệu lớn nhất của mình là các website báo chí lại đang thu hẹp.

    AI có thể đọc hàng triệu bài viết, tổng hợp hàng nghìn báo cáo và trả lời gần như mọi câu hỏi. 

    Nhưng AI không tự đi gặp một doanh nghiệp nhỏ đang bên bờ phá sản, không tự xuống một huyện miền núi để ghi nhận một mô hình sản xuất mới, cũng không tự ngồi ở một xã vùng sâu để nghe người dân kể họ đang gặp khó khăn gì. AI chỉ học từ những gì xã hội đã ghi lại.

    Nói cách khác, AI đang sống trên cánh đồng dữ liệu mà báo chí, giới nghiên cứu và rất nhiều người khác đã gieo trồng suốt nhiều thập kỷ. 

    Người ta thường nghĩ AI cạnh tranh với báo chí, nhưng thực tế AI và báo chí đang sống trên cùng một nguồn tài nguyên: dữ liệu gốc.

    Điều đáng suy nghĩ hơn là dữ liệu không chỉ nằm ở hiện tại. 

    Một website báo chí biến mất không đơn thuần là vài bài báo không còn truy cập được. Đó có thể là hàng chục năm lịch sử của doanh nghiệp, của chính sách, của một địa phương hay của cả một giai đoạn phát triển kinh tế - xã hội không còn dễ dàng tìm lại.

    Với báo điện tử, một website biến mất có thể kéo theo hàng chục nghìn bài viết biến mất khỏi Internet. 

    Một đường link chết đi không chỉ là một lỗi kỹ thuật. Nó có thể là một mảnh ký ức của xã hội không còn hiện diện trên không gian số.

    Người ta thường nói rất nhiều về trung tâm dữ liệu, chủ quyền dữ liệu và trí tuệ nhân tạo. 

    Nhưng có lẽ cũng nên đặt thêm một câu hỏi: liệu chúng ta đã thực sự coi dữ liệu báo chí là một phần của hạ tầng quốc gia hay chưa?

    Bởi một quốc gia có thể đầu tư hàng tỷ USD vào trung tâm dữ liệu và AI. Nhưng nếu những dữ liệu gốc của chính mình không được lưu giữ đầy đủ, một ngày nào đó chúng ta có thể sở hữu những mô hình AI rất mạnh nhưng lại ngày càng nghèo ký ức.

    Điều đáng lo là chính chúng ta sẽ biết ít hơn về những gì mình đã từng và sẽ trải qua.


    Không có nhận xét nào