Semalt: Wiki hoạt động như thế nào trong các ngôn ngữ khác nhau?

Oliver King, Giám đốc thành công của khách hàng Semalt , nói rằng Wikipedia có nhiều dữ liệu, bài báo và nội dung bằng các ngôn ngữ khác nhau và các biên tập viên được khuyến khích tạo ra các bài viết còn thiếu trên cuốn bách khoa toàn thư khổng lồ này. Thật an toàn khi nói rằng Wikipedia tồn tại trong hơn ba trăm ngôn ngữ, nhưng hầu hết chúng không hoàn chỉnh và tương đối nhỏ. Mọi người từ khắp nơi trên thế giới ghé thăm Wikipedia hàng ngày và đọc hơn 300 phiên bản ngôn ngữ. Một số người trong số họ tìm kiếm các bài báo và nội dung cụ thể được viết bởi hàng trăm đến hàng ngàn nhà văn tình nguyện chịu trách nhiệm xây dựng và duy trì cuốn bách khoa toàn thư nổi tiếng và miễn phí này. Khách truy cập Wikipedia chủ yếu tìm kiếm các bài báo bằng tiếng Anh và các ngôn ngữ khác chiếm tới 30 triệu mục nhập Wiki.

Dân chủ hóa truy cập vào kiến thức

Để giúp các nhà văn và biên tập viên của các cộng đồng ngôn ngữ khác nhau đánh giá các bài viết còn thiếu, các chuyên gia máy tính tại Wikimedia Foundation và Stanford đã tạo thành công một số công cụ. Một trong số đó giúp xác định các bài viết quan trọng chưa có sẵn bằng một ngôn ngữ cụ thể. Biên tập viên sau đó sử dụng các khuyến nghị này để tạo ra các bài viết mới. Nếu các biên tập viên và nhà văn là đa ngôn ngữ, thì việc tìm các bài viết bằng ngôn ngữ thứ hai và dịch nó sang ngôn ngữ địa phương cho người đọc Wikipedia là rất dễ dàng.

Vì vậy, hệ thống này trước tiên sẽ xác định biên tập viên của Madagascar, người muốn viết bằng tiếng Pháp và sẽ yêu cầu biên tập viên hoàn thành các phần còn thiếu của một bài viết và được xuất bản trên Wikipedia Malagasy. Bằng cách này, các biên tập viên có thể tạo bài viết cho những người khác nhau trên thế giới, từ đó có thể ảnh hưởng đến trải nghiệm người dùng nói chung.

Các nhà nghiên cứu của Wikimedia Foundation Leila Zia và Ellery Wulczyn đã hợp tác với sinh viên Robert West của Đại học Stanford để trình bày một báo cáo tại Hội nghị World Wide Web International, Montreal. Theo họ, Wikipedia có lượng dữ liệu phong phú và có mối quan hệ chặt chẽ giữa các bài viết của nó.

Các nhà khoa học đã bắt đầu tạo danh sách các bài báo bằng các ngôn ngữ khác nhau và tham khảo chéo các danh sách để tìm ra bài viết nào bị thiếu trong ngôn ngữ nào. Sau đó, họ ước tính tầm quan trọng của tất cả các bài viết còn thiếu dựa trên sự phù hợp về địa lý và văn hóa. Họ nhằm mục đích xuất bản các bài báo còn thiếu càng sớm càng tốt và để có được thứ hạng tốt hơn.

Cắm các khoảng trống

Các nhà nghiên cứu đã thử nghiệm tiền đề với một loạt các thí nghiệm. Họ bắt đầu dự án với hơn 4 triệu bài báo được viết bằng tiếng Anh và phát hiện ra rằng hơn 1,5 triệu bài viết bị thiếu trong phần Wikipedia tiếng Pháp. Các chuyên gia sau đó đã chọn 300.000 bài báo tiếng Anh quan trọng và dịch nó sang tiếng Pháp. Các bài viết được chia thành ba nhóm chính gồm hơn 100.000 bài viết mỗi bài và được bàn giao cho các biên tập viên giỏi nhất và giàu kinh nghiệm nhất. Điểm mấu chốt của thí nghiệm liên quan đến hai nhóm chính gồm sáu nghìn biên tập viên và nhà văn đã thực hiện nhiều chỉnh sửa bằng cả tiếng Pháp và tiếng Anh trong vòng mười hai tháng trước khi thử nghiệm kết thúc. Vào tháng 6 năm 2015, tất cả các biên tập viên đã nhận được một email chỉ ra những bài báo còn thiếu duy nhất và họ được yêu cầu dịch toàn bộ danh sách các bài báo từ tiếng Anh sang tiếng Pháp. Một tháng sau, các chuyên gia đã truy cập vào việc tạo bài viết còn thiếu và thấy rằng họ có thể tăng tỷ lệ tạo bài viết hữu cơ. Dựa trên tất cả các kết quả này, Tổ chức Wikipedia đã phát triển một số công cụ thử nghiệm trong đó các biên tập viên và nhà văn có thể tìm thấy những khoảng trống trong ngôn ngữ địa phương của họ và được chỉ ra các mục cụ thể.