Tin tức & Sự kiện Tin tức & Sự kiện
Các tính năng cấu trúc được định lượng thành công của ngôn ngữ bằng cách sử dụng mạng đồng xuất từ
~ góp phần thực hiện các phương pháp phân tích dữ liệu mới vượt xa các rào cản ngôn ngữ ~
Tóm tắt nghiên cứu và điểm
- Mạng Word Cooccurrence là một phương pháp phân tích ngôn ngữ định lượng và nó có thể đánh giá sự tương đồng và khác biệt giữa các ngôn ngữ
- Khi được phân tích bốn loại tài liệu được dịch thành tám ngôn ngữ bằng mạng đồng xuất, người ta đã tiết lộ rằng các tính năng quan trọng của mỗi ngôn ngữ xuất hiện khi phân tích ba hoặc nhiều từ liên tiếp
- Chúng tôi cũng thấy rằng một số chỉ số phân tích thay đổi do nội dung của dữ liệu văn bản
- Một sự phát triển hơn nữa của nghiên cứu này dự kiến sẽ tạo ra một ngôn ngữ học mới - Ngôn ngữ học toán học - cho phép phân tích tích hợp nhiều ngôn ngữ khác nhau
Một nhóm nghiên cứu bao gồm Giáo sư Ikeguchi Toru, tỷ lệ kèo nhà cái net Kỹ thuật thông tin, tỷ lệ kèo nhà cái net Kỹ thuật, Đại học tỷ lệ kèo nhà cái net học Tokyo, và Magishi Norihei (hoàn thành chương trình thạc sĩ năm 2021) Đại học, sử dụng một mạng lưới các từ đồng xuất, đã phân tích dữ liệu văn bản từ bốn loại tài liệu (Tin mừng về Tân Ước (Hy Lạp, tiếng Anh, tiếng Đức, tiếng Pháp, tiếng Nga, tiếng Phần Lan, tiếng Trung Quốc)
Kết quả là, liên tụcntạo thành mạng đồng xuất với các từnn≥ Nó đã được tiết lộ rằng các tính năng quan trọng của mỗi ngôn ngữ xuất hiện ở mức 3
Hy vọng rằng bằng cách phát triển nghiên cứu này, nó sẽ dẫn đến việc thực hiện một ngôn ngữ học mới - ngôn ngữ học toán học - sẽ cho phép phân tích một lượng dữ liệu khổng lồ được viết bằng các ngôn ngữ khác nhau
Kết quả của nghiên cứu này đã được công bố vào ngày 1 tháng 4 năm 2022Được xuất bản trực tuyến trong "Lý thuyết phi tuyến và các ứng dụng của nó, IEICE"đã được thực hiện
Bối cảnh nghiên cứu
Trong những năm gần đây, các phương pháp phân tích được gọi là khai thác văn bản, trích xuất thông tin cần thiết từ một lượng lớn dữ liệu văn bản, đã thu hút sự chú ý Phân tích dữ liệu bằng cách sử dụng khai thác văn bản cho phép bạn chia các từ khác nhau thành hình thái và tổng hợp chúng để hình dung tần suất xuất hiện và liên quan Ví dụ, áp dụng nó để phân tích các cuộc khảo sát bằng văn bản sẽ giúp bạn nhanh chóng khám phá nhu cầu và thách thức của khách hàng Mạng COCCURRENCE, một loại khai thác văn bản, trực quan hóa các kết nối của các từ trong các câu dựa trên mối quan hệ giữa các từ và sự tương đồng của các mẫu ngoại hình và được sử dụng để đánh giá các đặc điểm cấu trúc của các câu khác nhau
Mạng đồng xuất là gì?nBằng cách làm cho mỗi đỉnh của các từ liên tiếp như mỗi đỉnh và kết nối chúng, các mối quan hệ của các từ được thể hiện dưới dạng mạng Các mạng xuất hiện cho phép trực quan hóa các từ, có thể được áp dụng để hiểu các biểu thức xuất hiện thường xuyên và để hiểu mục đích của toàn bộ câu Nghiên cứu gần đây cũng đã tiết lộ rằng các tính năng ngữ pháp của nhiều ngôn ngữ có thể được nắm bắt bằng cách sử dụng các mạng đồng xuất Tuy nhiên,n= Nhiều nghiên cứu đã được thực hiện trên 2,n= Mối quan hệ giữa các từ ở khoảng cách 3 trở lên vẫn chưa rõ ràng
Vì vậy, để làm rõ các điểm chung và sự khác biệt về các đặc điểm cấu trúc của các ngôn ngữ trên toàn thế giới, nhóm nghiên cứu này nhắm vào các dữ liệu văn bản khác nhau được viết bằng các ngôn ngữ khác nhau có cùng nội dungn(n= 2-8) thay đổi một cách có hệ thống 111443_111511 | = 2-8) và cố gắng làm rõ chi tiết hơn các quy tắc cấu trúc và ngữ pháp duy nhất cho mỗi ngôn ngữ
Chi tiết kết quả nghiên cứu
Nghiên cứu này đã phân tích dữ liệu văn bản bằng tám ngôn ngữ (tiếng Hy Lạp, tiếng Anh, tiếng Đức, tiếng Pháp, tiếng Nga, tiếng Phần Lan, tiếng Trung, tiếng Nhật), bốn loại tài liệu (Tin Mừng của Tân Ước (Mark, Matthew, Luke, John) Lý do tại sao những tài liệu nổi tiếng này được nghiên cứu là vì chúng được dịch sang nhiều ngôn ngữ khác nhau và dễ dàng tìm thấy khác nhau giữa các ngôn ngữ
Được tạo bằng mạng đồng xuấtn= Liên quan đến các tính năng cấu trúc của các mạng từ 2 đến 8, 1) số từ, 2) Số lượng đỉnh (hình thái (1)), 3)3(※ 3), ⑤ Hệ số cụm vuông C4(※ 4), độ dài đường dẫn ngắn nhất ⑥VerageL(*5) Kết quả,n= Sự khác biệt giữa các ngôn ngữ không xuất hiện trong 2n≥ Nó đã được tiết lộ rằng nó hiện đã xuất hiện ở mức 3 và một số chỉ số phân tích thay đổi do nội dung của dữ liệu văn bản
Chúng tôi cũng phát hiện ra rằng Nhật Bản và Phần Lan, được phân loại là sự gây hấn, có các tính năng cấu trúc rất khác nhau từ các ngôn ngữ khác Tuy nhiên,nĐộ dài đường dẫn ngắn nhất trung bình khi tăngL| Có sự khác biệt giữa hai ngôn ngữ, vì vậyLcó thể phân biệt giữa Nhật Bản và Phần Lan
Liên quan đến kết quả của nghiên cứu này, Giáo sư Ikeguchi, người đã lãnh đạo nghiên cứu, nói: "Nếu chúng ta có thể khắc phục các rào cản ngôn ngữ đối với dữ liệu được viết bằng các ngôn ngữ khác nhau trên toàn thế giới và phát triển các quy trình phân tích dữ liệu Điểm chung và tính phổ quát xuất hiện trong các chức năng ngữ pháp của các ngôn ngữ khác nhau, chúng ta có thể thiết lập nền tảng cho ngôn ngữ học mới, có thể được gọi là ngôn ngữ học toán học
*Nghiên cứu này được thực hiện với các khoản tài trợ từ Hiệp hội nghiên cứu tỷ lệ kèo nhà cái net học tỷ lệ kèo nhà cái net học Nhật Bản (JP18K12701, JP20H00596, JP21H03514, JP21H03508)
Thuật ngữ
*1 Morphem: đơn vị biểu thức nhỏ nhất có ý nghĩa trong ngôn ngữ
*2 Mật độ: 2E / n(n-1)Elà số lượng kết nối,nđại diện cho số lượng các đỉnh
*3 Hệ số cụm tam giác C3: Một chỉ báo khi ba từ liên tiếp trong tài liệu có liên quan với nhau để tạo cấu trúc hình tam giác Nó được sử dụng để đánh giá các tính chất cấu trúc địa phương
*4 Hệ số cụm hình chữ nhật C4: Một chỉ báo khi bốn từ liên tiếp trong tài liệu có liên quan với nhau để tạo cấu trúc hình chữ nhật Nó được sử dụng để đánh giá các tính chất cấu trúc địa phương
*5 Độ dài đường dẫn ngắn nhất trung bìnhL: Tính trung bình số lượng các bước tối thiểu cần thiết để đạt được bất kỳ đỉnh nào khác từ bất kỳ đỉnh nào Nó được sử dụng để đánh giá các đặc điểm cấu trúc của toàn bộ mạng
Thông tin bài viết
Tên tạp chí
Lý thuyết phi tuyến và các ứng dụng của nó, IEICE
Tiêu đề của tờ giấy
Điều tra các tính năng cấu trúc của các mạng xuất hiện từ với số lượng từ được kết nối tăng lên
tác giả
Kihei Magishi, Tomoko Matsumoto, Yutaka Shimada và Tohru Ikeguchi
doi
Lab
Trang phòng thí nghiệm Ikeguchi:http: //wwwhisenkeinet/
Trang của Giáo sư Ikeguchi:https: //wwwtusacjp/academics/teacher/p/indexphp? 1174
Matsumoto Lab Trang:https: //wwwrstusacjp/tomokomatsumoto/indexhtml
Trình hướng dẫn Matsumoto trang:https: //wwwtusacjp/academics/teacher/p/indexphp? 6fe3
Về Đại học tỷ lệ kèo nhà cái net học Tokyo
Đại học tỷ lệ kèo nhà cái net học Tokyo:tỷ lệ kèo nhà cái hôm
Bấm vào đây để biết thêm chi tiết