~言語の壁を越えた新たなデータ解析法の実現に寄与~|東京理科大学">

Tin tức & Sự kiện Tin tức & Sự kiện

20220411 Mon Up

Các tính năng cấu trúc được định lượng thành công của ngôn ngữ bằng cách sử dụng mạng đồng xuất từ
~ góp phần thực hiện các phương pháp phân tích dữ liệu mới vượt xa các rào cản ngôn ngữ ~

Tóm tắt nghiên cứu và điểm

  • Mạng Word Cooccurrence là một phương pháp phân tích ngôn ngữ định lượng và nó có thể đánh giá sự tương đồng và khác biệt giữa các ngôn ngữ
  • Khi được phân tích bốn loại tài liệu được dịch thành tám ngôn ngữ bằng mạng đồng xuất, người ta đã tiết lộ rằng các tính năng quan trọng của mỗi ngôn ngữ xuất hiện khi phân tích ba hoặc nhiều từ liên tiếp
  • Chúng tôi cũng thấy rằng một số chỉ số phân tích thay đổi do nội dung của dữ liệu văn bản
  • Một sự phát triển hơn nữa của nghiên cứu này dự kiến ​​sẽ tạo ra một ngôn ngữ học mới - Ngôn ngữ học toán học - cho phép phân tích tích hợp nhiều ngôn ngữ khác nhau

Một nhóm nghiên cứu bao gồm Giáo sư Ikeguchi Toru, tỷ lệ kèo nhà cái net Kỹ thuật thông tin, tỷ lệ kèo nhà cái net Kỹ thuật, Đại học tỷ lệ kèo nhà cái net học Tokyo, và Magishi Norihei (hoàn thành chương trình thạc sĩ năm 2021) Đại học, sử dụng một mạng lưới các từ đồng xuất, đã phân tích dữ liệu văn bản từ bốn loại tài liệu (Tin mừng về Tân Ước (Hy Lạp, tiếng Anh, tiếng Đức, tiếng Pháp, tiếng Nga, tiếng Phần Lan, tiếng Trung Quốc)

Kết quả là, liên tụcntạo thành mạng đồng xuất với các từnn≥ Nó đã được tiết lộ rằng các tính năng quan trọng của mỗi ngôn ngữ xuất hiện ở mức 3

Hy vọng rằng bằng cách phát triển nghiên cứu này, nó sẽ dẫn đến việc thực hiện một ngôn ngữ học mới - ngôn ngữ học toán học - sẽ cho phép phân tích một lượng dữ liệu khổng lồ được viết bằng các ngôn ngữ khác nhau

Kết quả của nghiên cứu này đã được công bố vào ngày 1 tháng 4 năm 2022Được xuất bản trực tuyến trong "Lý thuyết phi tuyến và các ứng dụng của nó, IEICE"đã được thực hiện

Bối cảnh nghiên cứu

Trong những năm gần đây, các phương pháp phân tích được gọi là khai thác văn bản, trích xuất thông tin cần thiết từ một lượng lớn dữ liệu văn bản, đã thu hút sự chú ý Phân tích dữ liệu bằng cách sử dụng khai thác văn bản cho phép bạn chia các từ khác nhau thành hình thái và tổng hợp chúng để hình dung tần suất xuất hiện và liên quan Ví dụ, áp dụng nó để phân tích các cuộc khảo sát bằng văn bản sẽ giúp bạn nhanh chóng khám phá nhu cầu và thách thức của khách hàng Mạng COCCURRENCE, một loại khai thác văn bản, trực quan hóa các kết nối của các từ trong các câu dựa trên mối quan hệ giữa các từ và sự tương đồng của các mẫu ngoại hình và được sử dụng để đánh giá các đặc điểm cấu trúc của các câu khác nhau

Mạng đồng xuất là gì?nBằng cách làm cho mỗi đỉnh của các từ liên tiếp như mỗi đỉnh và kết nối chúng, các mối quan hệ của các từ được thể hiện dưới dạng mạng Các mạng xuất hiện cho phép trực quan hóa các từ, có thể được áp dụng để hiểu các biểu thức xuất hiện thường xuyên và để hiểu mục đích của toàn bộ câu Nghiên cứu gần đây cũng đã tiết lộ rằng các tính năng ngữ pháp của nhiều ngôn ngữ có thể được nắm bắt bằng cách sử dụng các mạng đồng xuất Tuy nhiên,n= Nhiều nghiên cứu đã được thực hiện trên 2,n= Mối quan hệ giữa các từ ở khoảng cách 3 trở lên vẫn chưa rõ ràng

Vì vậy, để làm rõ các điểm chung và sự khác biệt về các đặc điểm cấu trúc của các ngôn ngữ trên toàn thế giới, nhóm nghiên cứu này nhắm vào các dữ liệu văn bản khác nhau được viết bằng các ngôn ngữ khác nhau có cùng nội dungn(n= 2-8) thay đổi một cách có hệ thống 111443_111511 | = 2-8) và cố gắng làm rõ chi tiết hơn các quy tắc cấu trúc và ngữ pháp duy nhất cho mỗi ngôn ngữ

Chi tiết kết quả nghiên cứu

Nghiên cứu này đã phân tích dữ liệu văn bản bằng tám ngôn ngữ (tiếng Hy Lạp, tiếng Anh, tiếng Đức, tiếng Pháp, tiếng Nga, tiếng Phần Lan, tiếng Trung, tiếng Nhật), bốn loại tài liệu (Tin Mừng của Tân Ước (Mark, Matthew, Luke, John) Lý do tại sao những tài liệu nổi tiếng này được nghiên cứu là vì chúng được dịch sang nhiều ngôn ngữ khác nhau và dễ dàng tìm thấy khác nhau giữa các ngôn ngữ

Được tạo bằng mạng đồng xuấtn= Liên quan đến các tính năng cấu trúc của các mạng từ 2 đến 8, 1) số từ, 2) Số lượng đỉnh (hình thái (1)), 3)3(※ 3), ⑤ Hệ số cụm vuông C4(※ 4), độ dài đường dẫn ngắn nhất ⑥VerageL(*5) Kết quả,n= Sự khác biệt giữa các ngôn ngữ không xuất hiện trong 2n≥ Nó đã được tiết lộ rằng nó hiện đã xuất hiện ở mức 3 và một số chỉ số phân tích thay đổi do nội dung của dữ liệu văn bản

Chúng tôi cũng phát hiện ra rằng Nhật Bản và Phần Lan, được phân loại là sự gây hấn, có các tính năng cấu trúc rất khác nhau từ các ngôn ngữ khác Tuy nhiên,nĐộ dài đường dẫn ngắn nhất trung bình khi tăngL| Có sự khác biệt giữa hai ngôn ngữ, vì vậyLcó thể phân biệt giữa Nhật Bản và Phần Lan

Liên quan đến kết quả của nghiên cứu này, Giáo sư Ikeguchi, người đã lãnh đạo nghiên cứu, nói: "Nếu chúng ta có thể khắc phục các rào cản ngôn ngữ đối với dữ liệu được viết bằng các ngôn ngữ khác nhau trên toàn thế giới và phát triển các quy trình phân tích dữ liệu Điểm chung và tính phổ quát xuất hiện trong các chức năng ngữ pháp của các ngôn ngữ khác nhau, chúng ta có thể thiết lập nền tảng cho ngôn ngữ học mới, có thể được gọi là ngôn ngữ học toán học

*Nghiên cứu này được thực hiện với các khoản tài trợ từ Hiệp hội nghiên cứu tỷ lệ kèo nhà cái net học tỷ lệ kèo nhà cái net học Nhật Bản (JP18K12701, JP20H00596, JP21H03514, JP21H03508)

Thuật ngữ

*1 Morphem: đơn vị biểu thức nhỏ nhất có ý nghĩa trong ngôn ngữ

*2 Mật độ: 2E / n(n-1)Elà số lượng kết nối,nđại diện cho số lượng các đỉnh

*3 Hệ số cụm tam giác C3: Một chỉ báo khi ba từ liên tiếp trong tài liệu có liên quan với nhau để tạo cấu trúc hình tam giác Nó được sử dụng để đánh giá các tính chất cấu trúc địa phương

*4 Hệ số cụm hình chữ nhật C4: Một chỉ báo khi bốn từ liên tiếp trong tài liệu có liên quan với nhau để tạo cấu trúc hình chữ nhật Nó được sử dụng để đánh giá các tính chất cấu trúc địa phương

*5 Độ dài đường dẫn ngắn nhất trung bìnhL: Tính trung bình số lượng các bước tối thiểu cần thiết để đạt được bất kỳ đỉnh nào khác từ bất kỳ đỉnh nào Nó được sử dụng để đánh giá các đặc điểm cấu trúc của toàn bộ mạng

Thông tin bài viết

Tên tạp chí

Lý thuyết phi tuyến và các ứng dụng của nó, IEICE

Tiêu đề của tờ giấy

Điều tra các tính năng cấu trúc của các mạng xuất hiện từ với số lượng từ được kết nối tăng lên

tác giả

Kihei Magishi, Tomoko Matsumoto, Yutaka Shimada và Tohru Ikeguchi

doi

101587/nolta13343

Lab

Trang phòng thí nghiệm Ikeguchi:http: //wwwhisenkeinet/
Trang của Giáo sư Ikeguchi:https: //wwwtusacjp/academics/teacher/p/indexphp? 1174

Matsumoto Lab Trang:https: //wwwrstusacjp/tomokomatsumoto/indexhtml
Trình hướng dẫn Matsumoto trang:https: //wwwtusacjp/academics/teacher/p/indexphp? 6fe3

Về Đại học tỷ lệ kèo nhà cái net học Tokyo

Đại học tỷ lệ kèo nhà cái net học Tokyo:tỷ lệ kèo nhà cái hôm
Bấm vào đây để biết thêm chi tiết