Побудова семантичних мереж та визначення ступеня розбіжності текстів
DOI:
https://doi.org/10.37750/2616-6798.2022.2(41).270362Ключові слова:
семантична мережа, аналіз природної мови, правова інформація, мережа горизонтальної видимості, порівняння текстів, комп’ютерна лінгвістикаАнотація
У статті викладено методику порівняння текстових документів, що базується на побудові та порівнянні відповідних їм семантичних мереж. Ця методика може стати основою побудови систем порівняння правових документів у рамках парламентського контролю. Також розглянуто алгоритм побудови семантичних мереж як одного із видів онтологій. Цей алгоритм також може застосовуватися в системах автоматичного реферування правової інформації з метою формування лаконічних інформаційно-насичених звітів, коротких анотацій або дайджестів. Пропонована методика може бути використана в процесі обробки запитів при проведенні інформаційного пошуку, надаючи можливість визначення ступеня подібності або відмінності структури та семантики текстів.
Посилання
Mayer-Schönberger V., Cukier K. Big data: A revolution that will transform how we live, work, and think. Houghton Mifflin Harcourt, 2013.
Ланде Д.В., Дмитренко О.О., Радзієвська О.Г. Побудова онтологій в галузі права за даними сервісу Google Scholar. Інформація і право. № 1(28)/2019. C. 74-85.
Lande D.V., Dmytrenko O.O., Radziievska O.H. Subject Domain Models of Jurisprudence According to Google Scholar Scientometrics Data. Proceedings of the 4th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2020). Volume I: Main Conference. Lviv, Ukraine, April 23-24, 2020. CEUR Workshop Proceedings (ceur-ws.org). Vol-2604. Pp 32-43. ISSN 1613-0073.
Lande D.V., Dmytrenko O.O. Using Part-of-Speech Tagging for Building Networks of Terms in Legal Sphere. Proceedings of the 5th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2021). Volume I: Main Conference Lviv, Ukraine, April 22-23, 2021. CEUR Workshop Proceedings (ceur-ws.org). Vol-2870. Pp 87-97. ISSN 1613-0073.
Manning C.D., Raghavan P., &Schütze H. An Introduction to Information Retrieval. Cambridge University Press, 2009. Р. 22-36.
B. Santorini, Part-of-speech tagging guidelines for the Penn Treebank Project, Department of Computer and Information Science School of Engineering and Applied Science University of Pennsylvania Philadelphia, PA 19104, 1990.
Stanza – A Python NLP Package for Many Human Languages. URL: https://stanfordnlp. github.io/stanza
Ukrainian-Stopwords. URL: https://github.com/skupriienko/Ukrainian-Stopwords
Stop-words 2018.7.23. URL: https://pypi.org/project/stop-words
Ланде Д.В., Дмитренко О.О., Радзієвська О.Г. Визначення напрямків зв’язків у мережі термінів: матеріали XIX Міжнародної науково-практичної конференції Інформаційні технології та безпека, ІТБ-2019. Київ: ООО “Инжиниринг”, 2019. C. 103-112.
Lande, D.V., Snarskii, A.A., Yagunova, E.V., & Pronoza, E. V.: The use of horizontal visibility graphs to identify the words that define the informational structure of a text. In: 2013 12th Mexican International Conference on Artificial Intelligence. Pp. 209-215 (2013).
Luque, B., Lacasa, L., Ballesteros, F., & Luque, J.: Horizontal visibility graphs: Exact results for random time series. Physical Review E, 80(4), (2009). doi: 10.1103/PhysRevE. 80.046103.
Gutin, G., Mansour, T., &Severini, S.: A characterization of horizontal visibility graphs and combinatorics on words. Physica A: Statistical Mechanics and its Applications, 390(12), 2421-2428 (2011). doi: 10.1016/j.physa.2011.02.031.
Lacasa, L., Luque, B., Ballesteros, F., Luque, J., & Nuno, J.C.: From time series to complex networks: The visibility graph. Proceedings of the National Academy of Sciences, 105(13), 4972-4975 (2008). doi: 10.1073/pnas.0709247105
Дмитренко О.О. Побудова направлених зважених мереж термінів із застосуванням Part-of-speechtagging. Реєстрація, зберігання і обробка даних, 2020. Т. 22, № 4. С. 47-55. DOI: 10.35681/1560-9189.2020.22.4.225914.
Dmytro Lande, Oleh Dmytrenko: Methodology for Extracting of Key Words and Phrases and Building Directed Weighted Networks of Terms with Using Part-of-speech Tagging. Selected Papers of the XX International Scientific and Practical Conference Information Technologies and Security (ITS 2020). CEUR Workshop Proceedings (ceur-ws.org). Vol-2859. Pp. 168-177. ISSN 1613-0073. URL: http://ceur-ws.org/Vol-2859/ paper14.pdf
Біблія_(Огієнко). URL: https://uk.wikisource.org/wiki/Біблія_(Огієнко)