SkillAgentSearch skills...

Ontology

Builds ontology based on dbpedia. Allows to show additional facts while reading new article. Uses Tomita parser to find facts in article.

Install / Use

/learn @stroykova/Ontology
About this skill

Quality Score

0/100

Supported Platforms

Universal

README

Автор: Стройкова Ксения email: k.a.stroykova@gmail.com

ТРЕБОВАНИЯ

Программа запускалась на Windows 7. Для выполнения использовался Python 2.7.3

ЗАПУСК

Исходные данные для онтологии

В репозитории уже расположен файл ontology, составленный из этих дампов

Для составления онтологии необходимо скачать дампы отсюда: http://dumps.wikimedia.org/ruwiki/20140306/

ruwiki-20140306-pages-articles1.xml.bz2 247.4 MB ruwiki-20140306-pages-articles2.xml.bz2 354.7 MB ruwiki-20140306-pages-articles3.xml.bz2 499.5 MB ruwiki-20140306-pages-articles4.xml.bz2 988.1 MB Распаковать и переместить в папку docs

Создать файл category, в котором указать имя категории для поиска

Выполнить python ontology.py docs category

Выходные файлы: categories - файл со списком всех найденных категорий в дампах википедии ontology - файл с найденными краткими описаниями сущностей из категории. article - признак новой сущности. После признака article следует набор ключ -> значение, что соответствует имени факта -> факту.

Извлечение сущностей из статей с помощью Tomita парсера

Перейти в директорию tomita. Создать файл input.txt, поместить в него текст исходной статьи. Выполнить tomitaparser.exe config.proto Будет создан файл output.txt, в котором будет содержаться информация о сущностях в формате xml.

Поиск сущноcтей в онтологии

Перейти в корневую директорию. Выполнить python parse_article.py ontology tomita/output.txt output. output - директория, в которой будет содержаться результат поиска: это набор файлов с сущностями из онтологии.

View on GitHub
GitHub Stars8
CategoryDevelopment
Updated3y ago
Forks1

Languages

Python

Security Score

55/100

Audited on Oct 9, 2022

No findings