Ontology
Builds ontology based on dbpedia. Allows to show additional facts while reading new article. Uses Tomita parser to find facts in article.
Install / Use
/learn @stroykova/OntologyREADME
Автор: Стройкова Ксения email: k.a.stroykova@gmail.com
ТРЕБОВАНИЯ
Программа запускалась на Windows 7. Для выполнения использовался Python 2.7.3
ЗАПУСК
Исходные данные для онтологии
В репозитории уже расположен файл ontology, составленный из этих дампов
Для составления онтологии необходимо скачать дампы отсюда: http://dumps.wikimedia.org/ruwiki/20140306/
ruwiki-20140306-pages-articles1.xml.bz2 247.4 MB ruwiki-20140306-pages-articles2.xml.bz2 354.7 MB ruwiki-20140306-pages-articles3.xml.bz2 499.5 MB ruwiki-20140306-pages-articles4.xml.bz2 988.1 MB Распаковать и переместить в папку docs
Создать файл category, в котором указать имя категории для поиска
Выполнить python ontology.py docs category
Выходные файлы: categories - файл со списком всех найденных категорий в дампах википедии ontology - файл с найденными краткими описаниями сущностей из категории. article - признак новой сущности. После признака article следует набор ключ -> значение, что соответствует имени факта -> факту.
Извлечение сущностей из статей с помощью Tomita парсера
Перейти в директорию tomita. Создать файл input.txt, поместить в него текст исходной статьи. Выполнить tomitaparser.exe config.proto Будет создан файл output.txt, в котором будет содержаться информация о сущностях в формате xml.
Поиск сущноcтей в онтологии
Перейти в корневую директорию. Выполнить python parse_article.py ontology tomita/output.txt output. output - директория, в которой будет содержаться результат поиска: это набор файлов с сущностями из онтологии.
