Wikipedia データベースダウンロード

Wikipedia のコンテンツはクローラを使ってはいけないとされている

では,どうするのかというと,ダンプファイルが公開されている.(およそ2週間おきぐらい)

参考元 Wikipedia:データベースダウンロード

各ダンプファイルの説明は 英語版Wikipediaのページが詳しい

日本語版Wikipedia の最新版はここで公開されている

コマンドでダウンロードする場合は

curl -O http://dumps.wikimedia.org/jawiki/latest/(欲しいやつ)

.gz などで圧縮されていることが多いので

gunzip hoge.gz

とすれば解凍できる.

XMLファイルをMySQLにインポートするには,Wikipediaが配布しているMediawikiのphpスクリプトを使えばよい.DL先は

Mediawiki ソフトウェア

ダウンロードしてから,インストールが必要

Mediawiki 設定解説

にもあるとおり,まずはApache等Webサーバーを立てて,ブラウザで

http://localhost/mediawiki/index.php

を開く.後は頑張る.

 

OS X 10.10 YosemiteでApacheを使う方法は,Lion以前と以後で少し変更されているので注意.

OS X 10.10 Yosemite でApacheを使う方法

Mac OS X でApache 等を使う方法

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中