C4ljp2014/presentation」を編集中

ナビゲーションに移動 検索に移動
警告: ログインしていません。編集を行うと、あなたの IP アドレスが公開されます。ログインまたはアカウントを作成すれば、あなたの編集はその利用者名とともに表示されるほか、その他の利点もあります。

この編集を取り消せます。 下記の差分を確認して、本当に取り消していいか検証してください。よろしければ変更を公開して取り消しを完了してください。

最新版 編集中の文章
40行目: 40行目:
::データカタログのためのソフトウェアの一つとして,Open Knowledge Foundation が開発しているCKANというオープンソースソフトウェアがある.CKANは世界中のデータカタログサイトで採用されているソフトウェアであり,日本においても日本政府のデータカタログサイト試行版をはじめとして,様々なサイトで既に利用されている.本発表では,CKANについての概要や日本における事例,また,CKANのカタログについての紹介をする.それにより,図書館関係者がオープンデータにおいて果たせる役割を考えたい.
::データカタログのためのソフトウェアの一つとして,Open Knowledge Foundation が開発しているCKANというオープンソースソフトウェアがある.CKANは世界中のデータカタログサイトで採用されているソフトウェアであり,日本においても日本政府のデータカタログサイト試行版をはじめとして,様々なサイトで既に利用されている.本発表では,CKANについての概要や日本における事例,また,CKANのカタログについての紹介をする.それにより,図書館関係者がオープンデータにおいて果たせる役割を考えたい.


===<span id="kiyota">[http://www.slideshare.net/ykiyota/wikipedia-38785013 ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み](清田 陽司)</span>===
===<span id="kiyota">ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み(清田 陽司)</span>===
::大規模なWeb情報サービスを展開する企業を中心として、いわゆるビッグデータの利用が進みつつあり、巨大なログデータを活用した事例も多数報告されている。しかし、これらの事例を実践できるのは、巨大なログデータへのアクセスが可能なエンジニア(多くの場合、企業の社員、あるいは企業と密接な関係をもつ大学の研究者など)に限られている。巨大なログデータの公開はほとんどなされておらず、AOLクエリーログやNetflixデータセットのように、公開によって深刻なプライバシー上の問題を引き起こすこともある。図書館分野においても、貸出履歴データやOPACのクエリーログの利用の可能性やリスクが議論されているものの、プライバシー上の懸念から、可能性やリスクを検証するためにデータ利用を試すことさえ難しい状況が続いている。しかし、Code4Libコミュニティにおいてログデータ利用のノウハウを蓄積していくことを目指すならば、多くのライブラリアンが同じログデータを共有することはいずれ避けては通れない。そこで、現状での貸出履歴データやクエリーログの共有が難しいことは認めつつ、まずは似た性質(大規模、時系列、解析によって有用な知識が発見できる)をもつログデータを共有し、ハンズオンなどの活動を通じてノウハウの共有も進めていく、という方向性を提案したい。具体的には、Wikipediaのページ閲覧統計データを題材とした時系列解析のノウハウを紹介する。
::大規模なWeb情報サービスを展開する企業を中心として、いわゆるビッグデータの利用が進みつつあり、巨大なログデータを活用した事例も多数報告されている。しかし、これらの事例を実践できるのは、巨大なログデータへのアクセスが可能なエンジニア(多くの場合、企業の社員、あるいは企業と密接な関係をもつ大学の研究者など)に限られている。巨大なログデータの公開はほとんどなされておらず、AOLクエリーログやNetflixデータセットのように、公開によって深刻なプライバシー上の問題を引き起こすこともある。図書館分野においても、貸出履歴データやOPACのクエリーログの利用の可能性やリスクが議論されているものの、プライバシー上の懸念から、可能性やリスクを検証するためにデータ利用を試すことさえ難しい状況が続いている。しかし、Code4Libコミュニティにおいてログデータ利用のノウハウを蓄積していくことを目指すならば、多くのライブラリアンが同じログデータを共有することはいずれ避けては通れない。そこで、現状での貸出履歴データやクエリーログの共有が難しいことは認めつつ、まずは似た性質(大規模、時系列、解析によって有用な知識が発見できる)をもつログデータを共有し、ハンズオンなどの活動を通じてノウハウの共有も進めていく、という方向性を提案したい。具体的には、Wikipediaのページ閲覧統計データを題材とした時系列解析のノウハウを紹介する。


Code4Lib JAPANへの投稿はすべて、他の投稿者によって編集、変更、除去される場合があります。 自分が書いたものが他の人に容赦なく編集されるのを望まない場合は、ここに投稿しないでください。
また、投稿するのは、自分で書いたものか、パブリック ドメインまたはそれに類するフリーな資料からの複製であることを約束してください(詳細はCode4Lib:著作権を参照)。 著作権保護されている作品は、許諾なしに投稿しないでください!

このページを編集するには、下記の確認用の質問に回答してください (詳細):

編集を中止 編集の仕方 (新しいウィンドウで開きます)