440
回編集
Kiyota yoji (トーク | 投稿記録) (LTプログラムの追加、変更(福野さんのLt) |
Kiyota yoji (トーク | 投稿記録) 細 (→ライトニングトーク(14件)) |
||
43行目: | 43行目: | ||
::大規模なWeb情報サービスを展開する企業を中心として、いわゆるビッグデータの利用が進みつつあり、巨大なログデータを活用した事例も多数報告されている。しかし、これらの事例を実践できるのは、巨大なログデータへのアクセスが可能なエンジニア(多くの場合、企業の社員、あるいは企業と密接な関係をもつ大学の研究者など)に限られている。巨大なログデータの公開はほとんどなされておらず、AOLクエリーログやNetflixデータセットのように、公開によって深刻なプライバシー上の問題を引き起こすこともある。図書館分野においても、貸出履歴データやOPACのクエリーログの利用の可能性やリスクが議論されているものの、プライバシー上の懸念から、可能性やリスクを検証するためにデータ利用を試すことさえ難しい状況が続いている。しかし、Code4Libコミュニティにおいてログデータ利用のノウハウを蓄積していくことを目指すならば、多くのライブラリアンが同じログデータを共有することはいずれ避けては通れない。そこで、現状での貸出履歴データやクエリーログの共有が難しいことは認めつつ、まずは似た性質(大規模、時系列、解析によって有用な知識が発見できる)をもつログデータを共有し、ハンズオンなどの活動を通じてノウハウの共有も進めていく、という方向性を提案したい。具体的には、Wikipediaのページ閲覧統計データを題材とした時系列解析のノウハウを紹介する。 | ::大規模なWeb情報サービスを展開する企業を中心として、いわゆるビッグデータの利用が進みつつあり、巨大なログデータを活用した事例も多数報告されている。しかし、これらの事例を実践できるのは、巨大なログデータへのアクセスが可能なエンジニア(多くの場合、企業の社員、あるいは企業と密接な関係をもつ大学の研究者など)に限られている。巨大なログデータの公開はほとんどなされておらず、AOLクエリーログやNetflixデータセットのように、公開によって深刻なプライバシー上の問題を引き起こすこともある。図書館分野においても、貸出履歴データやOPACのクエリーログの利用の可能性やリスクが議論されているものの、プライバシー上の懸念から、可能性やリスクを検証するためにデータ利用を試すことさえ難しい状況が続いている。しかし、Code4Libコミュニティにおいてログデータ利用のノウハウを蓄積していくことを目指すならば、多くのライブラリアンが同じログデータを共有することはいずれ避けては通れない。そこで、現状での貸出履歴データやクエリーログの共有が難しいことは認めつつ、まずは似た性質(大規模、時系列、解析によって有用な知識が発見できる)をもつログデータを共有し、ハンズオンなどの活動を通じてノウハウの共有も進めていく、という方向性を提案したい。具体的には、Wikipediaのページ閲覧統計データを題材とした時系列解析のノウハウを紹介する。 | ||
== | ==ライトニングトーク(最大14件)== | ||
'''引き続き募集中!''' [https://docs.google.com/forms/d/1M5drPycOr1kaADcVLpbn_K8vQ9YG2WPQRZ3zcpbpwOg/viewform 応募はこちらから] | '''引き続き募集中!''' [https://docs.google.com/forms/d/1M5drPycOr1kaADcVLpbn_K8vQ9YG2WPQRZ3zcpbpwOg/viewform 応募はこちらから] |
回編集