実験第二A,B 「テキスト処理プログラミング入門」(担当: 寺田) 2016

概要

自然言語のテキストを処理して情報を抽出するプログラミングについて Java言語をもちいて学習する。

  • なぜJavaか
    Javaには、Collection Framework という、 現実的なプログラミングで必要となるデータ構造のライブラリが含まれている。 (List, Set, Map など) これらはオブジェクト指向機能を利用した設計がされていて、 同じ機能を提供する、実装方式が異なる複数のクラスが使える。 これらから利用の仕方によって最適なクラスが選べる。 また、それを利用するほうでもオブジェクト指向機能を活用することになる。
  • なぜ自然言語処理
    これまでやってきた数値的なプログラムとは異なる分野であることが一点。 また、最近重要性が高まっている分野でもある。 さらに、基本的な技術でいろいろなことができるというメリットもある。

キーワード

N-gram, tf-idf, 形態素解析, キーワード抽出

スケジュール

第1ラウンド (1j) CED座席エリア: 1

QA/R1 掲示板(ユーザ名は student1, 要パスワード)- 質問その他に使ってください。

R1 レポート

第4ラウンド (4j) CED座席エリア: 1

QA/R4 掲示板(ユーザ名は student4, 要パスワード)- 質問その他に使ってください。

R4 レポート

Java リファレンス

  • Java™ Platform, Standard Edition 7 API Specification
    こちらは英語版のクラスライブラリ仕様。 定型的な文章なので、「英語としては」やさしい. むしろ誤訳の心配とかがないので、勉強だと思ってこちらを読むのがおすすめ。
  • The Java Language Specification, Java SE 7 Edition
    本家にあるJavaの言語仕様。英語で書いてあることを別にしても、これは難しい。 言語の入門用ではありません。でもいつか読めるようになるといいな。
  • The Java Tutorials
    本家にあるチュートリアル(解説)のトップ。 これまた英語だけれど、読めるようになるのも勉強のうち。 まんなかあたりにある"Getting Started" (「はじめの一歩」みたいな感じかな)を 眺めてみるといいだろう。

2014年のはじめに、Oracle社はJavaの新しいEditionを発表しました。 Java 8 と呼ばれています。 しかし今回の実験は、Java 7 でいくことにしましょう。 興味のあるひとは勉強してみるといいかも、なのですが、 まだCEDのJava処理系は 8 にはなっていないようです。

プログラムについてあれこれ

  • Mapの利用
    Mapでキーを与えて値を取り出すには get を使えば済むのに、それをわざわざ自分で探したりしてはいかん。

Eclipseの使い方についてあれこれ

このページのURL

http://pr.cei.uec.ac.jp/~terada/lectures/jikken/2016/pukiwiki/


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2017-01-31 (火) 15:43:40 (58d)