Skip to content

Instantly share code, notes, and snippets.

@nezuQ
nezuQ / NLPStudy2.md
Last active August 29, 2015 14:11
NLP勉強会#2の感想(発表別) #NLPStudy

##(再)入門自然言語処理 #02@yamano357) ###質問

  • エンジニアの人が文書を扱う時に今回の発表の中でどれぐらい知っておくべきでしょうか。(もちろん全部知っておくべきだとは思いますが)
  • 前回同様、密度が濃くて勉強になりました。TD-IDFを使う際に、事前に文書集合が与えられていればDFを計算できるが、オンライン学習など事前に文書集合がない場合どのようなベクトル化が良いのかを伺いたいです。
  • IDF求めるときに使うコーパスとして具体的にどのようなものがあるのでしょうか? コーパスによって結果が変わったり偏ったりすることがあると思います。これらの問題を解決する方法はあるのでしょうか?
  • P21 表記ゆれ・言い換え、実際に実適用としてどのように処理すると効果高いか?
  • P22 トピックモデルのスライドに入るとき「表記ゆれ・言い換えの解決として、トピックモデルも使われる」とあったがどう使われるか?
  • 今の発表を理解できないレベルの初心者は何からはじめたら良いでしょうか。
  • トピックを想定した後、そのトピックが何を表しているのかはどう判断すればよいのでしょうか?
  • 自分の復習+新しい事について知れてとても良かったです。各次元削減の手法の特徴(良い点・悪い点)について教えていただけませんでしょうか。
@nezuQ
nezuQ / 入門自然言語処理_導入.ipynb
Last active August 29, 2015 14:11
入門自然言語処理まとめ_1章
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
@nezuQ
nezuQ / NLP勉強会01-希望テーマアンケートの結果.md
Last active August 29, 2015 14:07
NLP勉強会 #1。 希望テーマのアンケート結果。 http://tokyoscrapper.connpass.com/event/9021/

#希望テーマ

  • オントロジー系の応用

  • 自然言語処理のリソースを作るためのWikipedia/Webクローリングに特化した実装よりのお話があれば是非参加させていただきたいと思います。本日はありがとうございました。

  • DeepLearning関連が知りたいです。

  • 意味解析の話題をやってほしい。

  • 文書要約の簡易実装(精度・正確さは問わない!!)

@nezuQ
nezuQ / 辞書作り課題のアイデアソン.md
Last active August 29, 2015 14:07
NLP勉強会#1 ワークショップ の結果。辞書作りの課題と解決策を洗い出しました。 http://www.slideshare.net/nezuQ/nlpstudy?ref=http://tokyoscrapper.connpass.com/event/9021/presentation/

##文学

  • 「ちくしょ〜」「ひゃっほー」などの感動詞の自動的な辞書化(su_9gu)
     ←文頭や文の終わり、隣接する句読点の位置を抽出のヒントに出来ないでしょうか。あと、頻度とかも参考に。

##芸能・ファッション

  • 省略形と元単語との対応関係を把握したい。 例)コーディネートとコーデ。松本潤と松潤。親しみがあるほど短縮形。(IsaoIshiguru)
     ←省略形と元単語は同じ共起関係になるはず。それで判断できないか? (nezuq)
     ←編集距離でどの文字列が削除されているかを自動的に抽出し、学習させる? (akkikiki)
  • 雑誌発の新単語・複合語が多く、寿命も短いので、辞書化し辛い。
     ←Googleトレンド等のAPIを通し単語を取る。その単語をバッチ処理で自動追加。SNSのAPIでキーワード検索し、ヒット件数が少なくなったら削除。(nezuq)
@nezuQ
nezuQ / IE管理者_SJIS.cls
Last active October 27, 2018 07:42
IE操作とスクリーンショット撮りをExcelVBAで自動化する。※SJISコードは文字化けした為、UTF8コードも用意した。
VERSION 1.0 CLASS
BEGIN
MultiUse = -1 'True
END
Attribute VB_Name = "IE�Ǘ���"
Attribute VB_GlobalNameSpace = False
Attribute VB_Creatable = False
Attribute VB_PredeclaredId = False
Attribute VB_Exposed = False
Option Explicit
@nezuQ
nezuQ / JuliaLang - Gadfly.jlのScale機能一覧.ipynb
Created July 5, 2014 02:39
JuliaLang - Gadfly.jlのScale機能一覧
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
@nezuQ
nezuQ / JuliaLang - Gadfly.jlの複数Plotting機能一覧.ipynb
Created July 5, 2014 00:45
JuliaLang - Gadfly.jlの複数Plotting機能一覧
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
@nezuQ
nezuQ / JuliaLang - Gadfly.jlのPlot要素一覧.ipynb
Last active August 29, 2015 14:03
JuliaLang - Gadfly.jlのPlot要素一覧
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
@nezuQ
nezuQ / result.txt
Created June 5, 2014 17:42
PDFマイニング事始め。Rパッケージマニュアルを実行可能ドキュメントにする。 ref: http://qiita.com/nezuq/items/3bbde44cf815ec5c18a6
## Package ‘ggplot2’
##
## May 21, 2014
##
## Type Package
##
## Title An implementation of the Grammar of Graphics
##
## Version 1.0.0
##
@nezuQ
nezuQ / file0.txt
Created June 1, 2014 15:37
徹底攻略PDFオープンデータ。PDFMinerで始めるPDFテキスト分析。 ref: http://qiita.com/nezuq/items/75e8366d68c66e56ff53
python setup.py install