Code

lyricwiki: convert numeric HTML escape sequences to proper characters
[ncmpc.git] / lyrics / 02-lyricwiki.rb
1 #!/usr/bin/env ruby
2 #
3 #  (c) 2004-2008 The Music Player Daemon Project
4 #  http://www.musicpd.org/
5 #
6 #  This program is free software; you can redistribute it and/or modify
7 #  it under the terms of the GNU General Public License as published by
8 #  the Free Software Foundation; either version 2 of the License, or
9 #  (at your option) any later version.
10 #
11 #  This program is distributed in the hope that it will be useful,
12 #  but WITHOUT ANY WARRANTY; without even the implied warranty of
13 #  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
14 #  GNU General Public License for more details.
15 #  You should have received a copy of the GNU General Public License
16 #  along with this program; if not, write to the Free Software
17 #  Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
18 #
20 #
21 # Load lyrics from lyrics.wikia.com, formerly lyricwiki.org
22 #
24 require 'uri'
25 require 'net/http'
26 require 'cgi'
28 url = "http://lyrics.wikia.com/api.php?action=lyrics&fmt=xml&func=getSong" + \
29     "&artist=#{URI.escape(ARGV[0])}&song=#{URI.escape(ARGV[1])}"
30 response = Net::HTTP.get(URI.parse(url))
32 if not response =~ /<url>\s*(.*?)\s*<\/url>/im
33         $stderr.puts "No URL in response!"
34         exit(1)
35 end
37 url = $1
38 exit(69) if url =~ /action=edit$/
40 response = Net::HTTP.get(URI.parse(url))
41 if not response =~ /<div class='lyricbox'>\s*(.*?)\s*<!--/im
42         $stderr.puts "No <div class='lyricbox'> in lyrics page!\n"
43         exit(1)
44 end
46 if not $1 =~ /^.*<\/div>(.*?)$/im
47         $stderr.puts "Couldn't remove leading XML tags in lyricbox!\n"
48         exit(1)
49 end
51 puts CGI::unescapeHTML($1.gsub(/<br \/>/, "\n"))