val path = s"datasets/imdb.csv"

val data = sc.textFile(path)
    // Remove HTML, string escapes and punctuation
    .map(w => w.replaceAll("""<(?!\/?a(?=>|\s.*>))\/?.*>""", ""))
    .map(w => w.replaceAll("""[\…\”\'\’\`\,\(\)\"\\]""", ""))
    // Make lowercase
    .map(w => w.toLowerCase)
    // Word2Vec works at the sentence level
    .flatMap(c => c.split("[.?!;:]")).map(_.trim)

Intitializing Scala interpreter ...

Spark Web UI available at http://192.168.178.199:4040
SparkContext available as 'sc' (version = 3.0.1, master = local[*], app id = local-1633376834637)
SparkSession available as 'spark'

path: String = datasets/imdb.csv
data: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[6] at map at <console>:34


data.take(3).foreach(l => println("  R:" + l))

  R:review
  R:jennifer ehle was sparkling in pride and prejudice
  R:jeremy northam was simply wonderful in the winslow boy


import org.apache.spark.ml.linalg.Vector
import org.apache.spark.sql.Row
import org.apache.spark.sql.types._

// Convert trainData from RDD[String] to DataFrame[Array[String]]
val schema = StructType(Seq(StructField("text", ArrayType(StringType, true), true)))
var documentDF = spark.createDataFrame(data.map(r => org.apache.spark.sql.Row(r.split(" "))), schema)
documentDF.take(2).foreach(println)

[WrappedArray(review)]
[WrappedArray(jennifer, ehle, was, sparkling, in, pride, and, prejudice)]

import org.apache.spark.ml.linalg.Vector
import org.apache.spark.sql.Row
import org.apache.spark.sql.types._
schema: org.apache.spark.sql.types.StructType = StructType(StructField(text,ArrayType(StringType,true),true))
documentDF: org.apache.spark.sql.DataFrame = [text: array<string>]


import org.apache.spark.ml.feature.StopWordsRemover

// Remove stop words
val stopWordsRemover = new StopWordsRemover().setInputCol("text").setOutputCol("nostopwords")
documentDF = stopWordsRemover.transform(documentDF)

documentDF.take(2).foreach(println)

[WrappedArray(review),WrappedArray(review)]
[WrappedArray(jennifer, ehle, was, sparkling, in, pride, and, prejudice),WrappedArray(jennifer, ehle, sparkling, pride, prejudice)]

import org.apache.spark.ml.feature.StopWordsRemover
stopWordsRemover: org.apache.spark.ml.feature.StopWordsRemover = StopWordsRemover: uid=stopWords_2855c252242d, numStopWords=181, locale=en_GB, caseSensitive=false
documentDF: org.apache.spark.sql.DataFrame = [text: array<string>, nostopwords: array<string>]


import org.apache.spark.ml.feature.Word2Vec

// Learn a mapping from words to Vectors
val word2Vec = new Word2Vec()
    .setInputCol("text")
    .setOutputCol("result")
    .setVectorSize(200)
    .setMinCount(10)
val model = word2Vec.fit(documentDF)

import org.apache.spark.ml.feature.Word2Vec
word2Vec: org.apache.spark.ml.feature.Word2Vec = w2v_b8b665ef2a0e
model: org.apache.spark.ml.feature.Word2VecModel = Word2VecModel: uid=w2v_b8b665ef2a0e, numWords=21593, vectorSize=200


// Find synonyms for a single word
model.findSynonyms("pitt", 10).collect.foreach(println)

[finney,0.7722606062889099]
[perlman,0.7646912336349487]
[dourif,0.746439516544342]
[garrett,0.7226223945617676]
[ford,0.6852742433547974]
[palillo,0.6821386218070984]
[pyun,0.6814386248588562]
[bale,0.6788373589515686]
[jeremy,0.678361177444458]
[slater,0.6644403338432312]


def toDF(s: String) = 
    spark.createDataFrame(Seq(s.trim
        .toLowerCase
        .split(" ")
    ).map(Tuple1.apply))
    .toDF("text")

toDF("James Bond").collect.foreach(println)

[WrappedArray(james, bond)]

toDF: (s: String)org.apache.spark.sql.DataFrame


val q = model.transform(toDF("James Bond")) 
q.printSchema

root
 |-- text: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- result: vector (nullable = true)

q: org.apache.spark.sql.DataFrame = [text: array<string>, result: vector]


def query(s: String) = {
    val q = model.transform(toDF(s))
    val qTokens = s.toLowerCase.split(" ")

    model.findSynonyms(q.first.getAs[Vector]("result"), 10)
        .filter(r => !qTokens.contains(r(0)))
        .collect
        .foreach(println)
}

query: (s: String)Unit


query("Movie")

[film,0.8398674130439758]
[flick,0.598155677318573]
[cartoon,0.5386905670166016]
[mini-series,0.535006582736969]
[moviesbut,0.5239917635917664]
[documentary,0.5068673491477966]
[show,0.5063693523406982]
[stinker,0.49897581338882446]
[picture,0.49263861775398254]


query("brad pitt is a great actor")

[dourif,0.6699931025505066]
[terence,0.6649662256240845]
[mabius,0.659092128276825]
[dustin,0.6457685232162476]
[stoltz,0.6436259746551514]
[silva,0.6400138139724731]
[raoul,0.6366493105888367]
[elisabeth,0.6356052160263062]


import org.apache.spark.ml.linalg.DenseVector
import math._

def vectorDiff(xs: Vector, ys: Vector) : Vector =
    new DenseVector((xs.toArray zip ys.toArray).map { case (x,y) => x - y})

def vectorDistance(xs: Vector, ys: Vector) = 
  sqrt((xs.toArray zip ys.toArray).map { case (x,y) => pow(y - x, 2) }.sum)

import org.apache.spark.ml.linalg.DenseVector
import math._
vectorDiff: (xs: org.apache.spark.ml.linalg.Vector, ys: org.apache.spark.ml.linalg.Vector)org.apache.spark.ml.linalg.Vector
vectorDistance: (xs: org.apache.spark.ml.linalg.Vector, ys: org.apache.spark.ml.linalg.Vector)Double


def analogy(x: String, isToY: String, likeZ: String, isToA: String) {
    val q = model.transform(toDF(x))
    val w = model.transform(toDF(isToY))
    val m = model.transform(toDF(likeZ))
    val k = model.transform(toDF(isToA))

    val left = vectorDiff(q.first.getAs[Vector]("result"), w.first.getAs[Vector]("result"))
    val right = vectorDiff(k.first.getAs[Vector]("result"), m.first.getAs[Vector]("result"))
    println(vectorDistance(left, right))
}

analogy: (x: String, isToY: String, likeZ: String, isToA: String)Unit


analogy("king","man","queen","woman")

4.502840631713733


analogy("soldier","army","sailor","navy")

2.1463648185567026


analogy("Athens","Greece","Paris","France")

2.1083978795843925


analogy("brother","sister","grandson","grandaughter")

1.8668779419101222


// The dataset is from the mid-00s :-)
analogy("brad pitt","angelina jolie","Leonardo DiCaprio", "Gisele Bundchen")

1.644923423629974

Term relations with Word2Vec¶

Loading the data¶

Converting the data to a Dataframe¶

Removing stopwords¶

Training the model¶

Checking analogies¶

Term relations with Word2Vec¶

Loading the data¶

Converting the data to a Dataframe¶

Removing stopwords¶

Training the model¶

Checking for related terms¶

Checking analogies¶