Krautkanal.com

Veröffentlicht am 2013-08-20 20:28:39 in /w/

/w/ 13808: Lieber Datenbernd und möglicherweise evtl. an...

kuldarkalvik Avatar
kuldarkalvik:#13808

Lieber Datenbernd und möglicherweise evtl. angehender Akadem-Bernd,

Aus ständig gegebenem Anlaß soll dieser Faden sich im Speziellen und auch im Allgemeinen mit Bewältigungsstrategien der Informationsflut beschäftigen. Ähnliche Probleme sind wahrscheinlich vielen bekannt:

1. Stellvertretend der Fall, der assoziativ zu diesem Post führte:
https://de.wikipedia.org/wiki/Agnostizismus
... nennt viele OP unbekannte philosophische Strömungen, der gierige Geist beklickt die entsprechenden Links zwecks Wissengewinn und blokiert sich durch Fokusverlust selbst.
Was sind deine Bewältigungsstrategien? Dieser Bernd liest zweimal , wenn er muss, und versucht, die Eintauchtiefe fallgemäß zu regulieren. Fühlt nicht besonders effizient und unbefriedigend. Erleuchte er mich mit einer besseren Strategie.

2. Wie kategorisiere ich große Datenmengen (Beispiel: Musik ähnlicher Richtung nach Richtung, wobei eine zunehmend feine Kategorisierung irgendwann nur von sturem Pedantismus zeugt: "pirate transgender rriot rock" ?).

Ideen, Tutorials, dein Procedere hier rein :3

In der Hoffnung, was Hilfreiches angestoßen zu haben, denn der Info-Debris trägt die alleinige Schuld an allem.

kennyadr Avatar
kennyadr:#13813

Es gibt einen ganzen Bereich, welcher sich mit der Verarbeitung von 'big data' beschäftigt. Dort setzt man unter anderem clustering algorithmen zur Identifikation gleichartiger Samples in Datenbanken ein.

Für OPs Recherchen sollte ein College-Block zum Anferigen von Notizen ausreichen, evtl. eine Mindmap, um die Themenbereiche in Bezug zu setzen.

Ansonsten sollte das von OP beschriebene Prozedere ausreichen.

Bild teilweise verwandt: Eine taxonomische Gliederung kann helfen, Übersicht über einen Themenbereich zu erhalten. Hier gezeigt sind verschiedene Datenstrukturen zur Beschleunigung der Suche nach Objekten in d-dimensionalen Räumen.

moynihan Avatar
moynihan:#13826

Vielen Dank für diese hilfreiche Antwort, alle Punkte. Könntest Du einige Literaturangaben liefern, zB und ua Quelle des Bildes?

Stoß für weitere Strategien.

sava2500 Avatar
sava2500:#13873

>>13808
Moment, du hast also zu viel in Wikipedia herumgeklickt und wunderst dich jetzt dass du nichts davon behalten hast? Na ja.

>Was sind deine Bewältigungsstrategien?
Tiefe statt Breite. Wikipedia-Artikel beziehen sich zwar durch Links aufeinander, aber nicht im Inhalt (Enzyklopädie eben, Redundanz ist nicht gerade deren Stärke). Das heißt, jedes Faktum wird genau einmal genannt und das war's dann. Das reicht aber nicht es in deinem Gehirn abzuspeichern.
Die "Strategie" die ich dir empfehlen würde ist also: Lies mal ein Buch. Und dann noch eins. Aber lies erst das erste fertig.

>Wie kategorisiere ich große Datenmengen?
Wer will das wissen? Du, der du gerade dabei bist dein iTunes zu sortieren, oder jemand der gerade einige Gigabyte an Text bekommen hat und versucht herauszufinden worum es darin geht?
Deine Frage ist viel zu generell und lässt sich nur abhängig von einem gegebenen Datensatz beantworten.

Generell ist zu >>13813 zu sagen dass es natürlich stimmt dass sich Leute mit Big Data beschäftigen, aber anders als OP sich das vorstellt. "Big Data" fängt bei, sagen wir, einer Million Samples [Instanzen] an; niemand wird das manuell kategorisieren oder auch nur ansehen. Da wo Big Data anfängt (und nein, ich mag dieses Wort nicht) verlieren Ontologien [komplexere Taxonomien] ihren Nutzen, weil mit Logik und Deduktion nichts mehr zu machen ist. Statt dessen schleichen sich immer mehr statistische Verfahren ein, Clustering ist da ja wirklich nur eine von n Methoden.

Insgesamt ist das ein recht interessantes Thema, und zufällig bin ich etc., aber man muss wirklich genau wissen wovon man spricht. Kognitive Strategien und IT-Lösungen stehen da orthogonal zueinander und auch wenn es Spaß macht das zu glauben: Suchmaschinen werden niemals traditionell gelerntes Wissen ersetzen, da kann der Herr Schmidt noch so viel schwadronieren. Nicht weil die Technik noch nicht weit genug ist, sondern prinzipiell.

Generell empfehle ich bei solchen Themen immer gerne
http://www.amazon.com/The-Shallows-Internet-Doing-Brains/dp/0393339750
, wenn die Leute danach angeschissen kommen und meinen das sei doch alles Blödsinn weiß man dass man seine Zeit besser verbringen kann. Ja, der Bezug zu OPs Frage ist nicht direkt deutlich bevor man das Buch gelesen hat. Nein, es gibt kein Buch das seine Frage direkt beantwortet. Als zweites Buch empfehle ich Evgeny Morozovs letztes, und danach ein Buch über Data Mining.

degandhi024 Avatar
degandhi024:#13879

>> 13873

... stellvertetende Fälle, es kann genausogut ein Script Deiner Lieblingsuniversität oder ein Buch mit einem eklektischen Ansatz sein, welche ein Querlesen beteiligter Bereiche erzwingen. Beispiele sollten einfach die Frageproblematik farbig stützen - deswegen war von "stellvertetend" und "assoziativ" die Rede. In weiser Voraussicht Deiner Antwort - und wer ist schon weise - hätte ich folgendermaßen aufteilen sollen:

Frage 2
a) wie menscheln und effizient lernen?
b) algorithmische Ansätze für Stahl & Silizium,

aber wäre dies nicht gerade zu Diskussionsbeginn durch erhöhtes Arschb für die 2a-Klientel zu pedantisch? Ab jetzt also: Wähle Deine Schublade :3

Informationstechnische Literaturtips zu 2. evtl. subjektiv relevant. Du weisst, Du bekommst nichtsdestotrotz einen Wikipedia-Artikel als Dank, als Inspiration für eigene Forschungen, hey:
http://de.wikipedia.org/wiki/Kommaregeln

Syntax ist nicht schwer :3

thehacker Avatar
thehacker:#13880

>>13879

Für 2a empfehle ich wie gehabt nichts zu parallelisieren, sondern immer nur ein Buch/Artikel/etc gleichzeitig zu lesen. Und je mehr Redundanz desto besser, besonders über diverse Kontexte hinweg. Bsp.: Wenn du über die Entwicklung des Telegraphen einmal aus soziologischer Sicht und einmal aus technischer Sicht liest hast du am Ende insgesamt mehr Fakten behalten als wenn du eines der Bücher zweimal gelesen hast.

Auf die Gefahr hin mich unnötig zu wiederholen: Es gibt für 2b nicht einen (1) Ansatz. Vielmehr haben wir:
2b1: Algorithmen für kleine Mengen an strukturierten Daten
2b2: Algorithmen für große Mengen an strukturierten Daten
2b3: Algorithmen für kleine Mengen an unstrukturierten Daten
2b4: Algorithmen für große Mengen an unstrukturierten Daten

2b1 nennt sich je nach akademischem Hintergrund Ontologien, Description Logics, Semantic Web.
2b2 nennt sich Linked Open Data und hieß mal Semanic Web bevor sie gemerkt haben von wie vielen Daten wir wirklich sprechen.
2b3 ist Blödsinn und funktioniert nur wenn ausführliches Expertenwissen über die Entstehung der Daten vorhanden ist, sprich, man wird da kein Modell finden sondern bestenfalls ein bestehendes evaluieren.
2b4 nennt sich Information Retrieval.

Such dir eins aus, vermutlich meinst du 2b1.

Wenn du übrigens meine Kommasetzung bemängelst musst du dir auch den Hinweis gefallen lassen dass *deine* Syntax von keinem Parser der Welt aufgelöst werden könnte.
Einfache Erklärung: Ich lebe im Ausland und schreibe so gut wie gar kein Deutsch. Außerdem spreche ich zu viele Sprachen die dem Deutschen ähnlich sind, keine Chance das sauber auseinanderzuhalten.

orkuncaylar Avatar
orkuncaylar:#13882

>>13880 hat sicherlich recht. Dieser Bernd spricht drei Weltsprachen fließend. Interessanter Fakt: Kommasetzungsregeln unterscheiden sich immens. So werden in der germanischen Sprachfamilie nicht, wie man meinen könnte, Hauptsätze durch Kommas getrennt, sondern ist die Setzung von Satzzeichen vielmehr an den Mondkalender und das Kirchenjahr gebunden. Die slawische Sprachfamilie bedient sich eines Reglements, welches auf traditionelle Rituale wie Barthaarverbrennung und rhythmische Trancetänze setzt. Im Englischen gilt das bei Kommasetzung immer Recht des stärkeren. Ungleich schwerer muss es wohl bei von dir erwähntem Niederländisch, Flämisch etc. sein, bei der syntaktischen Varianz.
Ich bin überzeugt, dass deine Parser hacken und hacken werden. Du bist richtig in diesem Thread, aber augenscheinlich als Leser :3 Literaturtipps von dir, was ist dran so schwer zu verstehen?

joshuapekera Avatar
joshuapekera:#13883

>>13882
Wenn man erstmal Niederländisch kann ist Flämisch wirklich zum Kotzen. Ich weigere mich das zu "lernen", da können sie noch so darauf pochen dass es das bessere Niederländisch ist.

Zum Thema: Wenn du Literatur haben willst musst du mir schon verraten was du an Hintergrundwissen mitbringst und wie technisch du es haben willst... wirkt dieses Bild auf dich abschreckend, völlig nichtssagend, oder interessant?

zackeeler Avatar
zackeeler:#13887

Es sieht in der Tat interessant aus, aber das Wissenslicht dieses Bernds reicht noch nicht weit genug für volle Anerkennung. Mengenrealationen von Unterteilbereichen eines Ganzen + Laufzeit, soweit ich es deuten kann.

mikaeljorhult Avatar
mikaeljorhult:#13888

>>13887
Ok, damit kann man arbeiten :3
Hier, für 2b1 und 2b2 ist das ein guter Primer.

Wenn du aber wirklich ein Gespür dafür bekommen willst was mit diesem theoretischen Kram gemacht wird, solltest du dir mal OWL 1.0 (Web Ontology Language; kein Tippfehler) ansehen und mit Protege herumspielen. Falls du das tust, mach auf jeden Fall das "Pizza-Tutorial". OWL bzw. generell eine Beschreibungslogik ist ziemlich genau das wonach du im OP gefragt hast: die Kategorisierung erfolgt nur auf Basis von elementaren Eigenschaften (ein Album ist z.B. "rock"), aber du kannst jederzeit dynamisch neue Kategorien bauen (wenn ein "rock"-Album gewisse Eigenschaften hat ist es "pirate rock", wegen einer anderen Eigenschaft ist es auch "transgender rock" oder "riot rock") und dadurch andere Kategorien bauen ohne ein eigenes Konzept dafür benennen zu müssen (welche Alben haben noch diese Eigenschaften? Dieser Query gibt dir die implizite Kategorie "pirate transfgender riot rock".)

Hoffe das hilft.

linux29 Avatar
linux29:#13895

Hoffnung stirbt zuletzt.
Danke für Deine Info, Literatur und weiterführende Tips, informationswissenschaftsbeschlagener Bernd :3

Bernd Avatar
Bernd:#13920

Blinde Volltextsuche schlägt alle anderen Verfahren, da dieses Akademenz-Metadaten-Zeug viel zu umständlich ist.

Das lohnt sich also, wenn man es einmal macht und dann Milliarden Nutzer hat (Bibliotheken), oder wenn die Daten kooperativ eingepflegt werden (Wikilallia usw).

andrewofficer Avatar
andrewofficer:#13921

Semi-relatiert: was denkt Bernd über Research Gate?

chanpory Avatar
chanpory:#13922

>>13920
Dir sollte Google ab jetzt alles alphabetisch vorsetzen statt nach Relevanz geordnet, bis du dich entschuldigst.

nerrsoft Avatar
nerrsoft:#13923

Was bist denn du für ein Spezialexperte?

Der Erfolg von Google basiert gerade auf blinder Suche.
Alle anderen Konkurrenten (Deweys Dezimalsystem, bürokratisch geführte Listen von "Kategorien" a la Yahoo) hatten keine Chance.
Und Google wurde verkrebster, als sie angefangen haben, "schlau" zu werden (zB Worte zu ersetzen, weil HAHAHAHA!)



Auch: Bernd schreibt die Wahrheit und wird paniert. Was ist nur aus /w geworden

(USER WURDE FÜR DIESEN POST GESPERRT)

turkutuuli Avatar
turkutuuli:#13924

>>13923
>Der Erfolg von Google basiert gerade auf blinder Suche.
http://en.wikipedia.org/wiki/PageRank
http://en.wikipedia.org/wiki/Text_mining#Text_analysis_processes
http://en.wikipedia.org/wiki/Meta_element#Meta_element_used_in_search_engine_optimization